Veo: Mô hình tạo video tiên tiến nhất của Google

Đăng bởi: Hoàng Lịch • Ngày: 15/05/2024

Veo là mô hình tạo video tiên tiến nhất của Google tính đến thời điểm hiện tại. Mô hình này có khả năng tạo ra các video có độ phân giải 1080p chất lượng cao, với thời lượng có thể kéo dài hơn một phút và thể hiện được nhiều phong cách điện ảnh, hình ảnh khác nhau.

Veo có hiểu biết nâng cao về ngôn ngữ tự nhiên và ngữ nghĩa hình ảnh, đồng thời tạo ra video tái hiện gần như hoàn hảo tầm nhìn sáng tạo của người dùng bằng cách khắc hoạ các chi tiết trong câu lệnh dài và nắm bắt tông điệu tổng thể một cách chính xác.

Mô hình này cũng hiểu rõ các thuật ngữ điện ảnh như “timelapse” (chụp ảnh tua nhanh thời gian) hoặc “aerial shots of a landscape” (ảnh chụp phong cảnh từ trên không), mang lại cho người dùng khả năng kiểm soát sáng tạo chưa từng có. Veo cũng tạo ra những cảnh quay nhất quán và mạch lạc, tái hiện chuyển động chân thực của con người, động vật và vật thể trong suốt các khung hình.

Để khám phá cách Veo có thể hỗ trợ cho quá trình sáng tạo của người kể chuyện một cách tốt nhất, Google hiện đang gửi lời mời kêu gọi các nhà làm phim và nhà sáng tạo thử nghiệm mô hình này. Những màn kết hợp này cũng giúp Google cải thiện cách thiết kế, xây dựng và triển khai các công nghệ của mình để đảm bảo rằng tiếng nói của những nhà sáng tạo được lắng nghe trong quá trình phát triển công cụ.

Veo là sự tiếp nối của nhiều năm nghiên cứu và phát triển mô hình tạo video của Google, bao gồm Generative Query Network (GQN), DVD-GAN, Imagen-Video, Phenaki, WALT, VideoPoet and Lumiere – kết hợp kiến trúc, các quy luật tỷ lệ và kỹ thuật mới lạ khác để cải thiện chất lượng và độ phân giải đầu ra.

Với Veo, Google đã thực hiện cải tiến các kỹ thuật về cách mô hình học hỏi để hiểu nội dung của video, tạo ra hình ảnh có độ phân giải cao, mô phỏng vật lý trong thế giới của chúng ta và hơn thế nữa. Những kiến thức này sẽ thúc đẩy sự tiến bộ trong nghiên cứu AI của Google và cho phép hãng xây dựng các sản phẩm hữu ích hơn, từ đó giúp mọi người tương tác và giao tiếp theo những cách thức mới.

Bắt đầu từ hôm nay, Veo đã có sẵn dưới dạng bản xem trước riêng tư trong VideoFX dành cho một số nhà sáng tạo nhất định. Bạn cũng có thể đăng ký tham gia vào danh sách chờ để được trải nghiệm mô hình này sớm nhất. Trong tương lai, Google cũng sẽ tích hợp một số tính năng của Veo vào YouTube Shorts và các sản phẩm khác.

Bên cạnh Veo, Google cũng công bố Imagen 3 – mô hình chuyển đổi văn bản thành hình ảnh có chất lượng cao nhất của hãng. Mô hình này có khả năng tái tạo chi tiết ở mức độ đáng kinh ngạc, sản xuất ra những hình ảnh sống động, chân thực, đồng thời giảm thiểu các chi tiết gây nhiễu loạn một cách đáng kể so với các mô hình trước đó.

Imagen 3 hiểu rõ hơn về ngôn ngữ tự nhiên, mục đích đằng sau mỗi câu lệnh và có khả năng kết hợp các chi tiết nhỏ từ các câu lệnh dài. Chi tiết bổ sung này giúp tăng cường khả năng sáng tạo hình ảnh của Imagen 3 ở nhiều phong cách khác nhau.

Đây cũng là mô hình tốt nhất của Google khi nói đến khả năng hiển thị văn bản, vốn là một thách thức với các mô hình sáng tạo hình ảnh khác. Tính năng cho phép các nhà sáng tạo tạo ra thông điệp sinh nhật được cá nhân hoá, slide tiêu đề cho bài thuyết trình và các tác vụ khác.

Bắt đầu từ hôm nay, Imagen 3 đã có sẵn dưới dạng bản xem trước riêng tư trong ImageFX dành cho một số nhà sáng tạo nhất định. Bạn cũng có thể đăng ký tham gia vào danh sách chờ để được trải nghiệm mô hình này sớm nhất. Imagen 3 sẽ sớm có mặt trên Vertex AI.