Google DeepMind, phòng nghiên cứu AI hàng đầu của Google, vừa công bố Veo 2, một mẫu AI sinh video thế hệ mới nhằm cạnh tranh với OpenAI trong lĩnh vực tạo video. Veo 2 là phiên bản kế tiếp của Veo, đang làm nền tảng cho nhiều sản phẩm trong danh mục của Google. Mẫu AI này có khả năng tạo ra các đoạn phim dài hơn 2 phút với độ phân giải lên đến 4K (4096 x 2160 pixel), vượt trội hơn gấp bốn lần về độ phân giải và hơn gấp sáu lần về thời gian so với sản phẩm Sora của OpenAI. Tuy nhiên, điều này hiện chỉ có thể trong công cụ thử nghiệm VideoFX của Google, nơi mà Veo 2 hiện tại đang được giới hạn ở độ phân giải 720p và thời gian tối đa là 8 giây.
Eli Collins, phó giám đốc sản phẩm tại DeepMind, cho biết Veo 2 sẽ được cung cấp thông qua nền tảng phát triển Vertex AI của Google khi mẫu đã sẵn sàng cho việc sử dụng quy mô lớn. Collins cho biết thêm rằng trong vài tháng tới, Google sẽ tiếp tục cải thiện dựa trên phản hồi từ người dùng và tìm cách tích hợp các khả năng mới của Veo 2 vào nhiều ứng dụng hấp dẫn trong hệ sinh thái của Google.
Veo 2, giống như Veo, có khả năng tạo ra video dựa trên các lệnh văn bản hoặc kết hợp giữa văn bản và hình ảnh tham khảo. Những điểm mới của Veo 2 là mẫu AI này đã được cải thiện về khả năng “hiểu” vật lý và điều khiển máy quay, cho phép tạo ra các video với hình ảnh sắc nét hơn và chuyển động mượt mà hơn. Bên cạnh đó, Veo 2 còn có khả năng mô phỏng chuyển động, động lực học của chất lỏng và tính chất ánh sáng một cách tinh tế hơn.
DeepMind đã chia sẻ một số mẫu video từ Veo 2 và nhận định rằng chúng trông rất ấn tượng, đặc biệt là trong việc mô phỏng các vật thể phức tạp như nước rót và hiệu ứng hoạt hình kiểu Pixar. Tuy nhiên, dòng công nghệ AI này vẫn gặp một vài thách thức như tính hiệu quả trong việc giữ vững các yếu tố mà người dùng yêu cầu trong khoảng thời gian dài.
Người sáng lập DeepMind thừa nhận rằng vẫn còn nhiều công việc phải làm để cải thiện tính nhất quán và chi tiết của các video được tạo ra, như mô phỏng chuyển động nhanh hay chi tiết phức tạp. Để có được kết quả tối ưu, DeepMind đang phối hợp với nhiều nghệ sĩ và nhà sản xuất từ những ngày đầu phát triển Veo.
Veo 2 được đào tạo dựa trên một lượng lớn video, nhưng DeepMind không tiết lộ chính xác nguồn dữ liệu mà họ đã sử dụng, mặc dù YouTube có thể là một trong những nguồn tài nguyên đó. Mặc dù DeepMind đã xây dựng cơ chế cho phép các chủ sở hữu trang web chặn bot của mình, nhưng vẫn chưa có phương thức nào cho phép các nhà sáng tạo yêu cầu xóa các tác phẩm của họ khỏi tập huấn luyện hiện tại.
Là một phần trong nỗ lực giảm thiểu rủi ro từ việc tạo video giả mạo, DeepMind đã phát triển công nghệ đánh dấu riêng SynthID, nhằm thêm những dấu ấn vô hình vào các khung hình do Veo 2 tạo ra. Tuy nhiên, như với tất cả các công nghệ đánh dấu, sự hoàn thiện vẫn chưa được đảm bảo.
Bên cạnh Veo 2, Google DeepMind cũng đã công bố các nâng cấp cho Imagen 3, mẫu AI tạo hình ảnh thương mại của mình, với khả năng tạo ra hình ảnh chất lượng cao hơn và trung thành hơn với các lệnh mà người dùng yêu cầu. Nâng cấp này mở ra nhiều khả năng mới cho người dùng sáng tạo nội dung trong tương lai.