Google đã chính thức giới thiệu Imagen 3, công cụ tạo hình ảnh AI mạnh mẽ, đến với người dùng thông qua Gemini, chatbot trí tuệ nhân tạo của công ty. Điều này có nghĩa là người dùng giờ đây có thể tạo ra những bức tranh độc đáo thông qua trợ lý AI, tương tự như cách mà DALL-E hoạt động trên ChatGPT. Tuy nhiên, có một điều đáng lưu ý: Người dùng sẽ không thể tạo hình ảnh về con người. Việc tạo ra các hình ảnh của con người chỉ được giới thiệu trong phiên bản truy cập sớm của Gemini Advanced. Hiện tại, Google đang cung cấp một tháng dùng thử miễn phí cho Gemini Advanced, sau đó người dùng sẽ phải trả 19,99 USD mỗi tháng.
Trước đây, Imagen 3 chỉ tồn tại trong dịch vụ AI Test Kitchen của Google, nhưng việc chuyển đến Gemini đồng nghĩa với việc nhiều người dùng sẽ có cơ hội sử dụng công cụ này hơn. Theo báo cáo từ PetaPixel, Imagen 3 cho thấy hiệu suất tốt hơn so với các công cụ tạo hình ảnh AI hàng đầu khác như DALL-E và Midjourney, và điểm đáng chú ý là Imagen 3 hoàn toàn miễn phí cho người dùng, trái ngược với các đối thủ.
Google cho biết, “Imagen 3 là mô hình sáng tạo hình ảnh từ văn bản có chất lượng cao nhất của chúng tôi, có khả năng tạo ra hình ảnh với độ chi tiết tốt hơn, ánh sáng phong phú hơn và ít các tác phẩm làm rối mắt hơn so với các mô hình trước đó.” Công ty cũng lưu ý rằng họ đã cải thiện đáng kể khả năng của Imagen 3 trong việc hiểu các yêu cầu từ người dùng, giúp những mô hình này tạo ra nhiều phong cách hình ảnh khác nhau và ghi lại các chi tiết nhỏ từ các yêu cầu dài hạn.
Về dữ liệu được sử dụng để đào tạo Imagen 3, Google cho biết “Mô hình Imagen 3 đã được đào tạo trên một tập dữ liệu lớn bao gồm hình ảnh, văn bản và các chú thích liên quan.” Tuy nhiên, còn chưa rõ liệu tập dữ liệu này có chứa nhiều bức ảnh có bản quyền hay không.
Ngoài khả năng tạo hình ảnh, Google cũng cung cấp tùy chọn chỉnh sửa hình ảnh bằng kỹ thuật inpainting hiện đang trở nên phổ biến. Với phương pháp này, người dùng có thể chọn một phần của bức ảnh và nhập vào thay đổi mà họ muốn thấy. Ngược lại với công cụ tạo hình ảnh AI Grok của Elon Musk, Google đã đặt ra các hạn chế đối với Imagen 3. PetaPixel không thể tạo ra hình ảnh của “Kamala Harris và Donald Trump nắm tay nhau” hay “Một phong cảnh Californian theo phong cách Ansel Adams”, bất chấp những cách thức làm việc xung quanh có thể tìm thấy. Chẳng hạn, khi yêu cầu Imagen 3 tạo “Một bức ảnh đen trắng kịch tính chụp vào năm 1942 tại Công viên Quốc gia Grand Teton ở Wyoming”, người dùng sẽ nhận được một hình ảnh tương tự như tác phẩm của Ansel Adams.
Đầu năm nay, Google đã gặp rắc rối lớn khi công cụ tạo hình ảnh AI trên Gemini bị cáo buộc đã sửa chữa quá mức cho những thành kiến và về cơ bản là “xóa bỏ người da trắng” khỏi các hình ảnh, dẫn đến việc Google phải gỡ bỏ công cụ tạo hình ảnh này hoàn toàn. Nếu bạn muốn thử nghiệm Imagen 3 trên Gemini, hãy truy cập trang web của Gemini.