Apple biến ảnh 2D thành bản đồ sâu 3D chỉ trong chớp mắt

Đăng bởi: Ngày: 08/10/2024

Apple vừa công bố một mô hình trí tuệ nhân tạo (AI) mới, hứa hẹn mang lại những cải tiến đột phá trong cách các mô hình thị giác máy tính phân tích không gian ba chiều từ một bức ảnh hai chiều. Được gọi là Depth Pro, mô hình này được thiết kế để tạo ra bản đồ độ sâu 3D từ các hình ảnh 2D trong một khoảng thời gian cực ngắn. Theo bài viết của VentureBeat, Depth Pro có thể tạo ra bản đồ 2,25 megapixel từ một bức ảnh chỉ trong 0,3 giây trên một GPU thông thường.

Mặc dù các thiết bị như iPhone mới nhất của Apple có thể tạo ra bản đồ độ sâu bằng cách sử dụng các cảm biến tích hợp, hầu hết các hình ảnh tĩnh vẫn không có dữ liệu độ sâu thực tế kèm theo. Tuy nhiên, bản đồ độ sâu cho những hình ảnh này có thể rất hữu ích cho nhiều ứng dụng khác nhau, ví dụ như trong chỉnh sửa ảnh thông thường. Nếu ai đó muốn chỉnh sửa chỉ một chủ thể hoặc tạo hiệu ứng “làm mờ ống kính” nhân tạo cho một khung cảnh, bản đồ độ sâu sẽ giúp phần mềm tạo ra các mặt nạ chính xác. Ngoài ra, mô hình bản đồ độ sâu cũng có thể hỗ trợ việc tạo ra hình ảnh bằng AI, khi hiểu sâu sắc về bản đồ độ sâu có thể giúp mô hình tổng hợp tạo ra kết quả chân thực hơn.

Đội ngũ nghiên cứu của Apple gồm Aleksei Bochkovskii, Amaël Delaunoy, Hugo Germain, Marcel Santos, Yichao Zhou, Stephan R. Richter, và Vladlen Koltun nhấn mạnh rằng, một mô hình ước lượng độ sâu đơn ảnh chuẩn không cần chỉnh phải nhanh chóng đưa ra kết quả chính xác, độ phân giải cao để thực sự hữu dụng. Một bản đồ độ sâu kém chất lượng thì không có giá trị. “Depth Pro tạo ra bản đồ độ sâu có độ phân giải cao với chi tiết tần số cao trong thời gian chạy dưới cả giây. Mô hình của chúng tôi đạt độ chính xác ước lượng độ sâu một phát tốt nhất mà không cần dữ liệu bổ sung như thông số camera và vạch ra ranh giới của các vùng khuất với độ chi tiết chưa từng có, tạo điều kiện cho các ứng dụng như tổng hợp góc nhìn mới từ các hình ảnh đơn lẻ ‘ngoài thực địa’.” Tuy nhiên, nhóm nghiên cứu cũng thừa nhận một số hạn chế, bao gồm gặp khó khăn trong việc xử lý các bề mặt trong suốt và tán xạ thể tích.

Ngoài các ứng dụng chỉnh sửa ảnh và tổng hợp mới, mô hình bản đồ độ sâu cũng có thể hữu ích cho các ứng dụng thực tế tăng cường (AR), nơi các vật thể ảo cần được đặt chính xác trong không gian thực. Mô hình Depth Pro thành thạo cả độ sâu tương đối và tuyệt đối, điều này rất quan trọng cho nhiều trường hợp sử dụng. Người dùng có thể tự mình thử nghiệm Depth Pro trên Hugging Face và tìm hiểu thêm về cách hoạt động của mô hình độ sâu này bằng cách đọc bài báo nghiên cứu mới nhất của Apple.