Mô hình trí tuệ nhân tạo (AI) mới nhất từ OpenAI, được gọi là O3, vừa đánh dấu một bước tiến đáng kể khi đạt được điểm số cao trong bài thử thách lập luận nổi tiếng ARC Challenge. Thông báo này đã kích thích sự suy đoán từ những người yêu thích AI rằng O3 có thể đã đạt được trí thông minh nhân tạo tổng quát (AGI). Tuy nhiên, mặc dù các tổ chức tổ chức ARC đã mô tả thành tích của O3 là một cột mốc quan trọng, họ cũng nhấn mạnh rằng mô hình này vẫn chưa giành được giải thưởng lớn của cuộc thi và đây chỉ là bước đầu tiên trong hành trình hướng tới AGI, một thuật ngữ chỉ AI tương lai giả thuyết có trí thông minh tương tự con người.
Mô hình O3 là phiên bản mới nhất trong chuỗi các sản phẩm AI tiếp theo từ các mô hình ngôn ngữ lớn hỗ trợ ChatGPT. François Chollet, một kỹ sư tại Google và là nhà sáng lập chính của ARC Challenge, nhận xét rằng đây là bước tiến đáng ngạc nhiên và quan trọng trong khả năng của AI, cho thấy khả năng thích ứng với nhiệm vụ mới chưa từng thấy ở các mô hình trong gia đình GPT.
Bài thử thách Abstraction and Reasoning Corpus (ARC) được Chollet phát triển vào năm 2019 nhằm kiểm tra khả năng tìm ra mô hình chính xác liên kết giữa các cặp lưới màu. Những câu đố trực quan này yêu cầu AI chứng minh một dạng trí thông minh tổng quát với khả năng lập luận cơ bản. Tuy nhiên, việc sử dụng sức mạnh tính toán quá lớn có thể cho phép ngay cả một chương trình không có khả năng lập luận cũng có thể giải quyết chúng thông qua sức mạnh tính toán. Để ngăn chặn điều này, cuộc thi yêu cầu các bài nộp điểm chính thức cần phải đáp ứng các giới hạn nhất định về sức mạnh tính toán.
Mô hình O3 mới được công bố, dự kiến ra mắt vào đầu năm 2025, đã đạt được điểm số chính thức ấn tượng là 75.7% trong bài thử thách ARC Challenge “bán công khai”, được sử dụng để xếp hạng các đối thủ trên bảng leader công khai. Chi phí tính toán cho thành tích này khoảng 20 đô la cho mỗi nhiệm vụ câu đố trực quan, đáp ứng giới hạn tổng chi phí dưới 10.000 đô la mà cuộc thi đặt ra. Tuy nhiên, bài kiểm tra “riêng tư” khó hơn, được sử dụng để xác định các người chiến thắng giải lớn, có giới hạn sức mạnh tính toán nghiêm ngặt hơn, chỉ cho phép chi 10 xu cho mỗi nhiệm vụ, mà OpenAI đã không đáp ứng được.
Mô hình O3 cũng đã đạt được điểm số không chính thức là 87.5% bằng cách sử dụng khoảng 172 lần sức mạnh tính toán nhiều hơn so với điểm số chính thức. Để so sánh, điểm của con người thường là 84%, và điểm 85% là đủ để giành giải thưởng trị giá 600.000 đô la của ARC Challenge, nếu mô hình cũng có thể giữ chi phí tính toán trong giới hạn yêu cầu. Tuy nhiên, để đạt được điểm số không chính thức này, chi phí của O3 đã lên tới hàng ngàn đô la mỗi nhiệm vụ. OpenAI đã yêu cầu những người tổ chức thách thức không công bố chi phí tính toán chính xác của mô hình.
Mặc dù đạt được điểm số ấn tượng, các nhà tổ chức ARC Challenge đã chỉ ra rằng việc vượt qua điểm chuẩn này không được coi là bằng chứng cho việc đã đạt được AGI. Trong một bài đăng trên mạng xã hội, Mike Knoop, một nhà tổ chức ARC Challenge tại công ty phần mềm Zapier, cho biết mô hình O3 đã không thể giải quyết hơn 100 nhiệm vụ câu đố trực quan, ngay cả khi OpenAI đã áp dụng rất nhiều sức mạnh tính toán cho điểm số không chính thức. Melanie Mitchell tại Viện Santa Fe ở New Mexico cũng cho biết rằng việc giải quyết các nhiệm vụ này bằng cách sử dụng sức mạnh tính toán đơn thuần đã làm mất đi mục đích ban đầu.
Như Chollet đã chỉ ra, dấu hiệu cho thấy trí thông minh cấp người đã được chứng minh bởi một dạng AGI là việc tạo ra các nhiệm vụ dễ dàng cho con người nhưng khó khăn cho AI sẽ trở nên hoàn toàn không thể. Các mô hình thương mại hiện nay vẫn thiếu các thành phần như trí nhớ hồi ức, lập kế hoạch, lập luận logic và tự nhận thức, theo Thomas Dietterich tại Đại học Oregon State. Ở giai đoạn này, O3 mặc dù chưa phải là AGI, nhưng đây là một bước tiến quan trọng trên con đường đến đó.
Mặc dù không giành chiến thắng trong ARC Challenge, điểm số cao của O3 cho thấy các mô hình AI có thể vượt qua điểm chuẩn của cuộc thi trong tương lai gần. Chollet cho biết nhiều bài nộp chính thức đã đạt điểm trên 81% trong bài kiểm tra đánh giá riêng tư. Được biết, các tổ chức ARC Challenge đang lên kế hoạch phát động một bộ bài kiểm tra chuẩn thứ hai khó hơn vào năm 2025 và sẽ tiếp tục duy trì cuộc thi ARC Prize 2025 cho đến khi có người đạt giải thưởng lớn và công khai mã nguồn của giải pháp.