Gần đây, một nhóm các nhà nghiên cứu từ các trường đại học danh tiếng như Wellesley, Oberlin, và Đại học Texas tại Austin đã hợp tác tạo ra một chuẩn AI mới dựa trên những câu đố từ chương trình NPR Sunday Puzzle. Dự án này không chỉ mở ra một hướng đi mới trong việc đánh giá khả năng lý luận của các mô hình AI mà còn phơi bày những hạn chế chưa từng thấy trước đây. Câu đố trong chương trình NPR nổi tiếng vì độ khó và độ thử thách, điều này khiến chúng trở thành một tiêu chí lý tưởng để thử nghiệm khả năng giải quyết vấn đề của các mô hình AI, đặc biệt là trong bối cảnh mà hầu hết các tiêu chí đánh giá hiện tại vẫn còn dựa trên các câu hỏi chuyên sâu trong toán học hay khoa học phức tạp.
Các nghiên cứu cho thấy rằng mô hình lý luận như o1 và R1 của DeepSeek có khả năng giải quyết những rủi ro trong việc đưa ra câu trả lời sai hơn so với các mô hình khác. Tuy nhiên, điểm mấu chốt là thời gian mà những mô hình này cần để hoàn thành câu trả lời dài hơn. Trong khi đó, kết quả cho thấy rằng một số mô hình đã đưa ra những câu trả lời sai ngay cả khi nhận thức được điều đó, điều này cho thấy sự tương tự trong hành vi của con người khi gặp phải những vấn đề quá khó khăn.
Nhóm nghiên cứu nhấn mạnh rằng câu đố từ NPR không yêu cầu kiến thức chuyên môn phức tạp và dự kiến sẽ cung cấp những câu hỏi mới mỗi tuần, giúp bảo đảm rằng các mô hình AI có thể không gian tốt để cải thiện năng suất của chúng. Theo Arjun Guha, một trong những tác giả của nghiên cứu, “Chúng tôi muốn phát triển một tiêu chuẩn với những vấn đề mà con người có thể hiểu chỉ bằng kiến thức chung.” Nghiên cứu này mở ra một kỷ nguyên mới trong việc kiểm tra khả năng logic của AI với những câu hỏi mà con người cũng phải đào sâu và suy nghĩ.