• Latest
  • Trending

Những nhà nghiên cứu đã sử dụng câu đố NPR Sunday để đánh giá mô hình lý luận AI

Emblem huy động 85 triệu USD cho quỹ đầu tư mạo hiểm đầu tiên tại châu Âu

M2 MacBook Air của Apple giảm giá xuống còn 800 USD

Boston Dynamics hợp tác với CEO cũ để tăng tốc độ học hỏi của robot Atlas

Google thay đổi chiến lược về đa dạng hóa lực lượng lao động

Avelios nhận 31 triệu USD từ Sequoia để cải thiện hệ thống y tế

NASA sẽ phát sóng trực tiếp từ Trạm Không gian Quốc tế qua Twitch

Hugging Face sao chép nghiên cứu sâu của OpenAI chỉ trong 24 giờ

AMD hứa hẹn game 4K phổ thông với GPU thế hệ mới khi doanh số GPU hiện tại giảm đáng kể

Gorilla Armor 2 trên Galaxy S25 Ultra kém chống trầy xước hơn thế hệ trước

M5 chip bắt đầu sản xuất hàng loạt, sẵn sàng cho MacBook Pro, iPad Pro, Vision Pro

Aoostar GT37 Mini PC ra mắt với sức mạnh AMD Ryzen AI9 HX 370 và thiết kế độc đáo

Oppo Find N5 được xác nhận ra mắt toàn cầu trong hai tuần tới

  • ĐÁNH GIÁ
  • TƯ VẤN
  • KHUYẾN MẠI
  • THỦ THUẬT
  • ỨNG DỤNG
No Result
View All Result
TRAINGHIEMSO.VN
  • iOS
  • ANDROID
  • WINDOWS
  • macOS
  • CONSOLE
  • CHỦ ĐỀ
  • iOS
  • ANDROID
  • WINDOWS
  • macOS
  • CONSOLE
  • CHỦ ĐỀ
No Result
View All Result
TRAINGHIEMSO.VN
No Result
View All Result

Những nhà nghiên cứu đã sử dụng câu đố NPR Sunday để đánh giá mô hình lý luận AI

Những nhà nghiên cứu đã sử dụng câu đố NPR Sunday để đánh giá mô hình lý luận AI

Gần đây, một nhóm các nhà nghiên cứu từ các trường đại học danh tiếng như Wellesley, Oberlin, và Đại học Texas tại Austin đã hợp tác tạo ra một chuẩn AI mới dựa trên những câu đố từ chương trình NPR Sunday Puzzle. Dự án này không chỉ mở ra một hướng đi mới trong việc đánh giá khả năng lý luận của các mô hình AI mà còn phơi bày những hạn chế chưa từng thấy trước đây. Câu đố trong chương trình NPR nổi tiếng vì độ khó và độ thử thách, điều này khiến chúng trở thành một tiêu chí lý tưởng để thử nghiệm khả năng giải quyết vấn đề của các mô hình AI, đặc biệt là trong bối cảnh mà hầu hết các tiêu chí đánh giá hiện tại vẫn còn dựa trên các câu hỏi chuyên sâu trong toán học hay khoa học phức tạp.

Các nghiên cứu cho thấy rằng mô hình lý luận như o1 và R1 của DeepSeek có khả năng giải quyết những rủi ro trong việc đưa ra câu trả lời sai hơn so với các mô hình khác. Tuy nhiên, điểm mấu chốt là thời gian mà những mô hình này cần để hoàn thành câu trả lời dài hơn. Trong khi đó, kết quả cho thấy rằng một số mô hình đã đưa ra những câu trả lời sai ngay cả khi nhận thức được điều đó, điều này cho thấy sự tương tự trong hành vi của con người khi gặp phải những vấn đề quá khó khăn.

Nhóm nghiên cứu nhấn mạnh rằng câu đố từ NPR không yêu cầu kiến thức chuyên môn phức tạp và dự kiến sẽ cung cấp những câu hỏi mới mỗi tuần, giúp bảo đảm rằng các mô hình AI có thể không gian tốt để cải thiện năng suất của chúng. Theo Arjun Guha, một trong những tác giả của nghiên cứu, “Chúng tôi muốn phát triển một tiêu chuẩn với những vấn đề mà con người có thể hiểu chỉ bằng kiến thức chung.” Nghiên cứu này mở ra một kỷ nguyên mới trong việc kiểm tra khả năng logic của AI với những câu hỏi mà con người cũng phải đào sâu và suy nghĩ.

Bài viết này có ích cho bạn không?

Nhấp vào ngôi sao để đánh giá nhé bạn!

Điểm trung bình: 0 / 5. Lượt bình chọn: 0

Chưa có đánh giá! Nhờ bạn đánh giá chất lượng bài này nhé!

BÀI LIÊN QUAN

  • OpenAI sắp ra mắt mô hình ai mới Orion vào tháng 12
  • Gói ChatGPT Pro mới có giá 200 đô la
  • Apple khéo lé tăng doanh thu từ AI mà không tính phí người dùng
  • YouTube thử nghiệm tính năng AI giúp người sáng tạo âm nhạc tái chế bài hát
Tags: .io domaincâu đốMô hình lý luậnNPR Sunday PuzzleOpenAI
ShareScan



  • Nhanhmua
Liên hệ hợp tác / quảng cáo: Ms.Loan (0909.770.919).

Copyright © 2013-2025 Trải Nghiệm Số. Giấy phép số 544/GP-BTTTT cấp ngày 2-12-2016.
Chịu trách nhiệm: Võ Thị Quỳnh Loan.

No Result
View All Result
  • iOS
  • ANDROID
  • WINDOWS
  • macOS
  • CONSOLE
  • CHỦ ĐỀ

Copyright © 2013-2025 Trải Nghiệm Số. Giấy phép số 544/GP-BTTTT cấp ngày 2-12-2016.
Chịu trách nhiệm: Võ Thị Quỳnh Loan.