Hugging Face sao chép nghiên cứu sâu của OpenAI chỉ trong 24 giờ

An Nhiên — Thu, 06 Feb 2025 11:03:24 +0000

Hugging Face đã chính thức trình làng một công cụ nghiên cứu AI mã nguồn mở mang tên “Open Deep Research”, chỉ 24 giờ sau khi OpenAI công bố tính năng Deep Research. Dự án này không chỉ nhằm mục đích sao chép khả năng của công nghệ mà còn mong muốn biến những tiến bộ này thành nguồn tài nguyên miễn phí cho các nhà phát triển.

Hugging Face đã thực hiện một nhiệm vụ đầy thách thức, khi quyết tâm phát triển một framework tương tự với việc OpenAI không công khai nhiều thông tin về công nghệ mà họ đang sử dụng. Theo thông báo từ Hugging Face, nhiệm vụ của họ trong 24 giờ là không hề đơn giản nhưng đã thành công với những kết quả khả quan.

Dựa trên công nghệ AI hiện có, “Open Deep Research” sử dụng một mô hình AI có khả năng tự động thu thập thông tin từ nhiều nguồn và tạo ra các báo cáo nghiên cứu – một khả năng tương tự như mà Deep Research của OpenAI thực hiện. Công cụ này không chỉ vận hành hiệu quả mà còn đạt được độ chính xác 55,15% trong việc giải quyết các câu hỏi phức tạp trong bài kiểm tra General AI Assistants (GAIA). Kết quả này gần bằng 67,36% mà Deep Research đạt được, cho thấy sự cạnh tranh ngày càng gia tăng trong lĩnh vực nghiên cứu AI.

Mô hình AI cốt lõi mà Hugging Face đang áp dụng, mặc dù không hoàn toàn là mã mở, nhưng đã được lựa chọn dựa trên những gì tốt nhất cho mục đích của dự án. Dường như việc chọn ngẫu nhiên một mô hình đóng góp khá hiệu quả cho khả năng thực hiện của phần mềm. Đặc biệt, việc sử dụng thư viện”smolagents” mở đã giúp tăng hiệu suất hoàn thành nhiệm vụ lên đến 30% nhờ vào việc các tác nhân lập kế hoạch và thực hiện công việc qua mã lập trình.

Có thể nhận thấy rằng tốc độ phát triển trong lĩnh vực AI mã nguồn mở đang đạt được những bước tiến đáng kể. Nhờ vào sự đóng góp của cộng đồng và các công cụ hỗ trợ từ các dự án khác như của Microsoft Research, thời gian phát triển của Open Deep Research đã được rút ngắn một cách đáng kể. Mặc dù chưa thể đạt được hiệu suất của OpenAI, nhưng dự án này đã cho thấy khả năng tái tạo, nghiên cứu và chia sẻ công nghệ AI giữa các nhà phát triển đang ngày càng tinh vi và phong phú hơn.

Hugging Face đã thông báo rằng họ đang tiếp tục cải tiến công cụ này, với việc bổ sung hỗ trợ cho các định dạng file khác cũng như khả năng duyệt web dựa trên hình ảnh. Dự đoán trong tương lai không xa, họ còn có thể sao chép những sản phẩm tiên tiến khác để mở rộng khả năng của công nghệ này hơn nữa.

Nghiên cứu của Apple về hạn chế trong khả năng lập luận của AI

An Nhiên — Wed, 16 Oct 2024 05:10:03 +0000

Trong thời gian gần đây, các công ty công nghệ như OpenAI và Google đã khẳng định rằng khả năng “lập luận” tiên tiến sẽ là bước tiến tiếp theo trong mô hình trí tuệ nhân tạo (AI) mới nhất của họ.

Tuy nhiên, một nghiên cứu mới từ nhóm tài năng của Apple cho thấy khả năng “lập luận” toán học mà các mô hình ngôn ngữ lớn (LLM) thể hiện có thể rất mong manh và không đáng tin cậy khi gặp những thay đổi dù là nhỏ nhất trong các bài kiểm tra chuẩn thể hiện điều này. Kết quả của nghiên cứu mới đã củng cố những nghiên cứu trước đó cho thấy việc LLMs sử dụng phương pháp khớp mẫu xác suất đã thiếu đi hiểu biết cơ bản về các khái niệm nền tảng cần thiết cho khả năng lập luận toán học thật sự đáng tin cậy. Nhóm nghiên cứu nhận định rằng: “Các LLM hiện tại không có khả năng lập luận logic thực sự. Thay vào đó, chúng chỉ cố gắng tái tạo những bước lập luận được quan sát trong dữ liệu đào tạo của chúng.”

Trong tài liệu mang tên “GSM-Symbolic: Hiểu Những Hạn Chế Trong Khả Năng Lập Luận Toán Học Của Các Mô Hình Ngôn Ngữ Lớn”, nhóm nghiên cứu từ Apple đã sử dụng tập hợp những vấn đề toán học từ cơ bản đến nâng cao được chuẩn hóa GSM8K, thường được dùng như một tiêu chuẩn đánh giá khả năng lập luận phức tạp của các mô hình LLM hiện đại. Họ đã áp dụng cách tiếp cận mới bằng cách chỉnh sửa một phần trong tập kiểm tra để thay thế một số tên và số bằng các giá trị mới. Ví dụ, một câu hỏi về Sophie nhận 31 khối xây cho chú của cô có thể trở thành một câu hỏi về Bill nhận 19 khối xây cho em trai của mình trong việc đánh giá mới GSM-Symbolic.

Cách tiếp cận này giúp tránh việc “ô nhiễm dữ liệu” tiềm ẩn gây ra bởi các câu hỏi GSM8K tĩnh được đưa trực tiếp vào dữ liệu đào tạo của một mô hình AI. Đồng thời, những thay đổi này không làm thay đổi độ khó của khả năng lập luận toán học vốn có, có nghĩa là các mô hình lý thuyết nên hoạt động tương tự khi được kiểm tra trên cả GSM-Symbolic và GSM8K. Tuy nhiên, khi các nhà nghiên cứu thử nghiệm chưa đến 20 mô hình LLM tiên tiến trên GSM-Symbolic, họ phát hiện ra rằng độ chính xác trung bình đã giảm trên tất cả các mô hình so với GSM8K, với sự sụt giảm từ 0.3 phần trăm đến 9.2 phần trăm, tùy thuộc vào từng mô hình.

Kết quả cũng cho thấy sự biến động cao trong 50 lần chạy khác nhau với các tên và giá trị khác nhau. Những khoảng cách lên tới 15 phần trăm độ chính xác giữa những lần chạy tốt nhất và tệ nhất là rất phổ biến trong cùng một mô hình và một điều kỳ lạ là việc thay đổi các con số thường dẫn đến độ chính xác kém hơn so với việc thay đổi tên. Loại biến thể này – cả bên trong các lần chạy khác nhau của GSM-Symbolic và so sánh với kết quả GSM8K – thật sự bất ngờ, vì như các nhà nghiên cứu đã chỉ ra, “các bước lập luận cần thiết để giải quyết một câu hỏi vẫn giữ nguyên”.

Điều này cho thấy rằng những thay đổi nhỏ dẫn đến những kết quả rất biến động, đồng nghĩa với việc các mô hình này không thực hiện bất kỳ “lập luận” chính thức nào mà đang cố gắng “thực hiện một dạng khớp mẫu trong phân phối, phối hợp các câu hỏi và các bước giải quyết với những ví dụ tương tự đã được thấy trong dữ liệu đào tạo”. Tuy nhiên, mặc dù số liệu biến động từ các bài kiểm tra GSM-Symbolic là nhỏ trong bối cảnh tổng thể, một số mô hình như ChatGPT-4 của OpenAI vẫn duy trì được tỷ lệ chính xác khá cao.

Tuy nhiên, các mô hình này hoạt động kém hơn đáng kể khi nhóm nghiên cứu Apple chỉnh sửa bài kiểm tra GSM-Symbolic bằng cách thêm các “phát biểu dường như liên quan nhưng thực chất không quan trọng” vào các câu hỏi. Với tập bài kiểm tra “GSM-NoOp”, một câu hỏi về cách mà một người nhặt kiwis qua nhiều ngày có thể được mở rộng bằng chi tiết ngẫu nhiên rằng “năm trong số đó [các quả kiwi] nhỏ hơn trung bình một chút.” Thêm những chi tiết không cần thiết như vậy dẫn đến những gì nhóm nghiên cứu gọi là “sự giảm sút hiệu suất thảm khốc” về độ chính xác so với GSM8K, với mức giảm từ 17.5% đến gần 65.7%, tùy thuộc vào mô hình được thử nghiệm.

Những sự sụt giảm lớn về độ chính xác này làm nổi bật những giới hạn vốn có khi sử dụng “khớp mẫu” đơn giản để “chuyển đổi các phát biểu thành các phép toán mà không thực sự hiểu ý nghĩa của chúng”. Kết quả của nghiên cứu mới này không phải là điều mới lạ trong thế giới nghiên cứu AI, nhưng nghiên cứu đã làm rõ rằng sự mô phỏng này có thể dễ bị tổn thương như thế nào khi câu lệnh đưa ra đưa vào một tình huống không giống hệt như bất kỳ dữ liệu đào tạo nào. AI sẽ cần phải đạt được những bước nhảy vọt mới trong khả năng của mình nếu muốn có được việc thực thi hợp lý trong hiểu biết về các khái niệm và mẫu hình

nghiên cứu AI – TRAINGHIEMSO.VN

Hugging Face sao chép nghiên cứu sâu của OpenAI chỉ trong 24 giờ

Nghiên cứu của Apple về hạn chế trong khả năng lập luận của AI