Trong thời gian gần đây, các công ty công nghệ như OpenAI và Google đã khẳng định rằng khả năng “lập luận” tiên tiến sẽ là bước tiến tiếp theo trong mô hình trí tuệ nhân tạo (AI) mới nhất của họ.
Tuy nhiên, một nghiên cứu mới từ nhóm tài năng của Apple cho thấy khả năng “lập luận” toán học mà các mô hình ngôn ngữ lớn (LLM) thể hiện có thể rất mong manh và không đáng tin cậy khi gặp những thay đổi dù là nhỏ nhất trong các bài kiểm tra chuẩn thể hiện điều này. Kết quả của nghiên cứu mới đã củng cố những nghiên cứu trước đó cho thấy việc LLMs sử dụng phương pháp khớp mẫu xác suất đã thiếu đi hiểu biết cơ bản về các khái niệm nền tảng cần thiết cho khả năng lập luận toán học thật sự đáng tin cậy. Nhóm nghiên cứu nhận định rằng: “Các LLM hiện tại không có khả năng lập luận logic thực sự. Thay vào đó, chúng chỉ cố gắng tái tạo những bước lập luận được quan sát trong dữ liệu đào tạo của chúng.”
Trong tài liệu mang tên “GSM-Symbolic: Hiểu Những Hạn Chế Trong Khả Năng Lập Luận Toán Học Của Các Mô Hình Ngôn Ngữ Lớn”, nhóm nghiên cứu từ Apple đã sử dụng tập hợp những vấn đề toán học từ cơ bản đến nâng cao được chuẩn hóa GSM8K, thường được dùng như một tiêu chuẩn đánh giá khả năng lập luận phức tạp của các mô hình LLM hiện đại. Họ đã áp dụng cách tiếp cận mới bằng cách chỉnh sửa một phần trong tập kiểm tra để thay thế một số tên và số bằng các giá trị mới. Ví dụ, một câu hỏi về Sophie nhận 31 khối xây cho chú của cô có thể trở thành một câu hỏi về Bill nhận 19 khối xây cho em trai của mình trong việc đánh giá mới GSM-Symbolic.
Cách tiếp cận này giúp tránh việc “ô nhiễm dữ liệu” tiềm ẩn gây ra bởi các câu hỏi GSM8K tĩnh được đưa trực tiếp vào dữ liệu đào tạo của một mô hình AI. Đồng thời, những thay đổi này không làm thay đổi độ khó của khả năng lập luận toán học vốn có, có nghĩa là các mô hình lý thuyết nên hoạt động tương tự khi được kiểm tra trên cả GSM-Symbolic và GSM8K. Tuy nhiên, khi các nhà nghiên cứu thử nghiệm chưa đến 20 mô hình LLM tiên tiến trên GSM-Symbolic, họ phát hiện ra rằng độ chính xác trung bình đã giảm trên tất cả các mô hình so với GSM8K, với sự sụt giảm từ 0.3 phần trăm đến 9.2 phần trăm, tùy thuộc vào từng mô hình.
Kết quả cũng cho thấy sự biến động cao trong 50 lần chạy khác nhau với các tên và giá trị khác nhau. Những khoảng cách lên tới 15 phần trăm độ chính xác giữa những lần chạy tốt nhất và tệ nhất là rất phổ biến trong cùng một mô hình và một điều kỳ lạ là việc thay đổi các con số thường dẫn đến độ chính xác kém hơn so với việc thay đổi tên. Loại biến thể này – cả bên trong các lần chạy khác nhau của GSM-Symbolic và so sánh với kết quả GSM8K – thật sự bất ngờ, vì như các nhà nghiên cứu đã chỉ ra, “các bước lập luận cần thiết để giải quyết một câu hỏi vẫn giữ nguyên”.
Điều này cho thấy rằng những thay đổi nhỏ dẫn đến những kết quả rất biến động, đồng nghĩa với việc các mô hình này không thực hiện bất kỳ “lập luận” chính thức nào mà đang cố gắng “thực hiện một dạng khớp mẫu trong phân phối, phối hợp các câu hỏi và các bước giải quyết với những ví dụ tương tự đã được thấy trong dữ liệu đào tạo”. Tuy nhiên, mặc dù số liệu biến động từ các bài kiểm tra GSM-Symbolic là nhỏ trong bối cảnh tổng thể, một số mô hình như ChatGPT-4 của OpenAI vẫn duy trì được tỷ lệ chính xác khá cao.
Tuy nhiên, các mô hình này hoạt động kém hơn đáng kể khi nhóm nghiên cứu Apple chỉnh sửa bài kiểm tra GSM-Symbolic bằng cách thêm các “phát biểu dường như liên quan nhưng thực chất không quan trọng” vào các câu hỏi. Với tập bài kiểm tra “GSM-NoOp”, một câu hỏi về cách mà một người nhặt kiwis qua nhiều ngày có thể được mở rộng bằng chi tiết ngẫu nhiên rằng “năm trong số đó [các quả kiwi] nhỏ hơn trung bình một chút.” Thêm những chi tiết không cần thiết như vậy dẫn đến những gì nhóm nghiên cứu gọi là “sự giảm sút hiệu suất thảm khốc” về độ chính xác so với GSM8K, với mức giảm từ 17.5% đến gần 65.7%, tùy thuộc vào mô hình được thử nghiệm.
Những sự sụt giảm lớn về độ chính xác này làm nổi bật những giới hạn vốn có khi sử dụng “khớp mẫu” đơn giản để “chuyển đổi các phát biểu thành các phép toán mà không thực sự hiểu ý nghĩa của chúng”. Kết quả của nghiên cứu mới này không phải là điều mới lạ trong thế giới nghiên cứu AI, nhưng nghiên cứu đã làm rõ rằng sự mô phỏng này có thể dễ bị tổn thương như thế nào khi câu lệnh đưa ra đưa vào một tình huống không giống hệt như bất kỳ dữ liệu đào tạo nào. AI sẽ cần phải đạt được những bước nhảy vọt mới trong khả năng của mình nếu muốn có được việc thực thi hợp lý trong hiểu biết về các khái niệm và mẫu hình