Apple hợp tác với NVIDIA nâng cao hiệu suất mô hình ngôn ngữ lớn

An Nhiên — Thu, 19 Dec 2024 05:42:23 +0000

Hôm nay, các kỹ sư của Apple đã chia sẻ thông tin mới về sự hợp tác với NVIDIA để nâng cao hiệu suất sinh văn bản của các mô hình ngôn ngữ lớn (LLMs). Apple đã công bố và mã nguồn mở kỹ thuật Recurrent Drafter (ReDrafter) vào đầu năm nay. Đây là một phương pháp mới để tạo ra văn bản với LLM, cho tốc độ nhanh hơn nhiều và đạt hiệu suất tốt nhất hiện có. Kỹ thuật này kết hợp hai phương pháp: tìm kiếm chùm (beam search) để khám phá nhiều khả năng và chú ý cây động (dynamic tree attention) giúp xử lý các lựa chọn một cách hiệu quả.

Dù nghiên cứu của Apple đã cho ra những kết quả mạnh mẽ, họ vẫn quyết định hợp tác với NVIDIA để áp dụng ReDrafter vào sản xuất. Trong khuôn khổ hợp tác này, ReDrafter đã được tích hợp vào NVIDIA TensorRT-LLM, một công cụ giúp chạy LLM nhanh hơn trên các GPU của NVIDIA. Để cho phép việc tích hợp ReDrafter, NVIDIA đã thêm các toán tử mới hoặc mở rộng các toán tử hiện có, qua đó cải thiện đáng kể khả năng của TensorRT-LLM để đáp ứng các mô hình phức tạp và phương pháp giải mã.

Các nhà phát triển máy học sử dụng GPU NVIDIA hiện nay có thể dễ dàng tận dụng lợi ích của thời gian sinh token nhanh hơn cho các ứng dụng LLM sản xuất của họ với TensorRT-LLM. Khi thử nghiệm một mô hình sản xuất với hàng chục tỷ tham số trên GPU NVIDIA, việc sử dụng khung tăng tốc suy diễn NVIDIA TensorRT-LLM với ReDrafter đã cho thấy tốc độ tăng 2,7 lần trong số lượng token được sinh ra mỗi giây cho phương pháp giải mã tham lam (greedy decoding). Những kết quả này cho thấy công nghệ này có thể giảm đáng kể độ trễ mà người dùng có thể trải nghiệm, đồng thời sử dụng ít GPU hơn và tiêu thụ ít năng lượng hơn.

Các nhà nghiên cứu máy học của Apple nhấn mạnh: “LLMs ngày càng được sử dụng để hỗ trợ các ứng dụng sản xuất, và cải thiện hiệu suất suy diễn có thể tác động đến chi phí tính toán và giảm độ trễ cho người dùng.” Họ kết luận: “Với phương pháp tiếp cận mới của ReDrafter trong tích hợp vào khung NVIDIA TensorRT-LLM, các nhà phát triển có thể hưởng lợi từ việc sinh token nhanh hơn trên GPU NVIDIA cho các ứng dụng LLM sản xuất của họ.”

Nghiên cứu của Apple về hạn chế trong khả năng lập luận của AI

An Nhiên — Wed, 16 Oct 2024 05:10:03 +0000

Trong thời gian gần đây, các công ty công nghệ như OpenAI và Google đã khẳng định rằng khả năng “lập luận” tiên tiến sẽ là bước tiến tiếp theo trong mô hình trí tuệ nhân tạo (AI) mới nhất của họ.

Tuy nhiên, một nghiên cứu mới từ nhóm tài năng của Apple cho thấy khả năng “lập luận” toán học mà các mô hình ngôn ngữ lớn (LLM) thể hiện có thể rất mong manh và không đáng tin cậy khi gặp những thay đổi dù là nhỏ nhất trong các bài kiểm tra chuẩn thể hiện điều này. Kết quả của nghiên cứu mới đã củng cố những nghiên cứu trước đó cho thấy việc LLMs sử dụng phương pháp khớp mẫu xác suất đã thiếu đi hiểu biết cơ bản về các khái niệm nền tảng cần thiết cho khả năng lập luận toán học thật sự đáng tin cậy. Nhóm nghiên cứu nhận định rằng: “Các LLM hiện tại không có khả năng lập luận logic thực sự. Thay vào đó, chúng chỉ cố gắng tái tạo những bước lập luận được quan sát trong dữ liệu đào tạo của chúng.”

Trong tài liệu mang tên “GSM-Symbolic: Hiểu Những Hạn Chế Trong Khả Năng Lập Luận Toán Học Của Các Mô Hình Ngôn Ngữ Lớn”, nhóm nghiên cứu từ Apple đã sử dụng tập hợp những vấn đề toán học từ cơ bản đến nâng cao được chuẩn hóa GSM8K, thường được dùng như một tiêu chuẩn đánh giá khả năng lập luận phức tạp của các mô hình LLM hiện đại. Họ đã áp dụng cách tiếp cận mới bằng cách chỉnh sửa một phần trong tập kiểm tra để thay thế một số tên và số bằng các giá trị mới. Ví dụ, một câu hỏi về Sophie nhận 31 khối xây cho chú của cô có thể trở thành một câu hỏi về Bill nhận 19 khối xây cho em trai của mình trong việc đánh giá mới GSM-Symbolic.

Cách tiếp cận này giúp tránh việc “ô nhiễm dữ liệu” tiềm ẩn gây ra bởi các câu hỏi GSM8K tĩnh được đưa trực tiếp vào dữ liệu đào tạo của một mô hình AI. Đồng thời, những thay đổi này không làm thay đổi độ khó của khả năng lập luận toán học vốn có, có nghĩa là các mô hình lý thuyết nên hoạt động tương tự khi được kiểm tra trên cả GSM-Symbolic và GSM8K. Tuy nhiên, khi các nhà nghiên cứu thử nghiệm chưa đến 20 mô hình LLM tiên tiến trên GSM-Symbolic, họ phát hiện ra rằng độ chính xác trung bình đã giảm trên tất cả các mô hình so với GSM8K, với sự sụt giảm từ 0.3 phần trăm đến 9.2 phần trăm, tùy thuộc vào từng mô hình.

Kết quả cũng cho thấy sự biến động cao trong 50 lần chạy khác nhau với các tên và giá trị khác nhau. Những khoảng cách lên tới 15 phần trăm độ chính xác giữa những lần chạy tốt nhất và tệ nhất là rất phổ biến trong cùng một mô hình và một điều kỳ lạ là việc thay đổi các con số thường dẫn đến độ chính xác kém hơn so với việc thay đổi tên. Loại biến thể này – cả bên trong các lần chạy khác nhau của GSM-Symbolic và so sánh với kết quả GSM8K – thật sự bất ngờ, vì như các nhà nghiên cứu đã chỉ ra, “các bước lập luận cần thiết để giải quyết một câu hỏi vẫn giữ nguyên”.

Điều này cho thấy rằng những thay đổi nhỏ dẫn đến những kết quả rất biến động, đồng nghĩa với việc các mô hình này không thực hiện bất kỳ “lập luận” chính thức nào mà đang cố gắng “thực hiện một dạng khớp mẫu trong phân phối, phối hợp các câu hỏi và các bước giải quyết với những ví dụ tương tự đã được thấy trong dữ liệu đào tạo”. Tuy nhiên, mặc dù số liệu biến động từ các bài kiểm tra GSM-Symbolic là nhỏ trong bối cảnh tổng thể, một số mô hình như ChatGPT-4 của OpenAI vẫn duy trì được tỷ lệ chính xác khá cao.

Tuy nhiên, các mô hình này hoạt động kém hơn đáng kể khi nhóm nghiên cứu Apple chỉnh sửa bài kiểm tra GSM-Symbolic bằng cách thêm các “phát biểu dường như liên quan nhưng thực chất không quan trọng” vào các câu hỏi. Với tập bài kiểm tra “GSM-NoOp”, một câu hỏi về cách mà một người nhặt kiwis qua nhiều ngày có thể được mở rộng bằng chi tiết ngẫu nhiên rằng “năm trong số đó [các quả kiwi] nhỏ hơn trung bình một chút.” Thêm những chi tiết không cần thiết như vậy dẫn đến những gì nhóm nghiên cứu gọi là “sự giảm sút hiệu suất thảm khốc” về độ chính xác so với GSM8K, với mức giảm từ 17.5% đến gần 65.7%, tùy thuộc vào mô hình được thử nghiệm.

Những sự sụt giảm lớn về độ chính xác này làm nổi bật những giới hạn vốn có khi sử dụng “khớp mẫu” đơn giản để “chuyển đổi các phát biểu thành các phép toán mà không thực sự hiểu ý nghĩa của chúng”. Kết quả của nghiên cứu mới này không phải là điều mới lạ trong thế giới nghiên cứu AI, nhưng nghiên cứu đã làm rõ rằng sự mô phỏng này có thể dễ bị tổn thương như thế nào khi câu lệnh đưa ra đưa vào một tình huống không giống hệt như bất kỳ dữ liệu đào tạo nào. AI sẽ cần phải đạt được những bước nhảy vọt mới trong khả năng của mình nếu muốn có được việc thực thi hợp lý trong hiểu biết về các khái niệm và mẫu hình

LLM – TRAINGHIEMSO.VN

Apple hợp tác với NVIDIA nâng cao hiệu suất mô hình ngôn ngữ lớn

Nghiên cứu của Apple về hạn chế trong khả năng lập luận của AI