Hôm nay, các kỹ sư của Apple đã chia sẻ thông tin mới về sự hợp tác với NVIDIA để nâng cao hiệu suất sinh văn bản của các mô hình ngôn ngữ lớn (LLMs). Apple đã công bố và mã nguồn mở kỹ thuật Recurrent Drafter (ReDrafter) vào đầu năm nay. Đây là một phương pháp mới để tạo ra văn bản với LLM, cho tốc độ nhanh hơn nhiều và đạt hiệu suất tốt nhất hiện có. Kỹ thuật này kết hợp hai phương pháp: tìm kiếm chùm (beam search) để khám phá nhiều khả năng và chú ý cây động (dynamic tree attention) giúp xử lý các lựa chọn một cách hiệu quả.
Dù nghiên cứu của Apple đã cho ra những kết quả mạnh mẽ, họ vẫn quyết định hợp tác với NVIDIA để áp dụng ReDrafter vào sản xuất. Trong khuôn khổ hợp tác này, ReDrafter đã được tích hợp vào NVIDIA TensorRT-LLM, một công cụ giúp chạy LLM nhanh hơn trên các GPU của NVIDIA. Để cho phép việc tích hợp ReDrafter, NVIDIA đã thêm các toán tử mới hoặc mở rộng các toán tử hiện có, qua đó cải thiện đáng kể khả năng của TensorRT-LLM để đáp ứng các mô hình phức tạp và phương pháp giải mã.
Các nhà phát triển máy học sử dụng GPU NVIDIA hiện nay có thể dễ dàng tận dụng lợi ích của thời gian sinh token nhanh hơn cho các ứng dụng LLM sản xuất của họ với TensorRT-LLM. Khi thử nghiệm một mô hình sản xuất với hàng chục tỷ tham số trên GPU NVIDIA, việc sử dụng khung tăng tốc suy diễn NVIDIA TensorRT-LLM với ReDrafter đã cho thấy tốc độ tăng 2,7 lần trong số lượng token được sinh ra mỗi giây cho phương pháp giải mã tham lam (greedy decoding). Những kết quả này cho thấy công nghệ này có thể giảm đáng kể độ trễ mà người dùng có thể trải nghiệm, đồng thời sử dụng ít GPU hơn và tiêu thụ ít năng lượng hơn.
Các nhà nghiên cứu máy học của Apple nhấn mạnh: “LLMs ngày càng được sử dụng để hỗ trợ các ứng dụng sản xuất, và cải thiện hiệu suất suy diễn có thể tác động đến chi phí tính toán và giảm độ trễ cho người dùng.” Họ kết luận: “Với phương pháp tiếp cận mới của ReDrafter trong tích hợp vào khung NVIDIA TensorRT-LLM, các nhà phát triển có thể hưởng lợi từ việc sinh token nhanh hơn trên GPU NVIDIA cho các ứng dụng LLM sản xuất của họ.”