Trong một cuộc trò chuyện trực tiếp với chủ tịch Stagwell, Mark Penn, vào tuần trước, Elon Musk đã khẳng định rằng ngành công nghiệp trí tuệ nhân tạo (AI) đang phải đối mặt với một vấn đề nghiêm trọng: dữ liệu thực để đào tạo các mô hình AI gần như đã cạn kiệt. Theo Musk, từ bây giờ, các phương pháp truyền thống trong đào tạo AI sẽ không còn hiệu quả, và ngành cần chuyển hướng sang các giải pháp mới hơn, như tự tạo ra dữ liệu tổng hợp.
Musk nhấn mạnh rằng chúng ta đã “hầu như đã sử dụng hết tổng hợp kiến thức của nhân loại” khi nói về việc đào tạo AI, và ông cho rằng sự kiện này xảy ra trong năm ngoái. Nhận định này được củng cố bởi Ilya Sutskever, cựu giám đốc khoa học của OpenAI, trong một bài phát biểu tại hội nghị NeurIPS, nơi ông nhận định rằng ngành công nghiệp AI đã đạt đến “đỉnh dữ liệu”. Sutskever cũng đã cảnh báo rằng sự thiếu hụt dữ liệu đào tạo sẽ yêu cầu một sự thay đổi trong cách các mô hình được phát triển.
Theo Musk, một trong những hướng đi khả thi cho ngành công nghiệp là sản xuất dữ liệu tổng hợp, tức là dữ liệu được tạo ra bởi chính các mô hình AI. Ông giải thích rằng, “Cách duy nhất để bổ sung cho dữ liệu thực là sử dụng dữ liệu tổng hợp, nơi AI tạo ra dữ liệu đào tạo.” Ông tin tưởng rằng nhờ vào dữ liệu tổng hợp, AI sẽ có thể tự đánh giá và rút ra bài học từ chính quá trình học của mình.
Rất nhiều công ty công nghệ lớn như Microsoft, Meta, OpenAI và Anthropic hiện đã sử dụng dữ liệu tổng hợp để đào tạo các mô hình AI hàng đầu. Một nghiên cứu từ Gartner cho thấy khoảng 60% dữ liệu được sử dụng cho các dự án AI và phân tích trong năm 2024 là dữ liệu tổng hợp.
Điển hình là Microsoft khi mở mã nguồn cho mô hình Phi-4 vào đầu tuần này, đã được đào tạo từ cả dữ liệu thực và dữ liệu tổng hợp. Tương tự, các mô hình Gemma của Google cũng sử dụng dữ liệu tổng hợp. Anthropic cũng đã áp dụng một số dữ liệu tổng hợp để phát triển hệ thống Claude 3.5 Sonnet của mình. Meta cũng đã tinh chỉnh loạt mô hình Llama mới nhất với dữ liệu được tạo ra bởi AI.
Việc sử dụng dữ liệu tổng hợp không chỉ giúp vượt qua sự thiếu hụt dữ liệu mà còn mang lại lợi thế về chi phí. Startup AI Writer cho biết mô hình Palmyra X 004, được phát triển chủ yếu từ dữ liệu tổng hợp, chỉ tốn khoảng 700.000 USD để phát triển, trong khi một mô hình tương tự từ OpenAI ước tính tốn đến 4,6 triệu USD.
Tuy nhiên, sử dụng dữ liệu tổng hợp cũng tiềm ẩn nhiều rủi ro. Một số nghiên cứu cho thấy dữ liệu tổng hợp có thể dẫn đến tình trạng mô hình bị suy giảm, nơi mô hình trở nên kém “sáng tạo” và thiên lệch hơn trong các đầu ra của mình, cuối cùng có thể làm giảm nghiêm trọng khả năng hoạt động của nó. Nếu dữ liệu được sử dụng để đào tạo các mô hình này có thiên kiến và hạn chế, thì các sản phẩm từ AI cũng sẽ mang những điểm kém đó.
Xét cho cùng, việc Elon Musk phát biểu về sự cạn kiệt dữ liệu trong đào tạo AI không chỉ là một tín hiệu về tình hình hiện tại mà còn là một lời cảnh báo cho tương lai của ngành công nghiệp này. Nếu không điều chỉnh kịp thời, việc thiếu hụt dữ liệu thực có thể làm gián đoạn sự phát triển của AI và các ứng dụng của nó trong thế giới thực.