Sự thật kinh hoàng đã được phơi bày! Một nghiên cứu quy mô ‘khủng’ từ Microsoft Research và Salesforce Research, phân tích hơn 200.000 đoạn hội thoại trên 15 mô hình AI hàng đầu (trong đó có GPT-4.1, Gemini 2.5 Pro, Claude 3.7 Sonnet và Deepseek-R1), đã đưa ra một kết luận khiến nhiều người dùng phải giật mình: tất cả các ‘bộ não’ nhân tạo này đều hoạt động kém hiệu quả một cách đáng kể khi cuộc trò chuyện diễn ra dài hơn một vài lượt.
Hãy hình dung thế này: độ chính xác trung bình của chúng ‘bay hơi’ tới 39% khi chuyển từ hỏi đáp một lượt sang hỏi đáp nhiều lượt. Ngay cả những tên tuổi lẫy lừng như GPT-4.1 cũng chứng kiến hiệu suất giảm từ 96,6% xuống 72,6%, còn Gemini 2.5 Pro thậm chí còn tệ hơn, từ 97,4% lao dốc xuống chỉ còn 68,1%. Đây là mức giảm đáng kinh ngạc, được ghi nhận trên 6 loại tác vụ đa dạng, từ lập trình phức tạp đến các bài toán cơ bản hay tóm tắt văn bản.
Nhưng điều đáng sợ hơn cả là nguyên nhân sâu xa. Các nhà khoa học đã mổ xẻ và phát hiện: năng lực cốt lõi của AI chỉ giảm 16%, nhưng độ ‘thất thường’ – tức là sự chênh lệch giữa kết quả tốt nhất và tệ nhất – lại tăng vọt đến 112%! Điều này có nghĩa là, về lý thuyết, AI vẫn có thể giải quyết vấn đề, nhưng bạn không bao giờ biết được lần này nó sẽ ‘minh mẫn’ hay ‘lú lẫn’, dù câu hỏi có thể y hệt nhau.
Hiệu ứng này được đặt tên là ‘lạc lối trong hội thoại’ (lost in conversation). Vấn đề không phải là AI ‘não cá vàng’, mà là chúng quá vội vàng đưa ra giả định. Chỉ mới lượt thứ hai hay thứ ba, khi bạn còn chưa kịp cung cấp đủ thông tin, AI đã ‘nhanh nhảu đoảng’ tự suy đoán và xây dựng một câu trả lời hoàn chỉnh. Và một khi đã đặt nền móng sai, nó cứ thế mà ‘lầm đường lạc lối’ mãi.
Khi bạn cố gắng bổ sung thông tin sau đó, thay vì ‘làm lại từ đầu’, AI lại cố chấp điều chỉnh câu trả lời cũ, tạo ra một ‘mớ bòng bong’ ngày càng dài dòng, phức tạp và sai lệch. Nghiên cứu gọi đây là ‘answer bloat’ – câu trả lời có thể dài hơn từ 20% đến tận 300%, nhưng chất lượng thì… tỉ lệ nghịch!
Lý do gốc rễ? Đơn giản là cách chúng được huấn luyện. Hầu hết dữ liệu mà AI học được đều là các cuộc hội thoại ‘một chiều’: câu hỏi rõ ràng, đáp án dứt khoát. Trong khi đó, con người chúng ta lại trò chuyện theo kiểu ‘tương tác nhiều lượt’: bắt đầu mơ hồ, dần dần thêm chi tiết, và đôi khi còn đổi ý nữa. Chính sự khác biệt ‘một trời một vực’ này đã tạo ra lỗ hổng chí mạng. Ngay cả những mô hình được thiết kế để ‘suy nghĩ’ kỹ hơn như o3 hay Deepseek-R1 cũng không thoát khỏi ‘lời nguyền’ này.
Đáng buồn là, các giải pháp phổ biến như mở rộng ‘khung ngữ cảnh’ (context window) hay ‘chain-of-thought prompting’ đều không thể giải quyết được bản chất vấn đề. Chỉ có một phương pháp duy nhất mang lại hiệu quả: ‘concat-and-retry’. Tức là, hãy thu thập tất cả thông tin bạn muốn truyền đạt, gộp chúng lại thành một yêu cầu duy nhất, và bắt đầu một cuộc trò chuyện hoàn toàn mới. Cách này đã giúp độ chính xác của AI quay trở lại mức hơn 90% ban đầu.
Vậy bài học rút ra cho người dùng là gì? Nếu thấy AI đang ‘lạc đề’ hoặc trả lời không đúng ý, đừng cố gắng ‘nắn chỉnh’ nó trong cùng một cuộc trò chuyện. Thay vào đó, hãy mở một tab chat mới, trình bày toàn bộ yêu cầu và thông tin ngay từ đầu. Đây không phải là một ‘mẹo vặt’ mà là cách đối phó với giới hạn kiến trúc hiện tại của AI.
Các nhà nghiên cứu nhấn mạnh rằng đã đến lúc các ông lớn AI phải thay đổi hướng đi. Thay vì chỉ tập trung vào việc tạo ra những mô hình ‘thiên tài’ trong tác vụ đơn lẻ, họ cần ưu tiên cải thiện độ tin cậy và sự thông minh của AI trong các cuộc hội thoại đa lượt phức tạp – nơi mà con người thực sự tương tác hàng ngày.
Chia sẽ tin tức và thông tin