Khả năng phân tích dữ liệu của Gemini không tốt như Google tuyên bố
Một trong những điểm bán hàng của các mô hình trí tuệ nhân tạo sinh sản cờ bạc của Google, Gemini 1.5 Pro và 1.5 Flash, là khả năng xử lý và phân tích dữ liệu mà chúng được cho là có thể thực hiện. Trong các buổi họp báo và demo, Google đã lặp đi lặp lại tuyên bố rằng các mô hình có thể thực hiện các nhiệm vụ trước đây không thể thực hiện được nhờ vào "bối cảnh dài", như tóm tắt nhiều tài liệu trăm trang hoặc tìm kiếm qua các cảnh trong phim.
\Nhưng nghiên cứu mới cho thấy rằng các mô hình thực sự không tốt trong những điều đó.
\Cửa sổ ngữ cảnh của Gemini thiếu
\Cửa sổ ngữ cảnh của một mô hình chỉ đến dữ liệu đầu vào (ví dụ: văn bản) mà mô hình xem xét trước khi tạo ra đầu ra (ví dụ: văn bản bổ sung). Một câu hỏi đơn giản - "Ai đã chiến thắng cuộc bầu cử Tổng thống Mỹ năm 2020?" - có thể phục vụ như là ngữ cảnh, cũng như kịch bản phim, chương trình hoặc đoạn âm thanh. Và khi cửa sổ ngữ cảnh mở rộng, kích thước của các tài liệu được chứa trong đó cũng tăng lên.
\Các phiên bản mới nhất của Gemini có thể nhận vào hơn 2 triệu mã thông báo như ngữ cảnh. ("Mã thông báo" là các bit nhỏ được chia tách từ dữ liệu gốc, như những vần "fan", "tas" và "tic" trong từ "tuyệt vời".) Điều đó tương đương với khoảng 1,4 triệu từ, hai giờ video hoặc 22 giờ âm thanh - ngữ cảnh lớn nhất trong các mô hình hiện có trên thị trường.
\Trong một cuộc họp báo vào đầu năm nay, Google đã cho xem một số demo đã được ghi trước nhằm mô tả tiềm năng của khả năng xử lý ngữ cảnh dài của Gemini. Một trong số đó là Gemini 1.5 Pro tìm kiếm bản dịch của cuộc trình diễn hạ cánh trên mặt trăng Apollo 11 - khoảng 402 trang - để tìm những câu nói chứa nội dung hóm hỉnh, sau đó tìm một cảnh trong cuộc trình diễn giống như một bản vẽ bằng bút chì.
\VP nghiên cứu tại Google DeepMind Oriol Vinyals, người đã dẫn dắt cuộc họp báo, mô tả mô hình như là "phép thuật".
\"[1.5 Pro] thực hiện những nhiệm vụ suy luận như vậy trên mỗi trang, mỗi từ," ông nói.
\Điều đó có thể đã được phóng đại.
\Trong một trong những nghiên cứu nêu trên, Karpinska cùng với các nhà nghiên cứu từ Viện AI Allen và Princeton, yêu cầu các mô hình đánh giá các câu trả lời đúng/sai về các cuốn sách hư cấu được viết bằng tiếng Anh. Các nhà nghiên cứu chọn các tác phẩm mới nhất để mô hình không thể "gian lận" bằng cách dựa vào kiến thức trước, và họ xen kẽ các câu trả lời với các tham chiếu đến các chi tiết cụ thể và các điểm cốt truyện mà không thể hiểu được mà không cần đọc toàn bộ cuốn sách.
\Được đưa ra một câu như "Bằng cách sử dụng kỹ năng của mình như một Apoth, Nusis có thể ngược kỹ thuật trụ mở bằng chìa khóa các chất dẫn mà cô tìm thấy trong rương gỗ của Rona," Gemini 1.5 Pro và 1.5 Flash - sau khi tiếp nhận cuốn sách liên quan - phải nói xem câu lệnh đó có đúng hay sai và giải thích lý do.
\Khi được thử nghiệm với một cuốn sách khoảng 260.000 từ (~520 trang), các nhà nghiên cứu đã phát hiện ra rằng 1.5 Pro đã trả lời đúng/sai các câu lệnh 46,7% trong khi Flash chỉ trả lời đúng 20% thời gian. Điều đó có nghĩa rằng một đồng xu có khả năng trả lời câu hỏi về cuốn sách tốt hơn mô hình học máy mới nhất của Google. Trong việc trung bình các kết quả, không một trong các mô hình quản lý đạt được kết quả cao hơn so với cơ hội ngẫu nhiên ở mức độ chính xác trả lời câu hỏi.
\'Chúng tôi đã nhận thấy rằng các mô hình gặp khó khăn hơn trong việc xác nhận các tuyên bố yêu cầu cân nhắc các phần lớn của cuốn sách, hoặc thậm chí toàn bộ cuốn sách, so với các tuyên bố có thể được giải quyết bằng cách truy xuất bằng chứng ở cấp độ câu,' Karpinska nói. 'Về mặt chất lượng, chúng tôi cũng quan sát thấy rằng các mô hình gặp khó khăn trong việc xác nhận các tuyên bố về thông tin ngầm mà rõ ràng đối với một người đọc nhưng không được nêu rõ trong văn bản.'
\Người thứ hai trong hai nghiên cứu, cùng với các nhà nghiên cứu tại Đại học UC Santa Barbara, đã thử nghiệm khả năng của Gemini 1.5 Flash (nhưng không phải 1.5 Pro) 'suy luận qua' video - nghĩa là tìm kiếm và trả lời câu hỏi về nội dung trong đó.
\Các tác giả đã tạo ra một bộ dữ liệu hình ảnh (ví dụ: một bức ảnh bánh sinh nhật) kết hợp với các câu hỏi để mô hình trả lời về các đối tượng được mô tả trong hình ảnh (ví dụ: 'Nhân vật hoạt hình nào đang ở trên chiếc bánh này?'). Để đánh giá mô hình, họ chọn một trong những hình ảnh ngẫu nhiên và chèn các hình ảnh 'gây nhiễu' trước và sau đó để tạo ra cảnh quay giống như slideshow.
\Flash không thể thực hiện tốt. Trong một bài kiểm tra mà mô hình phải sao chép sáu chữ số đã viết tay từ một 'slideshow' gồm 25 hình ảnh, Flash đã đúng khoảng 50% trong số các bản chép. Độ chính xác giảm xuống khoảng 30% với tám chữ số.
\'Trong các nhiệm vụ trả lời câu hỏi thực sự trên hình ảnh, có vẻ như rất khó cho tất cả các mô hình mà chúng tôi đã kiểm tra,' Michael Saxon, một sinh viên tiến sĩ tại Đại học UC Santa Barbara và một trong số tác giả của nghiên cứu, nói với TechCrunch. 'Lượng suy luận nhỏ - nhận ra rằng một số là ở trong khung và đọc nó - có thể là điều làm vỡ mô hình.'
\Google đang quảng cáo quá mức với Gemini
\Cả hai nghiên cứu đều chưa được đồng nghiệm đánh giá, cũng như không đề cập đến các phiên bản 2 triệu mã thông báo của Gemini 1.5 Pro và 1.5 Flash. (Cả hai đã kiểm thử các phiên bản 1 triệu mã thông báo.) Và Flash không được dự định là khả năng như Pro về hiệu suất; Google quảng cáo nó như là một lựa chọn chi phí thấp.
\Tuy nhiên, cả hai nghiên cứu đều cung cấp nhiên liệu cho quan điểm rằng Google đã quảng cáo quá mức - và giao hàng kém - với Gemini từ đầu. Không một trong số các mô hình mà các nhà nghiên cứu đã thử nghiệm, bao gồm GPT-4o của OpenAI và Claude 3.5 Sonnet của Anthropic, đều hoạt động tốt. Nhưng Google là nhà cung cấp mô hình duy nhất đã đưa cửa sổ ngữ cảnh lên hàng đầu trong quảng cáo của mình.
\'Không có gì sai với lời tuyên bố đơn giản, 'Mô hình của chúng tôi có thể nhận X số mã thông báo' dựa trên chi tiết kỹ thuật mục tiêu,' Saxon nói. 'Nhưng câu hỏi là, điều hữu ích bạn có thể làm với nó là gì?'
\Trên một cách nói chung, trí tuệ nhân tạo sinh sản đang chịu áp lực ngày càng nhiều khi doanh nghiệp (và các nhà đầu tư) trở nên chán chường với những hạn chế của công nghệ này.
\Trong một cặp khảo sát mới từ Boston Consulting Group, khoảng một nửa các người tham gia khảo sát - tất cả đều là các giám đốc cấp cao - cho biết họ không kỳ vọng trí tuệ nhân tạo sinh sản mang lại những lợi ích năng suất đáng kể và họ lo lắng về tiềm ẩn về những sai sót và sự phơi bày thông tin từ các công cụ dựa trên trí tuệ nhân tạo sinh sản. PitchBook gần đây đã báo cáo rằng, trong hai quý liên tiếp, các giao dịch với trí tuệ nhân tạo sinh sản ở các giai đoạn sớm đã giảm, giảm 76% so với đỉnh cao của năm 2023 quý 3.
\Đối mặt với công cụ trò chuyện tóm tắt cuộc họp mà tưởng tượng ra chi tiết hư cấu về mọi người và các nền tảng tìm kiếm trí tuệ nhân tạo sinh sản mà cơ bản chỉ là máy sao chép, khách hàng đang bắt đầu tìm kiếm những điểm khác biệt hứa hẹn. Google - mà đôi khi đã vội vàng đuối - đã tuyên bố Gemini's ngữ cảnh là một trong những điểm phân biệt đó.
\Nhưng dường như mối lo ngại là quá sớm, có vẻ vậy.
\'Chúng tôi chưa xác định cách thực sự chứng minh rằng suy luận' hay 'hiểu biết' qua các tài liệu dài đang diễn ra, và về cơ bản mọi tổ chức phát hành các mô hình này đều đang phơi bày các kiểm tra ad hoc của riêng mình để làm cho những lời tuyên bố này,' Karpinska nói. 'Mà không có kiến thức về cách xử lý ngữ cảnh dài - và các công ty không chia sẻ những chi tiết này - thì rất khó để nói rằng những lời tuyên bố này có sự thực hay không.'
\Google không phản hồi yêu cầu bình luận.
\Cả Saxon và Karpinska tin rằng các biện pháp phòng tránh cho các lời tuyên bố được bơm phồng xung quanh trí tuệ nhân tạo sinh sản là các chỉ số thước đo tốt hơn và, cùng theo hướng này, tập trung nhiều hơn vào phê phán của bên thứ ba. Saxon lưu ý một trong những kiểm tra phổ biến nhất cho ngữ cảnh dài (được trích dẫn rộng rãi bởi Google trong tài liệu tiếp thị của mình), 'kim trong đống rơm', chỉ đánh giá khả năng của mô hình truy xuất thông tin cụ thể, như tên và số, từ các tập dữ liệu - không phải trả lời các câu hỏi phức tạp về thông tin đó.
\'Tất cả các nhà khoa học và hầu hết các kỹ sư sử dụng các mô hình này đều đồng thuận rằng nền văn cảnh