12 Thg 09 2024

Chatbot Arena - chuẩn mực cho cuộc đua của các AI liệu có xứng?

Đỗ Minh Đức

Chia sẻ bài viết

Mục lục

Tìm kiếm một chuẩn mực mới
Chatbot Arena liệu có thực sự khách quan?
Đâu là một tiêu chuẩn đánh giá tốt?

Thời gian gần đây, Chatbot Arena đã trở thành tâm điểm chú ý của giới công nghệ, nó thậm chí còn được xem như một thước đo đánh giá hiệu suất của các mô hình AI. Tuy nhiên, nhiều chuyên gia đặt ra câu hỏi về tính khách quan và khả năng phản ánh chính xác chất lượng của các mô hình AI từ bảng xếp hạng của Chatbot Arena.

Xem thêm:

Trong vài tháng qua, nhiều lãnh đạo công nghệ như Elon Musk đã liên tục ca ngợi hiệu suất của các mô hình AI do công ty họ phát triển dựa trên một tiêu chuẩn đánh giá cụ thể là Chatbot Arena. Phải nói rằng, Chatbot Arena đã trở thành một "cơn sốt" trong ngành công nghiệp AI.

Các bài đăng cập nhật bảng xếp hạng mô hình thu hút hàng trăm lượt xem và chia sẻ trên Reddit và X, trong khi tài khoản X chính thức của LMSYS có hơn 54.000 người theo dõi. Tính riêng trong năm 2023, trang web của LMSYS này đã thu hút hàng triệu lượt truy cập. Tuy nhiên, vẫn còn một số nghi vấn về khả năng đánh giá của Chatbot Arena.

Tìm kiếm một chuẩn mực mới

Trước khi đi sâu vào phân tích, hãy dành chút thời gian để hiểu rõ LMSYS là gì và điều gì đã khiến tổ chức này trở nên phổ biến như vậy.

Tổ chức phi lợi nhuận này chỉ mới được thành lập vào tháng 4/2023, với vai trò là một dự án tiên phong do sinh viên và giảng viên tại Đại học Carnegie Mellon, SkyLab của Đại học California Berkeley và Đại học California San Diego khởi xướng. Một số thành viên sáng lập của đơn vị này hiện đang làm việc tại Google DeepMind, xAI của Musk và Nvidia. Hiện tại, LMSYS chủ yếu do các nhà nghiên cứu trực thuộc SkyLab điều hành.

Ban đầu, LMSYS không có ý định tạo ra một bảng xếp hạng mô hình AI như hiện tại. Nhiệm vụ ban đầu của họ là làm cho các mô hình (đặc biệt là các mô hình sáng tạo theo kiểu ChatGPT của OpenAI) trở nên dễ tiếp cận hơn bằng cách cùng phát triển và biến chúng thành mã nguồn mở.

Tuy nhiên, ngay sau khi LMSYS được thành lập, các thành viên nhóm nghiên cứu nhận thấy sự bất cập trong việc đánh giá AI lúc bấy giờ, nên họ đã quyết định tạo ra một công cụ đánh giá của riêng mình.

"Các tiêu chuẩn đánh giá hiện tại không thể đáp ứng đầy đủ nhu cầu của các mô hình tiên tiến, đặc biệt là trong việc đánh giá sở thích của người dùng. Do đó, cần phải có một nền tảng đánh giá trực tiếp dựa trên sở thích của con người có thể phản ánh chính xác hơn", đại diện LMSYS cho biết.

Dễ nhận thấy, các tiêu chuẩn đánh giá được sử dụng phổ biến nhất hiện nay chưa thực sự nắm bắt được cách người dùng tương tác với các mô hình. Nhiều kỹ năng mà các tiêu chuẩn đánh giá hiện nay đang nhắm đến, ví dụ như giải các bài toán cấp độ cao hiếm khi phù hợp với phần lớn mọi người sử dụng, chẳng hạn như Claude.

Các nhà sáng tạo LMSYS cũng có cùng suy nghĩ và vì vậy họ đã nghĩ ra một giải pháp thay thế: Chatbot Arena, một tiêu chuẩn đánh giá có nguồn gốc từ cộng đồng được thiết kế để nắm bắt các khía cạnh "tinh tế" của các mô hình và hiệu suất của chúng đối với các nhiệm vụ thực tế.

Chatbot Arena cho phép bất kỳ ai trên web đặt câu hỏi cho hai mô hình ẩn danh được chọn ngẫu nhiên. Khi một người đồng ý với Điều khoản dịch vụ cho phép dữ liệu của họ được sử dụng cho nghiên cứu trong tương lai của LMSYS, các mô hình và các dự án liên quan, họ có thể bình chọn cho câu trả lời ưa thích của mình từ hai mô hình đang được so sánh.

Kể từ khi Chatbot Arena ra mắt, LMSYS đã bổ sung hàng chục mô hình mở vào công cụ thử nghiệm của mình và hợp tác với các trường đại học như Đại học Trí tuệ nhân tạo Mohamed bin Zayed (MBZUAI), cũng như các công ty bao gồm OpenAI, Google, Anthropic, Microsoft, Meta, Mistral và Hugging Face, cung cấp các mô hình của họ để thử nghiệm.

Chatbot Arena hiện có hơn 100 mô hình, bao gồm các mô hình đa phương thức (các mô hình có thể hiểu dữ liệu vượt ra ngoài văn bản) như GPT-4o của OpenAI và Claude 3.5 Sonnet của Anthropic.

Chatbot Arena liệu có thực sự khách quan?

Những người sáng lập LMSYS khẳng định rằng các câu hỏi do người dùng đóng góp của Chatbot Arena đủ đa dạng để làm tiêu chuẩn cho một loạt các trường hợp sử dụng AI. Tuy nhiên kết quả thực sự mang tính thông tin như thế nào? Điều đó vẫn còn gây tranh cãi.

Yuchen Lin, một nhà khoa học nghiên cứu tại Viện AI phi lợi nhuận Allen, cho biết LMSYS đã không làm rõ về khả năng, kiến thức và kỹ năng của mô hình đang đánh giá trên Chatbot Arena. Vào tháng 3, LMSYS đã phát hành một bộ dữ liệu, LMSYS-Chat-1M, chứa một triệu cuộc trò chuyện giữa người dùng và 25 mô hình trên Chatbot Arena. Nhưng nó đã không được cập nhật kể từ đó.

"Việc đánh giá không thể làm lại và dữ liệu hạn chế do LMSYS công bố khiến việc nghiên cứu sâu về những hạn chế của mô hình trở nên khó khăn", Lin nói.

Ở một mức độ nào đó mà LMSYS đã nêu chi tiết về phương pháp thử nghiệm của mình, các nhà nghiên cứu cho biết, họ tận dụng các thuật toán lấy mẫu hiệu quả để so sánh các mô hình với nhau. Phía LMSYS tiết lộ, họ thu thập khoảng 8.000 phiếu bầu cho mỗi mô hình trước khi làm mới bảng xếp hạng Chatbot Arena và ngưỡng đó thường đạt được sau vài ngày.

Mặc dù vậy Lin cảm thấy rằng việc bỏ phiếu có thể không đủ tin cậy do nhiều yếu tố tác động. Ví dụ, một số người dùng có thể thích câu trả lời dài hơn, được tạo kiểu đánh dấu, trong khi những người khác có thể thích câu trả lời ngắn gọn hơn.

Kết quả ở đây là hai người dùng có thể đưa ra câu trả lời trái ngược nhau cho cùng một cặp câu trả lời và cả hai đều hợp lệ như nhau. Gần đây, LMSYS thử nghiệm việc kiểm tra "phong cách" và "nội dung" trong các phản hồi của mô hình trong Chatbot Arena.

"Dữ liệu sở thích của con người được thu thập không tính đến những sai lệch này và nền tảng không phân biệt giữa 'A tốt hơn đáng kể so với B' và 'A chỉ tốt hơn một chút so với B”, Lin nhận định.

LMSYS đang cố gắng hoàn thiện bằng cách sử dụng các hệ thống tự động như MT Bench và Arena Hard Auto, sử dụng chính các mô hình (GPT-4 và GPT-4 Turbo của OpenAI) để xếp hạng chất lượng của các phản hồi từ các mô hình khác.

Đâu là một tiêu chuẩn đánh giá tốt?

Bất chấp các sai sót, LMSYS và Chatbot Arena vẫn đang cung cấp một dịch vụ có giá trị khi cung cấp thông tin chi tiết theo thời gian thực về cách các mô hình khác nhau hoạt động.

Lin đánh giá thêm: "Tiêu chuẩn đánh giá cung cấp một nền tảng thống nhất, nơi người dùng thực có thể tương tác với nhiều mô hình, mang đến một đánh giá chính xác và thực tế hơn”.

Cũng theo vị chuyên gia này, LMSYS có thể thiết kế các tiêu chuẩn đánh giá xung quanh các chủ đề khác nhau để kết quả của Chatbot Arena mang tính chuyên môn và chính xác hơn.

Chatbot Arena là bảng xếp hạng do LMSYS xây dựng nhằm đánh giá và xếp hạng các mô hình ngôn ngữ lớn phổ biến. Thời gian gần đây, Chatbot Arena rất phổ biến và được xem là chuẩn mực đánh giá các AI. Không chỉ dựa trên đánh giá của các chuyên gia, Chatbot Arena còn thu thập ý kiến phản hồi từ cộng đồng người dùng thực tế khi trải nghiệm các chatbot, mang lại cái nhìn toàn diện hơn về hiệu suất và ứng dụng của từng mô hình.

Chia sẻ bài viết