hwyzw 发表于 2025-2-18 18:14:51

Chatbot Arena:UC Berkeley开源AI评测平台,采用Bradley-Terry模型生成实时排行榜

    1个背景简介

    Arena是由加州大学伯克利分校(UC)的实验室和团队共同开发的开源AI评估平台。该平台通过众包对各种AI模型进行了全面的评估,并使用–terry模型生成实时排名,为行业提供客观和公平的模型绩效参考。

    众包方法:“”是一个专业术语,指的是:“人群”(Mass) +“”(来源),即众包。它是从大量互联网用户那里收集意见/数据,也就是说,使用()的智慧来完成特定的任务。

    - 特殊模型:一种统计工具,专门处理诸如“谁更好”之类的问题。例如,当用户同时在竞技场平台上看到GPT-4和两个AI的答案时,他们将选择一个他们认为更好的答案。通过收集大量此类“两项选择”结果,-Terry模型可以计算每个AI模型的强度参数。如果用户通常选择GPT-4作为更好的答案,则其强度参数将得到相应的改进。

    2评论概述

    截至2024年12月29日的最新数据显示:

    https://img1.baidu.com/it/u=1187516779,787364031&fm=253&fmt=JPEG&app=120&f=JPEG?w=607&h=221

    ·参与模型的总数:187(下图仅提取头部多个模型)

    ·累积用户投票:2,488,392票

    ·评估维度:包括语言能力,视觉能力,编程助理和其他方向

    ·评分机制:使用类似于国际象棋的ELO评分系统,模型之间的成对比较是通过用户投票执行的。

    从该表分析中,我们可以看到当前的全球AI大型模型竞争模式显示了“美国和中国的两个英雄”。

    美国公司:元,XAI,

    https://img1.baidu.com/it/u=1356213504,3001304434&fm=253&fmt=JPEG&app=120&f=JPEG?w=664&h=426

    中国公司:01ai,Zhipu ai

    美国公司的领导绝非偶然。并分别以1373分和1365分领先列表,这反映了其在诸如计算能力,数据和人才之类的核心元素中的长期积累。

    该排名还反映了当前AI大型模型领域的几个重要趋势:美国公司仍然具有技术优势,但全球竞争正在加剧;开源和封闭源模型共存;模型性能差距正在缩小,竞争变得越来越激烈。同时,中国公司在人工智能领域的兴起变得越来越明显。许多中国公司的模型正在接近第一个梯队,并显示出快速追赶的趋势。

    通常,此列表不仅是对当前AI技术水平的客观反映,而且是对技术发展未来方向的重要启蒙。在这场技术斗争中,真正的赢家是整个AI行业生态系统,最终的受益人绝对是全球用户。
页: [1]
查看完整版本: Chatbot Arena:UC Berkeley开源AI评测平台,采用Bradley-Terry模型生成实时排行榜