Chatbot Arena:UC Berkeley开源AI评测平台,采用Bradley-Terry模型生成实时排行榜
1个背景简介Arena是由加州大学伯克利分校(UC)的实验室和团队共同开发的开源AI评估平台。该平台通过众包对各种AI模型进行了全面的评估,并使用–terry模型生成实时排名,为行业提供客观和公平的模型绩效参考。
众包方法:“”是一个专业术语,指的是:“人群”(Mass) +“”(来源),即众包。它是从大量互联网用户那里收集意见/数据,也就是说,使用()的智慧来完成特定的任务。
- 特殊模型:一种统计工具,专门处理诸如“谁更好”之类的问题。例如,当用户同时在竞技场平台上看到GPT-4和两个AI的答案时,他们将选择一个他们认为更好的答案。通过收集大量此类“两项选择”结果,-Terry模型可以计算每个AI模型的强度参数。如果用户通常选择GPT-4作为更好的答案,则其强度参数将得到相应的改进。
2评论概述
截至2024年12月29日的最新数据显示:
https://img1.baidu.com/it/u=1187516779,787364031&fm=253&fmt=JPEG&app=120&f=JPEG?w=607&h=221
·参与模型的总数:187(下图仅提取头部多个模型)
·累积用户投票:2,488,392票
·评估维度:包括语言能力,视觉能力,编程助理和其他方向
·评分机制:使用类似于国际象棋的ELO评分系统,模型之间的成对比较是通过用户投票执行的。
从该表分析中,我们可以看到当前的全球AI大型模型竞争模式显示了“美国和中国的两个英雄”。
美国公司:元,XAI,
https://img1.baidu.com/it/u=1356213504,3001304434&fm=253&fmt=JPEG&app=120&f=JPEG?w=664&h=426
中国公司:01ai,Zhipu ai
美国公司的领导绝非偶然。并分别以1373分和1365分领先列表,这反映了其在诸如计算能力,数据和人才之类的核心元素中的长期积累。
该排名还反映了当前AI大型模型领域的几个重要趋势:美国公司仍然具有技术优势,但全球竞争正在加剧;开源和封闭源模型共存;模型性能差距正在缩小,竞争变得越来越激烈。同时,中国公司在人工智能领域的兴起变得越来越明显。许多中国公司的模型正在接近第一个梯队,并显示出快速追赶的趋势。
通常,此列表不仅是对当前AI技术水平的客观反映,而且是对技术发展未来方向的重要启蒙。在这场技术斗争中,真正的赢家是整个AI行业生态系统,最终的受益人绝对是全球用户。
页:
[1]