Chatbot Arena：UC Berkeley开源AI评测平台，采用Bradley-Terry模型生成实时排行榜

hwyzw 发表于 2025-2-18 18:14:51

1个背景简介

Arena是由加州大学伯克利分校（UC）的实验室和团队共同开发的开源AI评估平台。该平台通过众包对各种AI模型进行了全面的评估，并使用–terry模型生成实时排名，为行业提供客观和公平的模型绩效参考。

众包方法：“”是一个专业术语，指的是：“人群”（Mass） +“”（来源），即众包。它是从大量互联网用户那里收集意见/数据，也就是说，使用（）的智慧来完成特定的任务。

- 特殊模型：一种统计工具，专门处理诸如“谁更好”之类的问题。例如，当用户同时在竞技场平台上看到GPT-4和两个AI的答案时，他们将选择一个他们认为更好的答案。通过收集大量此类“两项选择”结果，-Terry模型可以计算每个AI模型的强度参数。如果用户通常选择GPT-4作为更好的答案，则其强度参数将得到相应的改进。

2评论概述

截至2024年12月29日的最新数据显示：

https://img1.baidu.com/it/u=1187516779,787364031&fm=253&fmt=JPEG&app=120&f=JPEG?w=607&h=221

·参与模型的总数：187（下图仅提取头部多个模型）

·累积用户投票：2,488,392票

·评估维度：包括语言能力，视觉能力，编程助理和其他方向

·评分机制：使用类似于国际象棋的ELO评分系统，模型之间的成对比较是通过用户投票执行的。

从该表分析中，我们可以看到当前的全球AI大型模型竞争模式显示了“美国和中国的两个英雄”。

美国公司：元，XAI，

https://img1.baidu.com/it/u=1356213504,3001304434&fm=253&fmt=JPEG&app=120&f=JPEG?w=664&h=426

中国公司：01ai，Zhipu ai

美国公司的领导绝非偶然。并分别以1373分和1365分领先列表，这反映了其在诸如计算能力，数据和人才之类的核心元素中的长期积累。

该排名还反映了当前AI大型模型领域的几个重要趋势：美国公司仍然具有技术优势，但全球竞争正在加剧；开源和封闭源模型共存；模型性能差距正在缩小，竞争变得越来越激烈。同时，中国公司在人工智能领域的兴起变得越来越明显。许多中国公司的模型正在接近第一个梯队，并显示出快速追赶的趋势。

通常，此列表不仅是对当前AI技术水平的客观反映，而且是对技术发展未来方向的重要启蒙。在这场技术斗争中，真正的赢家是整个AI行业生态系统，最终的受益人绝对是全球用户。

页: [1]

【华网优展网】's Archiver

Chatbot Arena：UC Berkeley开源AI评测平台，采用Bradley-Terry模型生成实时排行榜