官方服务微信:dat818 购买与出租对接

人工智能模型排名飙升:GPT-4主导,谷歌Gemini与Mistral-Medium竞逐前列

2万

主题

2

回帖

8万

积分

管理员

积分
85352
发表于 2025-2-18 19:38:40 | 显示全部楼层 |阅读模式
    2月21日的新闻,近几个月来,在线发布的人工智能模型的流行飙升。这些排名表明,机器人在某些任务上的表现优于人类。但是专家说,实际意义并不多。

    人工智能模型本质上是一组可以实现特定目标的代码包裹的数学方程。每个排名都根据AI模型完成特定任务的能力来跟踪最先进的模型。人们还可以从排名中看到主要科技公司之间的实时AI竞赛。

    诸如和Paris初创公司之类的模型引起了人们对AI社区的极大兴趣,并争夺了高级排名。

    但是,GPT-4模型继续主导着主要排名。

    斯坦福计算机科学博士学生兼竞技场排名的联合创始人Ying Sheng说:“人们关心他们的技能。” “我认为人们实际上希望看到排名的变化。这意味着竞争仍然存在,还有更多的改进。”

    图片:聊天机器人竞技场排名

    AI模型的排名通常基于各种测试,以确定模型的一般功能,哪些模型可能是特定用途(例如语音识别)的最佳方法。这些测试有时称为基准,该测试主要根据指标来衡量模型性能,例如AI生成的音频的效果或聊天机器人的响应。

    随着人工智能的持续发展,测试的演变也很重要。

   


    斯坦福大学以人工智能研究所的研究总监 Parli说:“这些标准并不完美,目前,这是我们评估AI系统的唯一标准。”方法。”

    Pali Works的研究所汇编了斯坦福大学人工智能指数(AI指数)。该年度报告在各种指标下跟踪人工智能模型的技术性能。帕利说,2023年的报告研究了50个指标,但只有20个指标被采用。今年的报告将再次删除一些较旧的指标,并突出显示更新,更全面的指标。

    这些排名还可以使人们了解目前正在开发多少人工智能模型。截至今年2月初,开源机器学习平台面孔已经评估并排名4,200多个型号,所有型号均由人工智能界成员提交。

    这些模型基于七个关键指标跟踪和测试模型,评估了各种能力,例如阅读理解和解决数学问题。其中包括测试这些模型在回答小学数学和科学问题,测试其常识推理技能以及衡量其重复错误信息的趋势时的表现。有些测试提供了多项选择答案,而另一些测试则要求模型根据提示自己生成答案。

    访问排名以查看每个AI模型的特定基准性能得分和总体平均得分。在任何基准测试中,尚无模型的全部得分100。最近,由旧金山初创公司开发的人工智能模型Smaug-72B成为第一个平均得分超过80点的机器人。

    在这些测试中,许多大型语言模型都在人类基准高于人类基准之上,这就是研究人员所说的“饱和度”。 Face的联合创始人兼首席科学官托马斯·沃尔夫( Wolf)表示,当建模功能超出特定基准之外,就像从初中到高中的学生一样,这通常会发生这种情况。否则,当模型记住如何回答某些测试问题时,此概念也称为“过度拟合”。

    当发生这种情况时,当模型在以前的任务中表现良好时,它在面对新情况或旧任务的变化时表现不佳。

    沃尔夫在一封电子邮件中写道:“饱和并不意味着我们的模型通常变得比人类更好。” “这只是意味着该模型已经达到了特定基准的点,即当前测试无法正确评估其功能,因此我们需要设计新的标准。”

    一些基准已经存在了多年。对于大型语言模型的开发人员,很容易使用这些测试集来训练它们开发的模型,从而确保发行时高分。作为由学校间开放研究组织大型模型组织创建的排名列表,Arena使用手动输入来评估人工智能模型来解决此问题。

    帕利说,研究人员还希望在测试大型语言模型方面更具创造力。也就是说,更全面地判断,而不仅仅是一次查看一个特定指标。

   


    她说:“这主要是因为我们发现更多的传统基准是饱和的,而手动评估的引入将为我们提供一些方面,这些方面无法用于计算机等基于代码的评估测试。”

    竞技场允许游客向两个匿名AI模型提出任何问题,然后投票决定哪种聊天机器人将提供更好的答案。

    到目前为止,竞技场排名根据超过300,000人的手动票的结果,将大约60款车型排名。根据创作者的说法,自竞技场排名不到一年前以来,网站访问已大大增加,而竞技场现在每天获得数万票,并且该平台收到了太多的请求来添加新车型以适应所有模型他们的模型。

    Arena联合创始人Wei-Lin是加州大学伯克利分校的计算机科学博士生。他说,团队进行的研究表明,众包投票几乎与雇用人类专家测试聊天机器人一样高质量的结果。他承认有不可避免的异常值,但是团队正在开发算法来检测匿名访客的恶意行为。

    尽管基准很有用,但研究人员也承认,他们并不是无所不能的。 Face联合创始人沃尔夫(Wolf)认为,即使模型在推理基准上得分很高,在分析特定用例(例如法律文件)时,它的表现仍然可能很差。

    他补充说,这就是为什么一些业余爱好者喜欢通过观察AI模型在不同环境中执行的“情感检查”的原因,从而评估了这些模型如何成功与用户互动,保持良好的记忆并与他们的个性保持一致。

    尽管基准测试存在缺陷,但研究人员说,相关的测试和排名仍然可以鼓励AI开发人员继续创新。他们必须不断提高标准,以跟上最新评估。

    来源| 技术报告

更多帖子推荐

您需要登录后才可以回帖 登录 | 立即注册

Archiver|手机版|小黑屋|关于我们

Copyright © 2001-2025, Tencent Cloud.    Powered by Discuz! X3.5    京ICP备20013102号-30

违法和不良信息举报电话:86-13718795856 举报邮箱:hwtx2020@163.com

GMT+8, 2025-4-22 03:12 , Processed in 0.071710 second(s), 18 queries .