官方服务微信:dat818 购买与出租对接

中国公司DeepSeek-V3开源大模型震撼硅谷,显卡地位或将不保

2万

主题

2

回帖

6万

积分

管理员

积分
68549
发表于 昨天 14:50 | 显示全部楼层 |阅读模式
    显卡或许没那么重要了?中国公司给硅谷上了重要的一课。新闻表明,中国公司在相关领域展现出了强大的实力,让硅谷也不得不重新审视和思考。这一事件引起了广泛的关注和讨论,也让人们看到了中国科技企业的崛起和影响力。

    �

    我万万没有想到,在西方沉浸于圣诞假期并且疯狂“过年”之际,我们中国企业给他们放了一个新年二踢脚,把他们的脑瓜子崩得嗡嗡响。之前有宇树科技的机器狗视频,让大家惊呼不需要波士顿动力了。紧接着又出现了一个国产大模型,甚至有一些做空英伟达的意味。具体是什么情况,我们给你讲清楚。前几天,最新版本 V3 刚刚公布。需注意,与大洋彼岸那个自称 Open 但却越来越 Close 的公司产品不一样,这个 V3 是开源的。开源并非他最重要的标签。-V3(以下简称 V3)兼具了诸多特点,其一性能处于国际一流水平;其二技术力极为强大;其三价格击穿地心。这一系列特点组合起来,让业内大模型厂商们都有些晕头转向。V3 一经发布,创始成员们直接兴奋起来,甚至发出了灵魂之问,难道大模型们真的压根就不需要大规模显卡集群?我觉得老黄看到这头皮可能会发麻吧。Meta 的 AI 技术官称其成果很伟大。知名 AI 评测博主 Tim 直接夸赞,说其处理很优雅。在这些技术人员看着 V3 的成绩送去赞扬时,也有一些人着急了。

   


    奥特曼在那里说,复制是比较简单的啦,这很容易让人觉得他在有所暗示。更有意味的是,能够做到这些的公司既不是大型的工厂,也不是纯正的 AI 厂商。这家公司的中文名字叫深度求索,他们原本与 AI 没有任何关联。在大模型迅速走红之前,他们实际上是私募机构幻方量化的一个团队。深度求索能够实现弯道超车,其中既有一定的必然性,也似乎带有一些运气的成分。2019 年时,幻方就投入 2 亿元构建了自研的深度学习训练平台“萤火虫一号”。到了 2021 年,它已经拥有了足足 1 万丈英伟达 A100 显卡的算力储备。要明白,在这个时候大模型还没有火爆起来,万卡集群的概念更是尚未出现。幻方凭借这部分硬件储备拿到了 AI 大模型的入场券,最终卷出了现在的 V3 。一个好好的量化投资领域的大厂,跑来搞 AI 是为何呢?深度求索的 CEO 梁文锋在接受采访时给大家聊过,并非看中 AI 前景。他们认为,“通用人工智能或许是下一个极为困难的事情之一”。在他们看来,“这是一个关于如何去做的问题,而非为什么去做的问题”。正是凭借着这种“勇往直前”的劲头,他们深入求索才造就了此次的大新闻,接下来给大家详细讲讲 V3 有哪些特别之处。

    首先是性能方面表现强悍。目前来看,当与 V3 相对比时,开源模型几乎没有一个能够与之抗衡的。还记得在去年年中,小扎的 Meta 推出了模型 Llama 3.1 ,当时它因为性能优秀并且是开源的,在短时间内被捧到了神坛的位置。然而,在 V3 的面前,它基本上是全面处于落败的状态。各种大厂手里的闭源模型,像大家熟知的 GPT-4o、3.5 之类的,V3 能够与之抗衡。看到这里,你或许会觉得没什么特别,只是达到了国际领先水平而已,值得这样大肆宣扬吗?更厉害的还在后面呢。大家都清楚,现在的大模型是一个依靠大量算力,让模型摄取各种数据的炼丹过程。在炼丹期,需要投入大量的算力和时间。因此,在圈子里出现了一个新的计量单位“GPU 时”,即使用了多少块 GPU 以及花费了多少小时的训练时间。GPU 时数值越高,就表明花费的时间和金钱成本越高;反之,就意味着花费的时间和金钱成本相对较低,也就是更物美价廉。此前开源模型的王者是 Llama 3.1 405B,它的训练周期花费了 3080 万 GPU 时。而性能更强的 V3,训练花费的 GPU 时不到 280 万。从花费的钱来换算,搞出 V3 版本大概只花了 4000 多万人民币。Llama 3.1 405B 在训练期间,Meta 仅在老黄处就购买了 16000 多个 GPU 。从保守估计来看,至少花费了十几亿人民币。

    另外那几家闭源模型,动不动就投入几十亿甚至上百亿。你别以为它们是凭借什么不正当的手段,其实人家是实实在在有技术作为支撑的。为了弄清楚它们的技术到底怎么样,我们特意联系了语核科技的创始人兼 CTO 池光耀,他们主要致力于发展面向企业的 agent 数字人,早就成为了闭源模型的忠实粉丝。池光耀告知我们,此次 V3 的更新主要包含 3 个方面的优化。其一为通信和显存的优化;其二是推理专家的负载均衡;其三是 FP8 混合精度训练。对于各个部分的具体实现方式,我们就不再详细说明了。总体而言,其大的整体结构没有发生变化,更像是我们从事基建工作时的传统技艺,使工程变得更加高效、更加合理。V3 首先通过通信优化,极大幅度降低了资源空闲率。其次,V3 通过显存优化,提升了资源的利用效率。推理专家的负载均衡较为巧妙。一般的大模型每次启动时,需将所有具备推理能力的 AI 系统或算法(即专家)都按相同比例放入显存等工位。然而,在真正回答用户问题时,十几个专家里往往只用到一两个,其余的专家虽占据着显存等工位,却只能摸鱼,无法进行其他工作。将专家分为热门和冷门两类。对于热门专家,会复制一份放入显存,以处理热门问题;而冷门专家也不会无所事事,总是能够被分配到相应的问题。

   


    FP8 混合精度训练在之前很多团队尝试无果的方向上迈出了新的一步。它通过降低训练精度来减少训练时的算力开销,然而却神奇地让回答质量基本保持不变。正是这些技术上的革新,使得大模型圈对其一致好评。通过持续的技术更新迭代,所收获的回报十分惊人。他们推出 V3 版本后,价格低至百万次几毛钱到几块钱。一开始提到同样开源的 3.5 ,每百万输入输出至少要几十块,甚至更多。更严重的是,这对他们来说已是常规做法。早在去年初,V2 模型发布后,就凭借低价被大家称作 AI 界的拼多多。他们进一步引发了国内大模型公司的价格战,智谱、字节、阿里、百度、腾讯等大厂都纷纷进行了降价。池光耀告知我们,他们公司在去年 6 月和 7 月的时候就开始使用了,并且在那个时候,国内还有一些其他的大模型厂商找过他们。但价格相近的,模型“很笨,与(它)不在同一层面”;若模型能力和(它)相近,那个价格“大多是 10 倍以上”。更甚者,因为技术“远远领先”而产生的降本增效,即便(它)卖得如此便宜,按照他们创始人梁文峰的说法,他们公司依然在盈利。

    是不是有那种隔壁比亚迪推出 998 价格产品,却依然能让财报呈现盈利状态的感觉呢?不过对于我们这些普通用户而言,似乎这方面有点偏门了。因为他们的强项主要集中在推理、数学以及代码等方向,而在多模态和一些娱乐化的领域,并不是他们的优势所在。并且当下,尽管他们声称自己还是在盈利的,但他们团队整体都带有一种极客的气息,所以他们的商业化进程相较于其他厂商来说就显得有些薄弱了。但不管怎样, 的成功证明了在 AI 这个赛道存在着更多的可能性。以往的理解是,若想玩转 AI,后面没有金主爸爸砸钱买显卡,根本就无法玩转。然而现在看来,掌握了算力并不一定就掌握了一切。我们期待未来,期待更多的优化出现,这样更多的小公司和初创企业就能进入 AI 领域。差评君总觉得,那才是真正的 AI 浪潮。撰文:八戒,美编:焕妍。

    +

更多帖子推荐

您需要登录后才可以回帖 登录 | 立即注册

Archiver|手机版|小黑屋|关于我们

Copyright © 2001-2025, Tencent Cloud.    Powered by Discuz! X3.5    京ICP备20013102号-30

违法和不良信息举报电话:86-13718795856 举报邮箱:hwtx2020@163.com

GMT+8, 2025-4-7 13:41 , Processed in 0.075631 second(s), 17 queries .