中国公司DeepSeek-V3开源大模型震撼硅谷，显卡地位或将不保

hwyzw · 发表于 2025-4-6 14:50:28

显卡或许没那么重要了？中国公司给硅谷上了重要的一课。新闻表明，中国公司在相关领域展现出了强大的实力，让硅谷也不得不重新审视和思考。这一事件引起了广泛的关注和讨论，也让人们看到了中国科技企业的崛起和影响力。



我万万没有想到，在西方沉浸于圣诞假期并且疯狂“过年”之际，我们中国企业给他们放了一个新年二踢脚，把他们的脑瓜子崩得嗡嗡响。之前有宇树科技的机器狗视频，让大家惊呼不需要波士顿动力了。紧接着又出现了一个国产大模型，甚至有一些做空英伟达的意味。具体是什么情况，我们给你讲清楚。前几天，最新版本 V3 刚刚公布。需注意，与大洋彼岸那个自称 Open 但却越来越 Close 的公司产品不一样，这个 V3 是开源的。开源并非他最重要的标签。-V3（以下简称 V3）兼具了诸多特点，其一性能处于国际一流水平；其二技术力极为强大；其三价格击穿地心。这一系列特点组合起来，让业内大模型厂商们都有些晕头转向。V3 一经发布，创始成员们直接兴奋起来，甚至发出了灵魂之问，难道大模型们真的压根就不需要大规模显卡集群？我觉得老黄看到这头皮可能会发麻吧。Meta 的 AI 技术官称其成果很伟大。知名 AI 评测博主 Tim 直接夸赞，说其处理很优雅。在这些技术人员看着 V3 的成绩送去赞扬时，也有一些人着急了。

奥特曼在那里说，复制是比较简单的啦，这很容易让人觉得他在有所暗示。更有意味的是，能够做到这些的公司既不是大型的工厂，也不是纯正的 AI 厂商。这家公司的中文名字叫深度求索，他们原本与 AI 没有任何关联。在大模型迅速走红之前，他们实际上是私募机构幻方量化的一个团队。深度求索能够实现弯道超车，其中既有一定的必然性，也似乎带有一些运气的成分。2019 年时，幻方就投入 2 亿元构建了自研的深度学习训练平台“萤火虫一号”。到了 2021 年，它已经拥有了足足 1 万丈英伟达 A100 显卡的算力储备。要明白，在这个时候大模型还没有火爆起来，万卡集群的概念更是尚未出现。幻方凭借这部分硬件储备拿到了 AI 大模型的入场券，最终卷出了现在的 V3 。一个好好的量化投资领域的大厂，跑来搞 AI 是为何呢？深度求索的 CEO 梁文锋在接受采访时给大家聊过，并非看中 AI 前景。他们认为，“通用人工智能或许是下一个极为困难的事情之一”。在他们看来，“这是一个关于如何去做的问题，而非为什么去做的问题”。正是凭借着这种“勇往直前”的劲头，他们深入求索才造就了此次的大新闻，接下来给大家详细讲讲 V3 有哪些特别之处。

首先是性能方面表现强悍。目前来看，当与 V3 相对比时，开源模型几乎没有一个能够与之抗衡的。还记得在去年年中，小扎的 Meta 推出了模型 Llama 3.1 ，当时它因为性能优秀并且是开源的，在短时间内被捧到了神坛的位置。然而，在 V3 的面前，它基本上是全面处于落败的状态。各种大厂手里的闭源模型，像大家熟知的 GPT-4o、3.5 之类的，V3 能够与之抗衡。看到这里，你或许会觉得没什么特别，只是达到了国际领先水平而已，值得这样大肆宣扬吗？更厉害的还在后面呢。大家都清楚，现在的大模型是一个依靠大量算力，让模型摄取各种数据的炼丹过程。在炼丹期，需要投入大量的算力和时间。因此，在圈子里出现了一个新的计量单位“GPU 时”，即使用了多少块 GPU 以及花费了多少小时的训练时间。GPU 时数值越高，就表明花费的时间和金钱成本越高；反之，就意味着花费的时间和金钱成本相对较低，也就是更物美价廉。此前开源模型的王者是 Llama 3.1 405B，它的训练周期花费了 3080 万 GPU 时。而性能更强的 V3，训练花费的 GPU 时不到 280 万。从花费的钱来换算，搞出 V3 版本大概只花了 4000 多万人民币。Llama 3.1 405B 在训练期间，Meta 仅在老黄处就购买了 16000 多个 GPU 。从保守估计来看，至少花费了十几亿人民币。

另外那几家闭源模型，动不动就投入几十亿甚至上百亿。你别以为它们是凭借什么不正当的手段，其实人家是实实在在有技术作为支撑的。为了弄清楚它们的技术到底怎么样，我们特意联系了语核科技的创始人兼 CTO 池光耀，他们主要致力于发展面向企业的 agent 数字人，早就成为了闭源模型的忠实粉丝。池光耀告知我们，此次 V3 的更新主要包含 3 个方面的优化。其一为通信和显存的优化；其二是推理专家的负载均衡；其三是 FP8 混合精度训练。对于各个部分的具体实现方式，我们就不再详细说明了。总体而言，其大的整体结构没有发生变化，更像是我们从事基建工作时的传统技艺，使工程变得更加高效、更加合理。V3 首先通过通信优化，极大幅度降低了资源空闲率。其次，V3 通过显存优化，提升了资源的利用效率。推理专家的负载均衡较为巧妙。一般的大模型每次启动时，需将所有具备推理能力的 AI 系统或算法（即专家）都按相同比例放入显存等工位。然而，在真正回答用户问题时，十几个专家里往往只用到一两个，其余的专家虽占据着显存等工位，却只能摸鱼，无法进行其他工作。将专家分为热门和冷门两类。对于热门专家，会复制一份放入显存，以处理热门问题；而冷门专家也不会无所事事，总是能够被分配到相应的问题。

FP8 混合精度训练在之前很多团队尝试无果的方向上迈出了新的一步。它通过降低训练精度来减少训练时的算力开销，然而却神奇地让回答质量基本保持不变。正是这些技术上的革新，使得大模型圈对其一致好评。通过持续的技术更新迭代，所收获的回报十分惊人。他们推出 V3 版本后，价格低至百万次几毛钱到几块钱。一开始提到同样开源的 3.5 ，每百万输入输出至少要几十块，甚至更多。更严重的是，这对他们来说已是常规做法。早在去年初，V2 模型发布后，就凭借低价被大家称作 AI 界的拼多多。他们进一步引发了国内大模型公司的价格战，智谱、字节、阿里、百度、腾讯等大厂都纷纷进行了降价。池光耀告知我们，他们公司在去年 6 月和 7 月的时候就开始使用了，并且在那个时候，国内还有一些其他的大模型厂商找过他们。但价格相近的，模型“很笨，与（它）不在同一层面”；若模型能力和（它）相近，那个价格“大多是 10 倍以上”。更甚者，因为技术“远远领先”而产生的降本增效，即便（它）卖得如此便宜，按照他们创始人梁文峰的说法，他们公司依然在盈利。

是不是有那种隔壁比亚迪推出 998 价格产品，却依然能让财报呈现盈利状态的感觉呢？不过对于我们这些普通用户而言，似乎这方面有点偏门了。因为他们的强项主要集中在推理、数学以及代码等方向，而在多模态和一些娱乐化的领域，并不是他们的优势所在。并且当下，尽管他们声称自己还是在盈利的，但他们团队整体都带有一种极客的气息，所以他们的商业化进程相较于其他厂商来说就显得有些薄弱了。但不管怎样，的成功证明了在 AI 这个赛道存在着更多的可能性。以往的理解是，若想玩转 AI，后面没有金主爸爸砸钱买显卡，根本就无法玩转。然而现在看来，掌握了算力并不一定就掌握了一切。我们期待未来，期待更多的优化出现，这样更多的小公司和初创企业就能进入 AI 领域。差评君总觉得，那才是真正的 AI 浪潮。撰文：八戒，美编：焕妍。

+