未来5-10年AI加速器解决方案的行业趋势与突破性模型预测

hwyzw · 发表于 2025-2-19 05:27:03

代码语言：

复制

<p style='margin-bottom:15px;color:#555555;font-size:15px;line-height:200%;text-indent:2em;'> <pre class="prism-token token line-numbers language-javascript"><code class="language-javascript" style="margin-left:0">来源：机器之心本文约2400字，建议阅读5分钟本文我们将聚焦 AI 加速器的解决方案及行业前景等内容。</code></pre></p>
谁有最好的AI加速器解决方案？

显然，这个问题非常复杂。在未来5 - 10年内，事情将很难预测。另外，如果您想知道整个行业的去向，请不要询问工程师。我们了解技术，但是从技术上讲好的产品可能无法大规模推出。

在过去的五年中，已经意识到了许多出色的想法，但它们只是AI加速器设计和学术论文中的想法的一小部分，而且仍然有很多东西可以渗透到该行业中。这些事情非常随机，在将来的某个时候，一项新的研究将提出一个“突破性模型”，以在现有情况或我们尚未发现的新领域中实现SOTA准确性。该模型可能是特定加速器的杀手级应用程序，一旦模型称为行业标准，这将使特定的加速器更具吸引力。

此外，详细信息决定了成功或失败。在线促销材料强调了每个体系结构的优势，但它们不是很有说服力。只有当愿景成为真实的产品时，这些缺点才能表现出来，而这些缺点源自许多不可预测的因素。我敢打赌，在接下来的2到3年中，我们将看到许多崩溃的想法和解决方案，但是到2024年至2025年，事情将放松，研究AI和商业AI将开始融合一些可行的解决方案和最佳实践，大约3-5个加速计算公司将领导。

一些建议

AI加速游戏已经全速运行。毫无疑问，由于其成熟的CUDA软件堆栈以及其在基准测试中的领先优势，目前具有上风同时，它还具有通过收购和其他公司来控制整个生态堆栈的能力。但是，也有很大的创新空间。初创企业的主要赌注是处于“创新者的困境”中。从长远来看，在维护原始功能和基础的同时调整现有解决方案与从头开始构建全新的解决方案之间存在差异。因此，尽管在几年内取得了良好的开端，但一旦其中一些初创公司赶上了，他们将与进行真正的竞争。

以下是一些在此曲目中的玩家和新进入者的技巧：

请注意基于扎实的研究和长期愿景建立良好的建筑基础，并在目标应用程序空间中尽可能多地考虑细节。

尽管这似乎太简单且乐观，但我不能说太多。基于我观察到的某些情况，即使大型，大型和才华横溢的团队，企业和初创企业也很难克服在早期阶段做出的次优建筑决策，即使在多代筹码之后。每个架构都有一些弱点。相对容易改善的弱点来自低估资源（例如没有足够的核心，寄存器太小等）。还有一些弱点是缺乏普遍性（千篇一律），这迫使供应商选择其中一种技术，有时是现实世界中约束的副产品。例如，A100依赖于高带宽存储（HBM），该存储具有较高的带宽，但与传统DRAM相比容量较低。但是，这不是一个弱点，而是一个有意识的设计决策，因为大多数AI应用程序比内存需要更多的带宽。因此，GPU享受适用于数十GB HBM空间的工作负载上的快速内存访问。但是，在培训大型模型时，为了有足够的内存空间来包含所有处理的数据，用户需要完成大量GPU之间的数据分布和通信。

在设计新体系结构时，不要低估软件堆栈和工具链开发的复杂性。

最难改善的弱点可能是在组建体系结构的基本阶段做出的错误选择。例如，Wave并采用类似的方法（用于编译器驱动的数据流执行用于可重构加速器）。其中，Wave已申请破产；根据提供的信息，所有领导层都已改变。但这似乎很好。很难解释造成这种差异的主要原因。但是一些数据表明，Wave的硬件很简单且抽象足够，可以在设计其DPU时支持广泛的应用程序，并认为实施良好的解决方案是软件问题。由于软件周期的发展速度比生产新芯片快得多，因此他们决定将大部分负担留给软件。

但是，他们发现，尽管某些汇编技术对于简单的内核非常有效，但在面对大型程序时，它们很难概括和遇到计算困难。这里学到的教训是，在早期阶段，必须由堆栈多层的人们仔细地定义架构。此外，从建筑的角度来看，它们的设计非常雄心勃勃：以非常高速（6.7GHz）的方式切换电路，结合缓慢而快速的存储空间（DDR和HMC）等。所有这些基本细节都需要由非常复杂的软件抽象和控制，以有效地协调数据流。人们有时会掩盖软件的复杂性。但是，当您设计具有更多计算密集型的系统时，即使是一些使硬件变得更简单或更通用的抽象假设也可能导致数月的乏味的软件开发。

可以说，浪潮发生的事情似乎是当您太先进的时候会发生的事情。他们的大多数建筑基础可能是在2015年左右奠定的，当时由编译器驱动的AI设计仍处于起步阶段。凭借有限的累积知识，波浪领导者可能会对软件开发解决新的未解决问题做出一些乐观的假设。

利用是国王

加速器的最大吸引力来自一个概念：并行性。平行性的利用是提高性能的第一英雄。剩下的就是细节，但就像我说的那样 - 细节很重要。您经常听到上衣，GOPS等。他们指的是在加速器中一秒钟内可以执行多少算术操作。但是，该领域的主要挑战是利用，即每秒可以实际进行多少次操作，因为它决定了用户真正看到的操作。回到大学时，我开了一个15岁的雷诺·克里奥（ Clio）。从理论上讲，它可以达到每小时150英里，并且不会消耗燃料，但前提是您将其从悬崖上丢弃。虽然最大吞吐量决定了使用芯片上所有算术单元时的计算速度，但这并不是典型的情况。通常，芯片忙于其他事物，例如不同的计算单元之间的同步，从芯片内存储器中获取数据或跨单元和芯片的数据通信。为了改善利用率，我们需要构建一个复杂的软件堆栈，以避免这些间接费用，以预测这些硬件事件对所有现实世界情景，所有不同的神经体系结构和所有张量形状的影响。这就是为什么许多AI“硬件”组织至少拥有与硬件工程师一样多的软件工程师的原因。

AI加速器领域的“保守主义”

您可能已经注意到，几乎所有概述的AI加速解决方案都始于数十年历史的学术思想：脉动阵列起源于1978年； VLIW架构起源于1983年；数据流编程的概念可以在1975年追溯到。早期的内存处理（-in-）出现在1970年代。这种“保守主义”背后的逻辑是：1）在如此激烈的竞争和迅速发展的环境中，大胆的新建筑概念太冒险了，人们更喜欢在其他环境中实施的成熟概念； 2）就像人工智能的复兴一样，硬件的复兴不能仅归因于算法和想法，因为近年来这些算法和思想尚未发现。实现这些想法的能力使我们的眼睛创新，包括：1）芯片材料科学和制造方法的进步，从而改善了通过数量级的硅芯片的性能； 2）积累的人类知识，这使人们可以更好地了解CAD工具，编程语言和编译器，以掌握极其复杂的硬件和软件堆栈。

原始链接：

@adi.fu7/ai-part-v-final-

未来5-10年AI加速器解决方案的行业趋势与突破性模型预测

浏览过的版块