官方服务微信:dat818 购买与出租对接

AI硬件加速器公司盘点:探索全球科技行业热门领域的最新动态

2万

主题

2

回帖

8万

积分

管理员

积分
85352
发表于 2025-2-19 06:50:26 | 显示全部楼层 |阅读模式
    机器心脏汇编

    在上一篇文章中,普林斯顿大学Adi Fuchs的前Apple 和PhD专注于AI加速器的秘密基石:教学设置架构ISA,可重构处理器等。在本文中,我们将遵循作者的想法来审查相关的AI硬件公司并查看哪些公司在这一领域努力。

    这是本系列博客中的第四篇文章,该文章主要介绍与AI加速器相关的公司。全球科技行业中最热门的领域之一是AI硬件。本文回顾了AI硬件行业的当前状态,并概述了公司在寻找解决AI硬件加速问题的最佳方法时所做的不同赌注。

    对于许多AI硬件公司而言,近年来似乎是AI硬件开发的黄金时代。在过去的三年中,的股价飙升了约500%,超过了英特尔,成为世界上最高的资本芯片公司。其他初创公司似乎也很热,在过去的几年中,他们花费了数十亿美元来资助AI硬件初创公司,以挑战的AI领导力。

    AI硬件初创公司 - 截至2021年4月的总融资。资料来源:

    此外,还有一些有趣的获取故事。 2016年,英特尔以3.5亿美元的价格收购,并于2019年底收购了另一家名为该公司的AI初创公司,该公司取代了提供的解决方案。非常有趣的是,英特尔为收购支付了20亿美元,是收购的几倍。

    AI芯片字段,或更确切地说,AI加速器字段(到目前为止,它不仅是芯片)包含了无数的解决方案和方法,因此让我们回顾这些方法的主要原理。

    AI加速器的不同实现方法

    :GPU + CUDA

    如果您是可耕地的土地,您希望使用哪一个?两只坚固的母牛还是1024只鸡? (看起来粘土)

    成立于1993年,是最早研究加速计算的主要公司之一。 一直是GPU行业的先驱,后来为游戏机,工作站和笔记本电脑提供了各种GPU产品线,并已成为世界领导者。如先前文章所述,GPU使用数千个简单的核心。相比之下,CPU使用的核心更少。

    最初,GPU主要用于图形,但在2000年代中期,它们被广泛用于分子动力学,天气预测和物理模拟等科学应用中。新应用程序和软件框架(例如CUDA)的引入为将新字段移植到GPU的道路,因此GPU逐渐成为通用的GPU(-GPU),称为简称。

    挑战:使用GPU赢得错误和百分比。资料来源:

    从历史上看,人们可能会说很幸运,因为现代AI开始了CUDA流行和成熟。或者有人可能会争辩说,正是GPU和CUDA的成熟度和普及使研究人员能够轻松有效地开发AI应用程序。无论哪种方式,历史都是由获奖者撰写的 - 实际上,最有影响力的AI研究,例如在GPU上进行和评估,当AI 爆发时,处于最前沿的状态。

    SIMT执行模型。资料来源:

    GPU遵循单个指令多线程(SIMT)编程模型,其中相同的指令在不同的内核/线程上同时执行,每个指令根据其分配的线程ID执行数据部分。所有内核在框架同步(锁定步骤)中运行线程,从而大大简化了控制流。另一方面,Simt仍然是概念上的多线程C级编程模型,该模型已用于AI,但不是专门为AI设计的。由于神经网络应用程序和硬件处理都可以描述为计算图,因此拥有一个捕获图语义的编程框架更为自然和有效。

    从CPU转移到GPU体系结构是朝着正确方向迈出的重要一步,但这还不够。 GPU仍然是传统体系结构,使用与CPU相同的计算模型。 CPU受其体系结构的限制,并在科学应用等领域逐渐被GPU所取代。因此,通过专门为AI设计计算模型和硬件,我们希望能在AI应用程序市场中占有一席之地。

    的GPU,CPU和DPU路线图。资料来源:

    从两个角度开发AI:(i)引入核心; (ii)通过收购公司。例如,数十亿美元的收购和即将进行的ARM收购。

    它首次在数据中心CPU上合作,名为“ Grace”,该中心以美国后将和计算机编程Grace的先驱命名。作为一个高度专用的处理器,GRACE主要针对大型数据密集型HPC和AI应用程序。新一代自然语言处理模型的培训将具有超过1万亿个参数。基于宽限期的系统与GPU紧密集成,并比当前最新的DGX系统(在X86 CPU上运行)高10倍。

    GRACE得到HPC软件开发套件的支持,以及一套CUDA和CUDA-X库,以加速2000年GPU应用程序。

    成立于2016年。随着AI模型变得更加复杂,需要在训练期间使用更多的记忆,通信和计算能力。因此,设计了晶圆级发动机(WSE),这是一个比萨饼大小的芯片。

    。资料来源:IEEE

    在称为晶圆的硅晶片上制作典型的加工芯片。作为制造过程的一部分,晶片分为称为芯片的小块,这就是我们所说的处理器芯片。一个典型的晶圆可以容纳数百甚至数千个这样的芯片,每个芯片通常范围从约10平方毫米到830平方英毫米。 A100 GPU被认为是最大的芯片,尺寸为826平方毫米,可以包装542亿晶体管,为大约7,000个加工核心提供动力。

    WSE-2与A100规范比较。图片注意:

    超级计算机功能不仅可以在一个大型芯片上提供,而且通过与学术机构和美国国家实验室的合作,它们还提供软件堆栈和编译器工具链。它的软件框架基于Lair( - )和C ++扩展库,初级程序员可以用来编写内核(类似于CUDA),也可以用来从或其他框架中无缝降低高级代码。

    总而言之,非常规的方法吸引了许多行业内部人士。但是较大的芯片意味着核心和处理器由于缺陷而更有可能失败,因此如何控制制造缺陷,如何冷却近一百万个核心,如何同步它们,如何对其进行编程等。一个解决方案,但可以肯定的是,它吸引了许多人的注意。

    它是最早推出商业AI加速器的初创公司之一,即IPU(单位)。他们曾与微软,戴尔以及其他商业和学术机构合作。

    目前,已经开发了第二代IPU,其解决方案基于一个内部软件堆栈。您可以将基于或ONNX的模型转换为命令式,C ++  - 兼容代码,以支持公司的顶点编程()。像CUDA一样,还支持低级C ++编程以提高潜在性能。

   


    第二代IPU芯片图。图像源

    IPU由MIT于2000年代初期开发的瓷砖多核设计组成。该设计描述了重复的结构的2D网格,每个结合网络开关,局部存储器小和处理核心。第一代IPU具有1216个瓷砖,第二代IPU目前有1472个瓷砖。每个IPU核心最多可以执行6个线程,即包含其专有指令集体系结构(ISA)的代码流。

    IPU采用大规模的同构多形构建结构。它最基本的硬件处理单元是IPU核心,它是SMT多线程处理器,可以同时运行6个线程,比GPU的SIMD/SIMT体系结构更接近多线程CPU。 IPU瓷砖由IPU核和本地内存(256KB SRAM)组成,总共1216。连接IPU瓷砖的互连机制称为IPU-,它可以实现无封闭的全部通信,总计约为8TB带宽。最后,IPU-LinkS实现了多芯片互连,PCIE实现了与主机CPU的连接。

    可重建数据流

    波浪,是三个启动加速器芯片的初创公司。其中,Wave成立于2008年,其使命是“通过可扩展的实时AI解决方案从边缘到数据中心进行深入学习”,Dado和Pete Foley创立。它已经处于隐形模式了一段时间,从各种来源获得资金。

    Wave的核心产品是数据流处理器单元(DPU),它使用不是Von 架构的软件来动态重建处理器CGRA(谷物阵列/)技术,适用于大规模异步并行计算问题。在2019年左右,Wave将MIPS技术与Wave的技术相结合,以响应边缘计算市场中的计算功率需求来启动64 IP平台。但不幸的是,它在2020年申请了破产保护。

    基于时间的DPU核心映射。来源:波

    该公司成立于2017年下半年,从那时起,由英特尔(Intel)和美国能源部(Intel)的部署领导的三轮融资。他们现在可以为某些客户提供新产品。

    RDU框图。

    正在为数据中心构建芯片和软件堆栈,目的是将AI用于推理和培训。其体系结构的核心是可重建数据流单元(RDU,单元)。 RDU芯片包含一组计算单元(称为PCU)和一个以2D网格结构组织并连接到NOC开关的临时存储单元(称为PMU)。 RDU通过一组称为agus和cus的单元结构访问片外存储器。

    关键用例。来源:

    该软件堆栈(称为)采用高级应用程序(例如),并将其简化为可以在编译时可以编程芯片PCU,PMU,AGU和CU的表示形式。 RDU架构被证明可以运行复杂的NLP模型,推荐的模型和高分辨率的视觉模型。

    由威斯康星大学的一群学术研究人员于2017年创立。研究团队一直在探索重组架构,这些体系结构依赖于与冯·诺伊曼(Von )结合使用的异质数据路径(通过指令)和非von (IE数据流)。

    公司提供的数据是指在顶级学术会议和期刊上发表的原始研究论文。指导体系结构原理与正在完成的工作有些相似,即开发可重构体系结构以支持非常规的编程模型,该模型可以灵活地执行高度可变的AI应用程序空间。

    芯片。来源:

    该公司的第一个AI芯片用于推理,使用16纳米的过程,HBM2高带宽内存和设计中的PCIE大小。在2020年,发布了第一代加速器,该加速器基于芯片,该芯片由可配置的瓷砖阵列组成,这些图块依赖于控制,计算,数据收集等方面的专业知识。

    脉动阵列 + vliw:tpuv1,groq,

    TPU

    全球第一个专门针对AI量身定制的处理器之一是张量处理单元(TPU),也称为张量处理单元,是专门用于加速机器学习的特定于应用程序的集成电路(ASIC)。自2015年以来,一直在内部使用TPU,并在2018年将TPU用于第三方,使用其云基础架构的两部分和一些小型TPU待售。

    第一代TPU体系结构。来源:Arxiv

    第一代TPU是一个8位矩阵乘法引擎,它使用复杂的指令集,并通过PCIE 3.0总线由主机供电,PCIE 3.0总线是使用28 nm工艺制造的。 TPU指令将数据发送并接收到主机,执行矩阵乘法和卷积操作,并应用激活功能。

    第二代TPU于2017年5月发布。值得注意的是,第一代TPU只能执行整数操作,但是第二代TPU也可以执行浮点操作。这使得第二代TPU对于机器学习模型的培训和推断非常有用。 表示,这些第二代TPU将在计算引擎上可用,以用于应用程序。

    第三代TPU于2018年5月8日发布,宣布,第三代TPU的执行量将是第二代的两倍,并将部署在Pods中,其芯片数量是上一代的四倍。

    第四代TPU于2021年5月19日发布。宣布,第四代TPU将执行第三代性能的2.7倍,并将部署在豆荚中,筹码的数量是上一代的两倍。与部署的第三代TPU相比,每个POD的性能提高了5.4次(每个POD高达4,096芯片)。

    谷

    在其云产品中提供TPU,其目标是满足的AI需求并提供自己的内部工作量。因此,为特定需求定制了TPU。

    2016年,一组TPU 离开Goog​​le设计了一个具有相似基线特征的新处理器,可以在一个名为Groq的新创业公司中将其商业化。

    GROQ TSP执行框图。资料来源:Groq

    Groq的核心是张量流处理器(TSP)。 TSP体系结构与TPU有很多共同点:两种体系结构都严重依赖于脉动阵列来进行繁重的工作。与第一代TPU相比,TSP添加了向量单元和换位置换单元(也在第二代和第三代TPU上发现)。

   


    GROQ VLIW指令集和描述。资料来源:Groq

    它成立于2016年初,是一家专注于数据中心培训和推理的AI加速器公司。云AI训练芯片Gaudi和Cloud AI推理奇普·戈亚(Chip Goya)已启动。

    Goya处理器可商购,具有高度竞争性信封功率的超大吞吐量和超低的实时延迟,表明了出色的推理性能。 Gaudi处理器旨在实现系统的高效且灵活的水平和垂直缩放。目前正在向特定的超大客户提供样品。

    Goya,Gaudi体系结构图。图片注意:

    Goya和Gaudi芯片具有相似的架构,都依赖于Gemm引擎,Gemm引擎是一个脉动矩阵乘法单元,与一组瓷砖并肩作用。每个瓷砖都包含一个本地软件控制的临时内存和一个张量处理核心(TPC),具有不同精度的矢量计算单元,即它们可以计算8位,16位或32位矢量化操作。 TPC和GEMM发动机通过DMA和共享内存空间进行通信,并通过PCIE与主机处理器进行通信。

    总部位于RISC的AI加速器

    成立于2014年,一直处于隐身模式相当长的一段时间,直到2020年底,他们的第一个产品ET-SOC-1芯片在TSMC的7NM工艺上构建的SOC中,将超过1,000个RISC集成了1000多个RISC。 -v Core,1600m字节SRAM和超过240亿晶体管是该公司AI 系列中的第一个产品。 ET-SOC-1是一种推理加速器,预计今年将投入生产。

    ET-SOC-1架构图。来源: /

    它成立于2016年,总部位于加拿大多伦多,目前价值10亿加元,是一家计算公司,开发了旨在帮助更快和适应未来算法的处理器。提供的芯片系列不仅用于数据中心,而且适用于小型平台,而且还提供了它。

    :图形和张量切片的并行性。来源: /

    核。来源: /

    它是AI硬件领域最早的初创公司之一,成立于2012年。和Dave Fick是公司的核心创始人,他们分别担任董事长和CTO。该公司非常重视节能和较低的成本模拟技术,并提出了如何在模拟电路中使用较小的非数字电路电流来减少能源消耗。

    矩阵乘法操作中的重量和输入/输出数据差异。来源:

    在2020年底,其第一代AI芯片M1108 AMP启动了。与许多AI芯片不同,M1108基于更成熟的模拟计算技术而不是数字计算。这提高了M1108的能源效率,并使对网络边缘设备的访问更加容易。

    还引入了模拟计算引擎(ACE),该引擎使用闪存而不是DRAM来存储重量。本质上,他们没有从内存中获取输入和权重数据,而是将输入数据传输到权重闪存并将其转换为模拟域,在模拟域中执行Mac(-和 - )计算,然后将其转换回该输出以获得输出数据,从而避免了从内存中阅读和转移权重的成本。

    这是一家出生于麻省理工学院的初创公司,该公司押注用光子而不是电子设备执行操作的计算机芯片。这种芯片从根本上与传统的计算机芯片不同,预计将成为可以满足AI“饥饿”的强大竞争对手。首席执行官尼克·哈里斯(Nick )曾说:“要么我们发明的新计算机将继续下去,要么人工智能会放慢脚步。”

    光子学和电子计算特性。来源: /

    一种基于脉动阵列的方法旨在通过使用在光学信号波中编码为不同阶段的相移来操纵光子输入信号,以执行乘法和累积操作。由于光子数据以光速流动,因此芯片以非常高的速度执行矩阵和矢量化操作,并且可以通过数量级降低功率。

    它的第一个基于光子的AI芯片将于2021年发布,并将为刀片服务器提供16个这样的传统数据中心芯片。该公司已从GV(前),Spark和其他公司筹集了2200万美元。

    它声称,他们推出的芯片运行速度比最先进的A100 AI芯片快1.5到10倍,该芯片因任务而异。以运行伯特自然语言模型为例,它的速度比芯片的速度快五倍,并且仅消耗其功率六分之一。

    。来源:

    这是一家于2019年在以色列成立的初创公司,由Yossi Kasus共同创立。

    2021年2月,启动了NR1-P,这是一个以AI为中心的推理平台。在2021年11月,它宣布与IBM建立合作伙伴关系,其中包括许可IBM的低精油AI核心来构建NR1,这是一种非专业型生产级服务器,在AI应用程序中比FPGA原型更有效。

    NR1-P原型。来源:ZDNET

    原始链接: @adi.fu7/ai-part-iv-the-ever-the-the-the-the-the-i-part-iv--

更多帖子推荐

您需要登录后才可以回帖 登录 | 立即注册

Archiver|手机版|小黑屋|关于我们

Copyright © 2001-2025, Tencent Cloud.    Powered by Discuz! X3.5    京ICP备20013102号-30

违法和不良信息举报电话:86-13718795856 举报邮箱:hwtx2020@163.com

GMT+8, 2025-4-22 03:15 , Processed in 0.093349 second(s), 18 queries .