官方服务微信:dat818 购买与出租对接

摩尔定律遇极限内存墙下,模拟计算或成人工智能创新关键

2万

主题

2

回帖

6万

积分

管理员

积分
66856
发表于 4 小时前 | 显示全部楼层 |阅读模式
    我们生活在一个以数字处理为主的世界,这个世界是模拟的。然而,摩尔定律开始走到极限,同时内存墙也存在。传统的数字处理器难以用足够低的功耗和足够的内存资源来提供必要的性能,尤其是对于在边缘运行的大型模型。现在人工智能和深度学习的应用在各个领域逐渐得到应用,对于更好性能、更大深度神经网络(DNN)模型容量以及更低功耗的需求变得愈发重要。在这种时代发展以及需求的背景之下,模拟计算开始走向历史舞台。模拟计算或许会成为人工智能创新的关键。

    什么是模拟计算?

    首先要知道,模拟计算并非新事物,它出现在电子电路之前。一提到计算,本能想到的相关概念与“数字”相关。如今,大多数计算机和计算功能是通过通用数字逻辑、专用算术逻辑单元 (ALU) 或专用计算引擎来实现的。然而在 20 世纪上半叶,在数字处理和计算机普及之前,都是依靠模拟计算机进行计算的。

    IC Tips 有报道称,古老的计算尺是一种模拟计算机。如下图所示,它能够用于乘法运算,能够用于除法运算,能够用于对数运算,能够用于求根运算,甚至能够用于复杂的微分方程等运算。模拟计算只能精确到两三个或四个重要数字。它曾是工程师、科学家等的有效工具。点火表、行星和卫星轨道、核武器和能源工作、潮汐表等都是用模拟计算机设置和解决的。1969 年阿姆斯特朗成功登月也有模拟计算机的参与。

    早期的计算尺:模拟计算机 (图源:国际计算尺博物馆)

    早期的模拟计算机包含很多机械装置,其中有旋转的轮子和齿轮。如下图所示,这台机械模拟计算机是用于预测潮汐的。它被称作“Old Brass ”,或者更正式的叫法是“2 号潮汐预测机”。从 1912 年起,它就为美国海岸和大地测量局计算潮汐表。

    用于预测潮汐的机械模拟计算机 (图源:NAOO)

    1940 年代时,电子模拟计算机开始获得广泛发展。这种计算机包含着数百或数千个真空管。据 IEEE 报道,电子模拟计算机的编程是通过接线板手动连接各个组件之间的连接来实现的。它们是复杂且古怪的机器,需要经过专门培训的人员才能够理解和运行它们。1965年左右,这种电子模拟计算机将机械模拟计算机淘汰。

    美国宇航局的阿波罗计划使用了电子模拟计算机。

    从上图的机械预测机以及电子模拟计算机里,我们能够看出,这些模拟计算机在设计、建造、操作以及维护方面都极为困难。到了 1960 年代,数字计算机开始迅速发展,原因在于它们能够直接进行编程,能够进行算法操作,并且易于存储,还具有高精度等诸多优点。自此之后,电子模拟计算机被数字计算机所取代。随着 MOS 晶体管的不断发展,世界计算的潮流完全转向了数字计算机。在计算领域,数字技术一直占据主导地位,并且这种情况一直持续到今天。然而,上述这些模拟计算机依然被珍藏在博物馆里,以供后人观摩,同时也让世人记住这些伟大的发明创新。

    清华大学电子工程系的乔飞副研究员,在低功耗集成电路设计领域有近 20 年的基础理论研究和关键芯片设计技术积累。乔飞在面向智能感知的新型高能效信号处理架构方面也有近 20 年的相关积累。同时,乔飞在集成智能感知电路系统领域同样有近 20 年的基础理论研究和关键芯片设计技术积累。笔者被告知,模拟计算机被数字计算机取代,主要有以下几点原因:其一,早期的模拟计算机在工艺和器件方面不太稳定;其二,模拟计算采用的是连续信号,容易受到噪声干扰;这两点导致了模拟计算存在精度不足的问题。另外,模拟计算有很大一部分是存储器,但却难以实现高效率的存储,这也是制约其技术演进的一个原因。

    模拟计算因应时代发展和本身优势,再登历史舞台

    现在摩尔定律逐渐接近极限,在由数十亿晶体管组成的芯片上,数字计算所导致的热量和功耗是很大的。进入后摩尔时代,仅仅依靠工艺的演进而获得的效率提升,已经逐渐无法满足系统的需求。在架构方面进行创新,已经成为一件必须要做的事情,尤其是针对特定领域的计算架构创新。因此,模拟计算开始再次被业界所研究。

    为何现在模拟计算被再次提起呢?乔飞认为,现在工艺逐渐稳定可靠,能够支撑一定精度模拟计算的实现。同时,一些算法、电路以及版图上降低外部干扰的技术也起到了作用。另外,尽管模拟计算不太擅长做存储,但通过在架构上进行革新并与数字存储融合,就可以实现存储能力的提升。更重要的一点在于应用需求的驱动。如今,像电池供电的小型化设备的边缘计算,对低功耗的数量有着越来越多的诉求,对低功耗的质量也有着越来越强烈的诉求。

   


    其实,模拟计算一直以来都比数字计算更有前景。计算机系统的模拟表示较为自然,因其能直接反映系统结构。在某些情形下,模拟计算机比数字计算机速度更快,因为它能同时求解多个方程,而数字计算机一次只能求解一个方程,只能给出同时性的结果。再者,模拟计算不需要转换器来进行数字模拟转换。许多实时系统的信号能够同时进行计算。

    现在的许多应用所需计算能力较少,而使用数字电路会消耗大量处理器资源。在一些特定领域,模拟计算在极低和极高频率下能发挥更优作用。在大约 10kHz 到  这样非常低的速度下,数字计算功能的性能可能远超所需,这会导致成本高昂且耗电;在数百 MHz 到数 GHz 的最高速度时,以数字方式进行此操作可能需要高速 A/D 转换器和高性能处理器内核,这些内核既价格昂贵又耗电,甚至可能根本无法使用。

    所以整体来看,模拟计算主要有两大优势。其一为速度方面,由于我们计算机的核心是模拟的,在当今许多应用中,数字计算机依赖各种传感器,有些传感器极为复杂,可能还涉及模拟计算,若有需要,可将模拟计算芯片直接与传感器和执行器接口,这样能消除数据移动。其二是功率效率方面,它具备高性能和低延迟的特点,适合在向量运算期间并行进行的数十万个乘加运算。

    模拟计算在工艺选择和成本方面具有优势。此前乔飞的实验表明,完成相同功能的计算时,用 180nm 的模拟工艺设计与 65nm 的数字设计效果相当。由于采用的是成熟的半导体工艺节点,所以它们通常成本更低,供应链可用性更广泛,并且还省去了外围组件的成本。

    那么,模拟计算主要适合哪些应用呢?

    乔飞强调到。

    美国 ARM 研究公司的机器学习研究负责人保罗说,模拟内存计算技术或许非常适宜超低功耗感知类任务,像在边缘计算应用程序里的关键字查找以及视觉唤醒词等。

    模拟计算的早期玩家显现

    在模拟计算领域的商业化进程中,国外一直致力于在该领域进行研究,Arm 与 IBM 合作研发了一颗模拟 AI 芯片;Rain 正开展模拟类脑芯片的研究工作;国内的每刻深思也在感知领域推动模拟计算的商业化落地。

    现在网络边缘计算需要各种类型的传感器,比如摄像头、激光雷达以及安全类传感器。这些传感器会产生大量的数据。要将如此庞大的数据模型放置在芯片中是很困难的。在人工智能计算领域,芯片通常需要处理大量的简单算术运算,每秒要进行数万亿次的加法和乘法运算。选择使用模拟 AI 处理器进行计算,并且把这些结果存储在闪存里。芯片中封装了大量的闪存,这样就消除了系统里诸如散热组件等多余的部件。他觉得,在芯片尺寸、成本以及功耗方面,这种方式比 GPU 或者其他处理相同计算的方式更有效果。

    模拟计算依据所介绍的原理,将内存计算发挥到极致,是在内存数组内部直接进行计算。它使用内存元素当作可调电阻,把输入当作电压提供,将输出当作电流收集。在核心神经网络矩阵操作时会使用模拟计算,也就是用一个输入向量去乘以一个权重矩阵。

    图源:

    2021 年 6 月推出了模拟 AI 处理器 M1076 AMP。它能在 3 瓦功率范围内,支持每秒高达 25 万亿次(TOPS)的 AI 计算操作。M1076 集成了 76 个 AMP 块,这些都在一个芯片内。它可存储多达 80M 的权重参数并执行矩阵乘法运算,无需任何外部存储器。M1076 可以提供桌面 GPU 的 AI 计算性能,并且它消耗的功率仅为原来的 1/10。

    今年 9 月 12 日,Arm 与 IBM 利用 14nm 工艺技术研发出了一种可编程的、面积最小的相变存储器(PCM)模拟内存计算(CiM)加速器,此加速器被称作 AON-CiM。

    荷兰公司在研发处理器时正模仿大脑处理感觉数据的机制。其处理器依托专有的模拟混合信号计算架构,借助脉冲神经网络的计算能力,能在狭窄的功率范围内提供突破性的认知性能。这些器件将前所未有的超低功耗与短响应延迟相结合,在传感器边缘的应用中实现了高性能的始终在线模式识别功能。该处理器的每瓦性能比传统的微处理器的每瓦性能高 10,000 倍。该处理器的每瓦性能比传统的数字加速器的每瓦性能高 10,000 倍。据其官往所述。

    美国初创公司 Rain 受大脑启发,正在开展模拟计算芯片的研究。该公司的模拟计算芯片运用了 ReRAM 忆阻元件阵列,并且将从 NAND 闪存工艺中借鉴而来的 3D 制造技术进行了结合。商业芯片会使用闪存等存储单元,以此来以极低的功耗进行神经网络的训练和推理。

   


    Rain 芯片的下层。通过垂直位线技术,在 CMOS 神经元的顶端构建了类似于轴突的列。这里用两种不同颜色的列分别表示输入和输出。

    国内方面,每刻深思成立于 2020 年底,它是模拟计算的早期玩家。乔飞副研究员在上文中被提及,他是每刻深思的创始人之一。每刻深思致力于把清华大学的集成电路智能感知实验室成果落实到实际中。

    提到模拟计算,要探讨它与现在较为热门的存算一体这种新型架构是否有关,以及二者之间的差别在哪里。对此,每刻深思 CEO 邹天琦向笔者表示,存算一体在卷积和神经网络中的功耗确实能够做到很低,然而它的外部依然需要 AD、DA 的接口,因此从整机和系统的角度进行考量的话,它所带来的颠覆性优势并不是特别显著。模拟计算能够省去外部的 AD、DA 接口。传感器在最前端输出信号后,在模拟域就能完成信号处理以及卷积神经的乘和加运算。从系统角度而言,模拟计算相较于纯数字计算或者存算一体加外设接口的方案,能使功耗下降程度更大,甚至能达到 1 个数量级的功耗下降。

    模拟计算的技术挑战

    模拟计算具有诸多优势,然而从理论方面来看,它仍面临着一些挑战。

    挑战一是,特别复杂的计算需要大量模拟块,这导致最后做出的芯片大且昂贵。解决方法是把这些复杂计算问题分割成更小的子问题,与数字计算相搭配,进行混合计算。

    一个挑战是,理论上模拟计算芯片能与传感器和执行器直接互联,但实现这种远距离的随意互联难度很大,所需的布线和连接规则存在尺寸和复杂方面的难题。现在 3D 堆叠是实现互联的良好方式,各大厂商都提出了自己的互联方式,并且成立了 UCIe 联盟来共同推进其发展。3D堆叠或许也能够解决模拟计算连接的问题。

    在提高精度方面存在难度的是模拟计算芯片。在数字电路中,通过添加位就能提高精度,然而模拟计算需要使用更大的芯片面积。这就是模拟计算适用于低精度应用的原因。

    在实际商业化领域,乔飞指出,模拟计算与 CPU 这类通用计算平台不同,它是针对特定领域的计算。它与算法和应用结合得极为紧密,因此首先要解决的是软硬件联合设计的问题。当底层架构变为模拟计算单元后,上层的算法需要如何去适配或优化。第二个挑战在于电路设计方面。在电路设计中,需要找到针对应用最为合适的模拟计算电路。因为模拟计算的电路实现方案有很多种,所以如何构建更加稳定鲁棒的实现、校准和纠错就成为了一个很重要的问题。

    邹天琦表示,就像半导体领域的其他新技术一样,模拟计算大概需要 3 到 5 年的时间才能大规模地实现商业化落地。实现模拟域的处理并非易事。因为模拟电路自身具有特性,在实际的工程化或量产过程中会出现一些问题。这些问题无法像数字处理那样,通过仿真和 FPGA 的验证来解决。只有通过流片和测试,不断进行迭代,才能够达到预期的效果,实现比数字电路低很多的信号处理算法的计算。

    结语

    我们处于一个半导体的时间节点,这个节点具有创新多变的特点。在这个节点上,各种新材料、新架构、新封装、新设计不断涌现出来。这些涌现出来的东西都是时代演进和技术发展的产物。在人工智能的下一代,模拟计算将会成为新的尝试,更恰当的说法是,模拟数字混合将会成为新的尝试。

    参考资料

    IEEE:NOT YOUR ’S  

    IC Tips:第一部分:是什么以及为什么

    本文来自微信公众号 ,作者:杜芹DQ,36氪经授权发布。
您需要登录后才可以回帖 登录 | 立即注册

Archiver|手机版|小黑屋|关于我们

Copyright © 2001-2025, Tencent Cloud.    Powered by Discuz! X3.5    京ICP备20013102号-30

违法和不良信息举报电话:86-13718795856 举报邮箱:hwtx2020@163.com

GMT+8, 2025-4-5 11:56 , Processed in 0.085246 second(s), 17 queries .