发布日期:2024-10-30 15:12 点击次数:164
(原标题:AI芯片定制期间,将驾临)
若是您但愿不错时常碰头,迎接标星保藏哦~
起首:内容编译自semiengineering,谢谢。
东说念主工智能模子的复杂性持续增多,收集数目和种类也呈爆炸式增长,使得芯片制造商在固定功能加速和可编程加速器之间盘桓,并创造了一些同期包含两者的新方法。
总的来说,通用的 AI 处理方法并不达标。通用处理器等于这么的。它们不是为任何特定责任负载而想象或优化的。而且由于 AI 破费了系统功耗的很大一部分,因此专注于特定用例或责任负载不错在更小的占用空间内达成更大的功耗检朴和更好的性能。
Rambus 商议员、隆起发明家 Steven Woo 示意:“在往时十年中,东说念主工智能对接洽和半导体行业产生了长远的影响——以至于现在也曾袭取了有益的处理器架构,况兼还开发和袭取了仅服务于东说念主工智能市集的专用组件。”
但这种专科化是有代价的。Arm 商议员兼机器学习本事副总裁 Ian Bratt 示意:“关于 ML 和 AI 来说,接洽需求是无特别的。若是你能作念 10 倍以上的接洽,东说念主们就会使用它,因为当你运行一个 10 倍大的模子时,你不错作念得更好。因为这种需求是无特别的,是以它会鞭策你针对该责任负载进行优化,况兼也曾构建了不同类型的 NPU,它们不错在特定类别的神经收集模子上达成特别好的动力效果,况兼你不错在这些空间中取得出色的每瓦操作数和性能。但是,这是以生动性为代价的,因为莫得东说念主知说念模子的发展方针。是以它放胆了面向畴昔的方面。”
因此,一些工程团队正在商议不同的优化方法。Bratt 说:“通用接洽平台(如 CPU 和 GPU)一直在为神经收集增多更多里面加速,同期又不放胆这些平台(如 CPU)的通用可编程性。”Arm 领有 CPU 教导路子图,况兼多年来一直在增多架构和 CPU 以提升 ML 性能。“天然这仍然在通用平台上,但你不错在那处取得许多东西。它不如专用的 NPU 好,但它是一个更生动、更面向畴昔的平台,”他说。
提升效果至关紧迫,它影响一切,从超大限制数据中心锻真金不怕火东说念主工智能模子所需的能量到进行推理的旯旮开导的电板寿命。
Ansys 居品营销总监 Marc Swinnen 示意:“若是你袭取经典的神经收集,其中有多层节点,信息从一个节点传递到另一个节点,那么锻真金不怕火和履行的践诺区别在于,在锻真金不怕火期间,你有反向传播。你获取数据集并在节点中运行它。然后接洽舛讹函数,即与你知说念需要达成的标记结果比较,谜底有多无理。然后你获取该舛讹并反向传播,并调治节点上以及节点之间畅达的系数权重以减少舛讹。然后你再次用更多数据扫描,然后再次反向传播舛讹。你来往反复,这等于锻真金不怕火。每次扫描你王人会鼎新权重,最终你但愿不竭到一组由节点、偏差以及不错提供可靠输出的权重和值构成的数万亿个权重和值。一朝你有了每个节点的权重和系数参数,况兼履行了践诺的 AI 算法,那么你就不需要进行反向传播了。你不需要再校阅它了。你只需输入数据并将其传递下去。这是一种更肤浅、单向的数据处理神气。”
反向传播需要大量能量来完成系数接洽。
“你必须对系数节点和所罕有据进行平均,以酿成舛讹函数,然后对其进行加权和除法等等。”Swinnen 解释说念。“反向传播需要进行所罕有学运算,而这在践诺履行(推理期间)中不会发生。这是最大的区别之一。推理中需要进行的数学运算少得多。”
但是,这仍然需要进行大量的处理,况兼跟着东说念主工智能算法变得越来越复杂,浮点运算的数目增多,趋势线只会指进取方和右侧。
西门子数字工业软件高档概括部门技俩总监 Russ Klein 示意:“往时五年来,收效的 ImageNet‘Top1’算法履行的浮点运算数目增多了 100 倍。” “天然,LLM 正在创下模子参数的新记载。跟着接洽负载的增多,在通用 CPU 上运行这些模子变得越来越不切践诺。AI 算法频繁具有高度数据并行性,这意味着操作不错漫衍在多个 CPU 上。这意味着只需将更多 CPU 应用于问题即可得志性能条件。但在 CPU 上履行这些接洽所需的能量可能特别高。GPU 和 TPU 频繁具有更高的功耗,但接洽速率更快,从而镌汰了调换操作的能耗。”
尽管如斯,对更多处理才智的需求仍在持续增长。新念念科技措置决策功绩部居品司理 Gordon Cooper指出,生成式 AI 推理的基准测试恳求数目急剧高潮,标明东说念主们的兴致日益浓厚。“咱们最近 50% 以上的基准测试恳求中至少有一个生成式 AI 模子在列表中,”他说。“更难评估的是,他们是否有特定的用例,或者他们是否在两面下注,并说‘这是趋势。我必须告诉东说念主们我有这个。’我觉得有必要宣称这种才智仍然率先于用例。”
与此同期,这些模子的变化速率也在持续加速。“咱们距离硬连线 AI(即 ASIC)还有很长的路要走,以至于‘这等于它。圭臬也曾细则。这些是基准,这将是最高效的’,”Cooper 说。“因此,可编程性仍然至关紧迫,因为你必须粗略为接下来出现的东西提供一定进程的可编程性,以确保你有一定的生动性。但是,若是你的可编程性太强,那么你就仅仅一个通用 CPU 以致 GPU,那么你就莫得行使旯旮开导的功率和面积效果。挑战在于若何尽可能地优化,同期又能为畴昔提供可编程性。这等于咱们和咱们的一些竞争敌手试图在迷漫生动的范围中盘桓的地点。一个例子是激活函数,举例 ReLU(整流线性单位)。咱们往时经常将它们硬连线,但现在咱们发现这很无理,因为咱们无法估量它们下次需要什么。是以现在咱们有一个可编程的查找表来支执畴昔的任何东说念主。咱们花了几代东说念主的时刻才贯通到咱们必须开动让它变得愈加生动。”
AI 处理持续发展
AI 的快速发展收货于接洽性能和容量的巨猛进取。“咱们现在处于 AI 2.0 期间,”Rambus 的 Woo 说说念。“AI 1.0 的真实特质是初次尝试将 AI 应用于通盘接洽范围。语音助手和保举引擎等开动受到关注,因为它们粗略使用 AI 提供更高质料的结果。但回来往时,它们在某些方面是有限的。系统不错使用某些类型的输入和输出,但它们并莫得真实生成今天粗略生成的高质料信息。咱们今天所处的位置是在 AI 1.0 的基础上构建的。AI 2.0 的特质是系统现在不错从它们学习到的数据和它们取得的输入中创造出新的东西。”
这些本事中最紧迫的是大型讲话模子和生成式东说念主工智能,以及匡助东说念主类提升出产力的副驾驶和数字助理。“这些系统的特质是多模态输入和输出,”Woo 解释说念。“它们不错接受许多输入,文本、视频、语音以致代码,况兼不错从中产生新的东西。事实上,它们也不错从中产生多种类型的媒体。系数这些王人是朝着通用东说念主工智能 (AGI) 的更大指标迈出的又一步,咱们看成一个行业,正在勤勉提供更像东说念主类的步履,这些步履缔造在东说念主工智能 1.0 和东说念主工智能 2.0 为咱们设定的基础之上。这里的见识是粗略真实适应咱们的环境,并为特定用户和特定用例定制结果。内容生成的神气将得到鼎新,特别是在视频等方面,以致在畴昔,使用 AGI 看成一种神气来邻接自主代理,举例既能学习又能适应的机器东说念主助手。”
在此经过中,东说念主工智能模子的限制一直在急剧增长——每年增长约 10 倍或更多。“今天,2024 年可用的最大模子也曾冲破了万亿参数大关,”他说。“这是因为更大的模子提供了更高的准确性,而咱们仍处于让模子达到特别高效的阶段的早期阶段。天然,这仍然是通往 AGI 的叩门砖。”
三四年前,在视觉转换器和 LLM 出现之前,SoC 对新 NPU 功能的条件递次频繁仅限于一小部分闻名且经过优化的检测器和图像分类器,举例 Resnet50、ImageNet v2 和传统 VGG16。Quadric 首席营销官 Steve Roddy 示意:“半导体公司频繁会评估这些收集的第三方 IP,但最终决定为这些基准收齐集的通用构建块图运算符构建我方的加速器。事实上,批量 SoC 中的绝大多数 AI 加速王人是自主研发的加速器。2024 年系数率先手机 SoC 的拆解将评释注解,系数六大量量迁移 SoC 王人使用里面 NPU。”
其中许多可能会被更生动的交易 NPU 想象所取代或补充。“新 NPU IP 的提案恳求频繁包括 20、30 个或更多收集,涵盖一系列经典 CNN,举例 Resnet、ResNext 等,新的复杂 CNN(即 ConvNext),视觉转换器(举例 SWIN 转换器和可变形转换器)以及 GenAI LLM/SLM,其中有太多的模子变体无法计数,”Roddy 说。“构建硬连线逻辑来加速由数百种不同的 AI 图形运算符变体构成的如斯多种千般的收集是不可行的。因此,SoC 架构师正在寻找更透顶可编程的措置决策,大多数里面团队王人在寻找外部第三方 IP 供应商,这些供应商不错提供快速编译新收集所需的更浩瀚的编译器用具集,而不是以前手动移植 ML 图的处事密集型方法。”
历史重演
东说念主工智能的这种演变雷同于接洽范围跟着时刻的推移所发生的演变。“起始,接洽机出现在数据中心,然后接洽开动向外扩散,”Cadence Neo NPU 居品营销总监 Jason Lawley 说。“咱们转向台式机,然后干与东说念主们的家庭,并向外推广。然后咱们有了札记本电脑,接着是手机。东说念主工智能亦然雷同。咱们不错望望在数据中心开动进行东说念主工智能所需的接洽强度。咱们现在在 NVIDIA 身上看到了这少许。
话虽如斯,大型机和数据中心恒久王人有一隅之地。咱们将看到东说念主工智能从数据中心向外扩散,咱们看到东说念主工智能从数据中心向旯旮扩散。当你迁移到旯旮时,你会得到千般不同类型的应用智商。Cadence 专注于视频、音频和雷达,以及围绕这些的其他接洽类,每个复古王人是应用处理器的加速器。在每个复古中,他们可能需要作念更多的东说念主工智能,因此东说念主工智能 NPU 成为加速器的加速器。”
客户步履也在持续发展。“越来越多的系统公司和最终用户领有我方的专有模子,或者使用专罕有据集重新锻真金不怕火的模子,”Roddy 说。“这些 OEM 和卑劣用户不行或不会将专有模子发布给硅片供应商,让硅片供应商的移植团队开发出新的模子。即使你不错在供应链坎坷游制定 NDA 保护措施,依赖于东说念主工调治和移植 ML 模子的责任模子也无法推广到足以支执通盘消费电子和工业电子生态系统。新的责任模子是一个透顶可编程的、基于编译器的用具链,不错交由创建最终应用智商的数据科学家或软件开发东说念主员使用,这恰是几十年来率先的 CPU、DSP 和 GPU 的用具链的部署神气。”
算法的复杂性持续增多,
给工程团队带来更多压力
跟着算法的复杂性持续增多,想象东说念主员被动追求更高水平的加速。西门子的 Klein 示意:“加速器越是针对特定模子进行量身定制,它的速率就越快、效果就越高,但通用性就越差。而且它对应用和需求变化的适应性也会镌汰。”
图 1:运行 AI 模子、CPU、GPU、TPU 和自界说加速器的不同履行平台的功率和性能关系
图 2:推理的复杂性持续增多
Rambus 的 Woo 还看到了向更大 AI 模子发展的趋势,因为它们不错提供更高质料、更浩瀚和更准确的结果。“这一趋势莫得放缓的迹象,咱们展望畴昔对更大 DRAM 容量和更大 DRAM 带宽的需求将链接大幅增多。咱们展望这种情况将执续下去。咱们王人知说念,AI 锻真金不怕火引擎是 AI 的展示部分,至少从硬件方面来看是这么。NVIDIA 和 AMD 等公司的接洽引擎,以及谷歌等公司出产的专用引擎(TPU),在行业接洽和提供更好 AI 的才智方面取得了巨猛进取。但这些引擎必须输入大量数据,而数据迁移是现时适度咱们锻真金不怕火模子速率的要津身分之一。若是这些高性能引擎在恭候数据,那么它们就莫得完成责任。咱们必须确保通盘管说念的想象粗略以粗略让这些引擎保执运行的神气提供数据。
若是咱们从左到右看,频繁的情况是存储了大量的数据,偶然是以特别非结构化的神气存储的,因此它们会存储在 SSD 或硬盘驱动器等开导上,这些系统的任务是提真金不怕火最研究、最紧迫的数据来锻真金不怕火咱们正在锻真金不怕火的模子,并将其转换为引擎不错使用的体式。这些存储系统也有许多惯例内存,用于缓冲区等。举个例子,其中一些存储系统的内存容量不错高达 1TB。一朝数据从存储中提真金不怕火出来,它就会被发送到一组服务器进行数据准备。有些东说念主称之为读取层。这里的见识是获取这些非结构化数据,然后对其进行准备,以便以 AI 引擎不错最好锻真金不怕火的神气使用它。”
同期,替代数字示意不错进一步改善 PPA。“浮点数频繁用于 Python ML 框架中的 AI 锻真金不怕火和推理,但关于这些接洽来说,浮点数并不是盼愿的方法”,Klein 解释说念。“AI 接洽中的数字主要在 -1.0 到 1.0 之间。数据频繁会被圭臬化到这个范围。天然 32 位浮点数的范围不错从 -10 38到 10 38,但这会在数字和对这些数字履行接洽的运算符中留住大量未使用的空间。运算符的硬件和存储值的内存会占用硅单方面积并破费电量。”
Google 创建了一种名为 brain float (bfloat) 的 16 位浮点数方法,该方法针对 AI 接洽。由于模子参数和中间结果的存储区域减少了一半,PPA 得到了很大的改善。矢量化 (SIMD) bfloat 教导现在是 RISC-V 处理器的可选教导集推广。一些算法使用整数或定点示意来部署。从 32 位浮点数迁移到 8 位整数需要四分之一的内存区域。数据在想象中的迁移速率提升了四倍,乘法器松开了 97%。较小的乘法器允许在调换的硅单方面积和功率预算中使用更多的运算符,从而达成更高的并行性。“Posits”是另一种在 AI 算法上运行精湛的奇特示意。
“通用 AI 加速器(举例 NVIDIA 和 Google 出产的加速器)必须支执 32 位浮点数,因为某些 AI 算法需要它们,”Klein 说说念。“此外,它们还不错增多对千般大小的整数的支执,可能还有脑浮点数或假定。但支执每种新的数值示意王人需要该示意的运算符,这意味着需要更多的硅单方面积和功率,从而毁伤 PPA。除了 32 位浮点数外,一些 Google TPU 还支执 8 位和 16 位整数方法。但若是应用智商的最好大小为 11 位特征和 7 位权重,则不太合乎。需要使用 16 位整数运算符。但具有 11 x 7 整数乘法器的定制加速器将使用粗疏 3.5 倍的面积和能量。关于某些应用智商来说,这将是洽商定制加速器的有劲意义。”
系数说念路王人通向定制,芯片想象师需要了解许多研究定制 AI 引擎的提防事项。
“当你取得高度定制或定制进程不一的居品的授权时,你得到的东西就会有所不同,” Expedera营销副总裁 Paul Karazuba 说说念。“它不是圭臬居品。因此,你需要少许时刻来学习。你得到的是极品居品,而这些居品中会有一些你看成芯片想象师独到的钩子。这意味着,看成又名芯片想象师和架构师,你需要学习弧线,以准确了解这些居品在你的系统中将若何理解作用。这么作念有其上风。若是圭臬 IP(如 PCIe 或 USB)中包含你不想要或不需要的内容,那么其中的钩子可能与你看成芯片想象师所遴荐的架构不兼容。”
这践诺上是想象中的裕度,它会影响性能和功耗。“当你取得定制的 AI 引擎时,你不错确保那些你不心爱的钩子不存在,”Karazuba 说。“你不错确保 IP 在你的系统中理解精湛作用。是以,这么作念笃信有自制。但也有流弊。你无法取得圭臬 IP 所具有的限制。但关于高度定制的东西,你就会领有它。你会得到一些定制的东西,这对你的系统有一些自制,但你需要处理更长的交货时刻。你可能要处理一些额外的东西。会有一些复杂之处。”
但是,这些自制不错特出学习弧线。在一个早期的客户示例中,Karazuba 回忆说念:“他们开发了我方的里面 AI 收集,旨在镌汰 4k 视频流中的杂音。他们想要达成 4k 视频速率。这是他们里面开发的收集。他们花了数百万好意思元来构建它。他们最初筹算使用其应用处理器上现存的 NPU,正如您所估量的那样,这是一个通用 NPU。他们将算法放在该 NPU 上,取得了每秒两帧的帧率,这明显不是视频速率。他们找到咱们,咱们向他们授权了咱们 IP 的针对性定制版块。他们为他们打造了一款包含咱们 IP 的芯片,运行透顶调换的收集,取得了每秒 40 帧的帧率,因此通过构建一个专注的引擎,性能提升了 20 倍。另一个自制是,由于它是专注的,因此他们粗略以应用处理器上 NPU 所破费功率的一半来运行它。因此,以不到一半的功率达成了 20 倍的隐晦量。
平正地说,它与应用处理器袭取调换的工艺节点,因此这确乎是同类比较。这些是您从此类事情中看到的自制。现在,明显存在资本方面的问题。构建我方的芯片比使用您也曾购买的芯片上已有的东西要腾贵得多。但是,若是您不错行使这种东说念主工智能来分手您的居品,况兼不错取得这种级别的性能,那么额外的资本可能就不是破损了。”
论断
就畴昔的发展方针而言,Arm 的 Bratt 示意,AI/ML 也曾迷漫多了。“咱们将看到,在东说念主们真实良善动力效果且责任负载较慢的情况下,举例深度镶嵌式环境,您会看到这些专用的 NPU 具有针对这些 NPU 的高度优化模子,您将取得出色的性能。但总的来说,像 CPU 这么的可编程平台将链接上前发展。它们将在 ML 方面持续进取,况兼它们将运行那些全新的责任负载。也许您无法将它们映射到现存的 NPU,因为它们有新的运算符或新的数据类型。
但跟着情况踏实下来,关于某些垂直行业,您将袭取在可编程平台上运行的那些模子,并针对 NPU 对其进行优化,您将在镶嵌式垂直范围(如监控录像头或其他应用智商)中取得最好性能。这两种模式将在畴昔相当长的一段时刻内共存。”
Cadence 的 Lawley 示意,芯片架构师和想象工程师需要了解 AI 处理带来的变化,归结为三件事:存储、迁移和接洽数据。
“从压根上说,这三件事自摩尔定律开动以来就莫得改革过,但他们必须贯通到的最紧迫的事情是低功耗和最好数据使用的趋势,以及量化方面的进取——将内存固定到系统中并有用重迭使用的才智。那么在数据迁移、数据存储和数据接洽中,应该使用哪种层和会?软件在这方面理解的作用与硬件雷同紧迫,因此算法粗略不无理地接洽不需要接洽的东西,并迁移不需要迁移的东西——这是咱们关注的重心。咱们若何以最小的能量取得最大的性能?这是一个很难措置的问题。”
https://semiengineering.com/mass-customization-for-ai-inference/
半导体极品公众号保举
专注半导体范围更多原创内容
关注环球半导体产业动向与趋势
*免责声明:本文由作家原创。著述内容系作家个东说念主不雅点,半导体行业不雅察转载仅为了传达一种不同的不雅点,不代表半导体行业不雅察对该不雅点赞同或支执,若是有任何异议,迎接研究半导体行业不雅察。
今天是《半导体行业不雅察》为您共享的第3919内容,迎接关注。
『半导体第一垂直媒体』
及时 专科 原创 深度
公众号ID:icbank
心爱咱们的内容就点“在看”共享给小伙伴哦