九游体育中国体育服务中心更好的硬件如何将零值酿成AI加速引擎：稀疏磋商让AI更轻量、更高效

在AI模子领域，鸿沟至关进军。

尽管部分AI大师教育称，抓续扩大大言语模子的鸿沟正在遇到性能收益递减的瓶颈，各大公司仍在不休推出体量更大的AI器具。Meta最新发布的Llama模子领有高达2万亿个参数。

跟着模子鸿沟的扩大，其才略也在增强，但随之而来的是更高的能耗需乞降更长的运行时刻，进而加重了碳排放问题。为了缓解这些问题，业界启动转向鸿沟较小、才略相对有限的模子，并尽可能取舍低精度数值来暗示模子参数。

然而，还有另一条旅途，有望在保留超大模子高性能的同期，裁汰运行时刻、降顽劣耗。这一设施的中枢，便是充分哄骗大型AI模子里面宽广存在的零值。

关于好多模子而言，大多数参数——包括权重和激活值——内容上皆是零，或者十分接近于零，竣工不错在不赔本精度的前提下将其视为零搞定。这种特点被称为稀疏性。稀疏性为从简磋商资源提供了浩瀚契机：与其阔绰时刻和能量对零进行加法或乘法运算，不如径直跳过这些磋商；与其在内存中存储宽广零值，不如只保存非零参数。

缺憾的是，面前主流硬件（如多核CPU和GPU）并不成自然充分哄骗稀疏性。要着实阐发稀疏性的上风，考虑东谈主员和工程师需要再行想考并重构统共这个词设计架构，涵盖硬件、底层固件和应用软件各个层面。

在斯坦福大学的考虑团队中，咱们招引出了（据咱们所知）首款大概高效搞定各种稀疏和传统职责负载的硬件芯片。在不同职责负载下，能耗从简幅度各异显贵，但平均而言，咱们的芯片能耗仅为CPU的七十分之一，磋商速率平均莳植至CPU的八倍。为终了这一主意，咱们从底层启动，对硬件、固件和软件进行了全面的针对稀疏性的工程设计。咱们但愿这只是硬件与模子协同发展的开始，最终终了更高能效的AI。

数组与稀疏暗示

神经集聚过火输入数据以数字数组的姿色暗示，这些数组不错是一维（向量）、二维（矩阵）或更高维度（张量）。稀疏向量、矩阵或张量中大多数元素为零。稀疏进度因情况而异，但当零值占比跨越50%时，就不错从挑升针对稀疏性的磋商设施中获益。与之相对的是"密集"对象——即零值数目相干于元素总额较少的情况。

稀疏性不错自然存在，也不错通过东谈主工方式引入。举例，外杂乱聚图自然便是稀疏的。设计一个图，其中每个节点代表一个东谈主，每条边代表一段友谊关系。由于大多数东谈主互相并不剖释，暗示统共可能勾通关系的矩阵中绝大多数元素皆是零。其他AI应用场景，如图学习和保举模子，一样存在自然的稀疏性。

世俗情况下，一个4×4的矩阵不管包含若干个零值，在内存中皆会占用16个存储空间。若矩阵是稀疏的，即宽广元素为零，则不错更高效地用"纤维树"结构暗示：当先是包含非零元素场地行坐标的"纤维"，勾通至包含非零元素列坐标的纤维，最终聚合到对应的非零值自己。在磋商机内存中存储纤维树时，每条纤维的端点（即"段"）会与坐标和数值一同保存。

除自然存在的稀疏性外，还不错通过多种方式在AI模子中主动引入稀疏性。两年前，Cerebras的考虑团队解说，不错将大言语模子中多达70%至80%的参数确立为零，而不赔本任何精度。Cerebras在Meta开源的Llama 7B模子上考据了这一论断，关系想路一样适用于ChatGPT、Claude等其他大言语模子。

稀疏磋商的上风

稀疏磋商的高效性源于两个基本特点：压缩零值的才略，以及零的颠倒数学性质。稀疏磋商算法和专用硬件皆充分哄骗了这两个中枢想路。

当先，稀疏数据不错被压缩，从而以"稀疏数据类型"的姿色更从简内存地进行存储。压缩还能在搞定宽广数据时斥责数据传输的能耗。以一个包含三个非零元素的4×4矩阵为例：传统方式会将其完好存储，占用16个内存空间；而压缩为稀疏数据类型后，凤凰彩票官网首页 - Welcome只需保留非零元素，仅占用3个存储空间，相较于原本的16个大幅从简。跟着稀疏进度和矩阵鸿沟的增大，这种从简效果将更加显贵。

除内容数据值外，压缩数据还需要存储元数据，即非零元素的行各位置信息。这世俗以"纤维树"的方式抒发：列出包含非零元素的行标签，并与对应的列标签贯串，进而聚合到存储在这些位置的数值。

在内存层面，情况更加复杂：每个非零值的行列标签，以及标志标签数目的"段"信息，皆需要一并存储，以便领路永别元数据和内容数据。

在密集、未压缩的矩阵数据类型中，不错一一或并行探问数值，且其位置可通过浅易公式径直磋商。但在稀疏压缩数据中，探问数值需要先查找行索引坐标，再"蜿蜒"查找列索引坐标，最终才气定位到主意值。由于稀疏数据的位置具有当场性，这些蜿蜒查找操作可能极为当场，导致磋商经过依赖于数据自己，并需要动态分派内存探问。

其次，零的两个数学特点使软件和硬件不错宽广跳过磋商：任何数乘以零等于零，因此无需内容实施乘法；任何数加零等于其自己，因此加法也不错径直跳过。

在矩阵-向量乘法这一AI最常见的运算中，除波及两个非零元素的磋商以外，其余磋商均可跳过。昔日述4×4矩阵与一个四元素向量的乘法为例：在密集磋商中，需要16次乘法和16次加法；而在稀疏磋商中，只需搞定向量中的非零元素，中国体育服务中心(官方网站)通过蜿蜒查找定位矩阵中对应的非零元素，仅对这部分进行乘加运算——在示例中，只需实施两次乘法，而非16次。

现存硬件的局限

缺憾的是，当代硬件并不擅长加速稀疏磋商。以矩阵-向量乘法为例，在单核CPU中，向量中的每个元素需一一相乘后写入内存，效劳低下。因此，内容使用中时常借助撑抓向量运算的CPU或GPU，将统共元素并行搞定，大幅莳植速率。但当矩阵和向量皆极为稀疏时，向量化CPU和GPU的大部分算力皆阔绰在了与零的乘法运算上，产生宽广无效磋商。

新一代GPU大概对一种特定类型的稀疏性——结构化稀疏性——进行一定进度的硬件加速。结构化稀疏性假定每四个相邻参数中有两个为零。然而，部分模子更恰当非结构化稀疏性——即允许狂放参数（权重或激活值）为零并被压缩，不管其位置如何。GPU不错通过软件方式（如cuSparse库）撑抓非结构化稀疏磋商，但这种撑抓时常十分有限，GPU硬件哄骗率偏低，宽广算力破钞在迥殊支出上。

在通过软件进行稀疏磋商时，当代CPU随机比GPU更具上风，因为CPU具备更好的活泼性。但CPU在稀疏磋商中常受限于蜿蜒查找操作带来的性能瓶颈。CPU世俗会证据预期需求对数据进行"预取"，但关于当场稀疏数据，这一机制时常失效，导致CPU不得不阔绰时钟周期恭候正确数据加载。

苹果公司率先通过在A14和M1芯片的预取器中撑抓"指针数组"探问模式，加速了蜿蜒查找速率。尽管预取期间的革命使苹果CPU在稀疏磋商方面更具竞争力，但CPU架构仍存在专用稀疏磋商架构所不具备的根人性支出，因为CPU需要兼顾通用磋商需求。

其他公司也在招引加速稀疏机器学习的硬件，包括Cerebras的晶圆级引擎（Wafer Scale Engine）和Meta的磨练与推理加速器（MTIA）。Cerebras的晶圆级引擎过火配套稀疏编程框架，在大言语模子上终明晰高达70%的稀疏度，效果不凡。但其硬件和软件决策仅撑抓权重稀疏性，不撑抓对好多应用至关进军的激活值稀疏性。MTIA第二版声称在稀疏磋商性能上较初版莳植七倍，但当今公开知道的稀疏性撑抓信息仅限于矩阵乘法，尚未遮掩向量或张量运算。

尽管矩阵乘法占据了大多数当代机器学习模子的主要磋商时刻，但为其他运算提供稀疏性撑抓一样至关进军。为幸免在稀疏与密集数据类型之间常常切换，统共操作皆应原生撑抓稀疏搞定。

Onyx：从底层撑抓稀疏磋商的硬件加速器

针对上述各样折中决策的不及，斯坦福大学团队研发了一款硬件加速器——Onyx，大概从底层充分哄骗稀疏性，不管是结构化还长短结构化稀疏性均可撑抓。Onyx是首款可编程加速器，同期撑抓稀疏和密集磋商，大概对两种模式下的要害操作进行加速。

CPU、粗粒度可重构阵列（CGRA）和现场可编程门阵列（FPGA）代表了效劳与活泼性之间的不同量度。CPU的每个逻辑单位针对特定功能高效设计；FPGA的每个比特均可配置，极具活泼性但效劳较低；CGRA则旨在兼顾FPGA的活泼性与CPU的效劳。

CGRA由针对特定应用领域优化的可配置内存和磋商单位组成，法子员不错在高眉目上对其里面进行再行配置，使其比FPGA更高效，同期比CPU更活泼。

Onyx基于CGRA架构构建，由活泼可编程的搞定单位（PE）模块和内存（MEM）模块组成。内存模块走漏存储压缩矩阵和其他数据样式，搞定单位模块则径直对压缩矩阵进走时算，摈斥统共无须要的无效磋商。

Onyx的编译器走漏将软件提示转移为CGRA配置。当先，输入抒发式（如稀疏向量乘法）被滚动为抽象内存节点和磋商节点组成的图；编译器将这些抽象节点映射到CGRA的内存模块和搞定单位上，并筹办数据传输旅途；最毕生成配置CGRA所需的提示集。

由于Onyx具备可编程性，工程师不错将向量-向量元素乘法、矩阵-向量乘法、矩阵-矩阵乘法等多种AI中枢运算映射到加速器上。

性能评估

咱们取舍"能量延长积"（EDP，即能耗与磋商时刻的乘积）来评估硬件的效劳莳植，该有磋商详细反馈了速率与能耗之间的量度关系。

Onyx的能量延长积最高可达使用专用稀疏库的CPU（12核Intel至强搞定器）的565倍。此外，Onyx还可配置为加速老例密集磋商应用，近似GPU或TPU的职责方式：当磋商为稀疏类型时，Onyx切换至稀疏磋商模式；当磋商为密集类型时，则切换至并行加速模式。这一架构为在合并芯片上同期加速稀疏与密集磋商迈出了进军一步。

一样值得调治的是，Onyx开启了算法层面的新想路。稀疏加速硬件不仅能莳植AI的性能效劳和动力效劳，还将激发考虑东谈主员和工程师探索具有迫害性后劲的新式算法。

畴昔瞻望

咱们的团队已在Onyx基础上入部下手招引下一代芯片。除矩阵乘法外，机器学习模子还波及非线性层、归一化、Softmax函数等多种运算。咱们正在为下一代加速器过火编译器添加对完好磋商类型的撑抓。由于稀疏机器学习模子可能同期包含稀疏层和密集层，咱们也在考虑如何更高效地将密集与稀疏加速架构集成于合并芯片，以终了不同数据类型之间的快速转移。此外，咱们还在探索通过更灵验地拆分稀疏数据来迫害内存收尾，从而在多个稀疏加速芯片上协同运行磋商任务。

与此同期，咱们正在研发大概预测稀疏加速器性能的系统，以赞助更优硬件的设计职责。从长期来看，咱们但愿不雅察高度稀疏性是否会在更多模子类型中获取普及，以及稀疏加速器是否会在更大鸿沟上获取应用。

为非结构化稀疏性构建硬件、充分哄骗零值的后劲，只是是个启动。有了这么的硬件，AI考虑东谈主员和工程师将有契机探索以全新、敷裕创意的方式哄骗稀疏性的模子与算法。咱们深信，这是交接AI不休增长的运行时刻、本钱和环境影响的要害考虑标的。

Q&A

Q1：什么是稀疏磋商？它对AI有什么意旨？

A：稀疏磋商是一种哄骗AI模子中宽广参数为零这一特点来跳过无效运算、压缩存储的磋商方式。由于模子中70%以上的参数可能为零或接近零，稀疏磋商不错径直跳过与零关系的乘法和加法，从而显贵降顽劣耗、加速运算速率，在不葬送模子精度的前提下莳植合座效劳。

Q2：现存的GPU和CPU为什么不成很好地撑抓稀疏磋商？

A：GPU主要撑抓一种叫作念"结构化稀疏性"的特定模式，对更活泼的非结构化稀疏性撑抓有限，导致宽广算力被阔绰在无效的零值运算上。CPU自然更活泼，但在稀疏磋商中常受限于当场内存探问导致的预取失败问题，一样存在效劳瓶颈。两者皆难题从底层针对稀疏磋商挑升设计的架构撑抓。

Q3：Onyx芯片比拟正常CPU能莳植若干性能？

A：Onyx在能量延长积（速率与能耗的详细有磋商）上，最高可达12核Intel至强CPU的565倍。平均而言九游体育中国体育服务中心，Onyx的能耗仅为CPU的七十分之一，磋商速率则平均莳植至CPU的八倍。Onyx同期撑抓稀疏和密集磋商，大概证据任务类型自动切换磋商模式，是当今已知首款兼顾两种磋商模式的可编程加速器。

HG真人游戏官方网站

九游体育中国体育服务中心 更好的硬件如何将零值酿成AI加速引擎：稀疏磋商让AI更轻量、更高效

九游体育中国体育服务中心更好的硬件如何将零值酿成AI加速引擎：稀疏磋商让AI更轻量、更高效