奇米影视第4色你的位置:巨臀porn > 奇米影视第4色 > 探花 porn 又一颗芯片,挑战GPU
探花 porn 又一颗芯片,挑战GPU

发布日期:2024-10-05 06:49    点击次数:131

  

探花 porn 又一颗芯片,挑战GPU

(原标题:又一颗芯片探花 porn,挑战GPU)

淌若您但愿不错往往碰面,迎接标星储藏哦~

摘记

关于一个30亿参数的LLM,一个带有16个IBM AIU NorthPole处理器的究诘原型推理拓荒提供了渊博的28,356token/秒的系统婉曲量和低于1 ms /token(每用户)延长,而16个NorthPole卡在一个紧凑的2U外形上仅耗尽672 W。专注于低延长和高能效,当NorthPole (12 nm)与一套GPU (7 / 5 / 4 nm)在多样功耗下进行比较时,在最低的GPU延长下,NorthPole提供72.7个更好的能效磋商(token/s/ W),同期提供更好的延长。

先容

大型言语模子(LLMs)仍是在不同的AI任务中取得了显耀的性能基准,举例通过提供代码建议来协助编程,在标准化测试中发达出色,以及匡助著作,博客,图像和视频的内容创建。

在LLMs的大范围部署中,独特是在东说念主工智能的大范围部署中,出现了两个主要且相互冲破的挑战,即:动力耗尽和反应延长。

领先,由于LLM在测验和推理方面齐需要多半的动力资源,因此需要一个可抓续的翌日臆测基础设施来竣事其高效和普通的部署。跟着数据中心碳足迹的扩大,以及它们越来越受到动力限度,数据中心的动力恶果变得越来越紧迫。字据寰宇经济论坛的阐发:

“现在,数据中心环境碳足迹主要分红两部分:测验占20%,推理占80%。跟着东说念主工智能模子在不同界限的发展,对推理过火环境足迹的需求将会升级。”

其次,好多应用程序,如互动对话和自主责任流,需要相等低的延长。在给定臆测架构内,裁减延长不错通过裁减婉曲量来竣事,但这会导致能效下落。借用一句经典的系统格言进行改述:

“婉曲量问题不错通过资金处置,而延长问题则更为复杂,因为光速是固定的。”(改述自[10],将“带宽”替换为“婉曲量”。)

GPU不错通过使用较小的批量大小来竣事更低的延长,但代价是婉曲量和能效的下落。此外,GPU分片通过在多个GPU上使用数据并行性来减少延长,但雷同捐躯了能效。不管是否分片,GPU似乎齐遭逢了延长下限的硬性限度。GPU在能效与延长之间的衡量如图1所示。

图1:NorthPole(12 nm)在能量和系统延长磋商上联系于现时起程点进的GPU(7 / 5 / 4 nm)的性能,其中系统延长是每个用户所阅历的总延长。在最低的GPU延长(H100,点P2)时,NorthPole提供了72.7倍的更好能效磋商(tokens / second / W)。在最好的GPU能效磋商(L4,点P1)时,NorthPole则提供了46.9倍更低的延长。

因此,本文所磋商的一个要道究诘问题是如何同期竣事低延长与高能效这两个相互冲破的观点。

NorthPole是一个推理加快器芯片和软件生态系统,从第一性旨趣共同设想,为神经集中推理提供不凡的恶果。尽管NorthPole并不是特意为LLM设想的,但令东说念主讶异的是,本文解释了新式NorthPole架构不错竣事低延长、高能效的LLM推理(图1、图2和表1)。

表 I:性能测量终结

测量了NorthPole和GPU系统的性能,按每卡臆测。关于每个磋商,#走漏越低越好,而"走漏越高越好。关于NorthPole 16卡拓荒,功耗按每卡测量,总系统婉曲量按16张卡进行鉴别。NorthPole延长通过系数16张卡进行测量。P1、P2、P3、P4分别指代图1和图2中象征的点,走漏最高GPU能效磋商、最低举座GPU延长、最高GPU空间磋商和最油滑效GPU延长。

本文的主要究诘终结如下:

关于一个参数目为30亿的大型言语模子(LLM),其模子结构源自IBM Granite-8B-Code-Base模子,并与Llama 3 8B和Mistral 7B[14]保抓一致,本文展示了一种配备16个NorthPole处理器的究诘原型推理拓荒。

在全齐性能方面,该拓荒提供28,356 tokens/sec的系统婉曲量,单用户延长低于1毫秒,同期在2U机型下,16个NorthPole卡的功耗为672瓦。

在相对性能方面,将12纳米的NorthPole与一系列GPU(分别为7 / 5 / 5 / 4纳米的A100 / L4 / L40S / H100)在不同功耗下进行比较,不错从图2(a)和图2(c)中看出:在最低的GPU延长(点P2)时,NorthPole提供了72.7倍更好的能效磋商(tokens / second / W)和15.9倍更好的空间磋商(tokens / second / transistor),同期延长仍低于2.5倍;在最好GPU能效磋商(点P1)时,NorthPole提供了46.9倍更低的延长和2.1倍更好的空间磋商,同期仍提供2.2倍更好的能效磋商;在最好GPU空间磋商(点P3)时,NorthPole提供了20.3倍更低的延长和5.3倍更好的能效磋商,同期仍提供1.4倍更好的空间磋商。

独特是,当将12纳米的NorthPole与5纳米的L4 GPU进行可比功耗比较时,从图2(e)中不错看出,在最高的L4婉曲量(低于50毫秒每token,点P1)时,NorthPole提供了46.9倍更低的延长,同期婉曲量提高了1.3倍;而在最低的L4延长(点P4)时,NorthPole提供了36.0倍更高的婉曲量(tokens / second / card),同期延长仍低于5.1倍。

图2:(a)–(d)面板表露了12纳米的NorthPole在能效、空间和系统延长磋商上联系于现时起程点进的GPU(7 / 5 / 4纳米)的性能,其中系统延长是每个用户所阅历的总延长。

面板(a)与图1换取,加多了点P3的标注。面板(a)和(c)使用单个GPU,而面板(b)和(d)使用分片手艺,这可能裁减延长,但仅以捐躯能效和空间恶果为代价。在最低的GPU延长(H100,点P2)时,NorthPole提供了72.7倍更好的能效磋商(tokens / second / W)和15.9倍更好的空间磋商(tokens / second / transistor),同期延长仍低于2.5倍;在最好GPU能效磋商(L4,点P1)时,NorthPole提供了46.9倍更低的延长和2.1倍更好的空间磋商,同期仍提供2.2倍更好的能效磋商;在最好GPU空间磋商(A100,点P3)时,NorthPole提供了20.3倍更低的延长和5.3倍更好的能效磋商,同期仍提供1.4倍更好的空间磋商。

面板(e)表露了12纳米的NorthPole在婉曲量(tokens / second / card)和系统延长磋商上联系于5纳米的L4 GPU的性能。在最低的L4延长(点P4)时,NorthPole提供了36.0倍更高的婉曲量;在最高的L4婉曲量(低于50毫秒每token,点P1)时,NorthPole提供了46.9倍更低的延长。用于臆测每个能效磋商的GPU功耗见表I。由于莫得可用的仪器来测量不同批量大小的本色功耗,因此对系数批量大小使用换取的功率,这可能会低估能效磋商,但定性的终结仍然竖立。

NorthPole架构

如图3所示,NorthPole处理器领受12纳米工艺手艺制造,领有220亿个晶体管,面积为795平方毫米。其架构受到大脑的启发,经过针对硅的优化,源于十个互补的设想公理,涵盖臆测、存储、通讯和抑制,使NorthPole在标准AI推理任务中显耀卓绝其他架构,即使是与更先进工艺手艺制造的处理器比较也发达优异。

色酷影院

干系NorthPole架构的详备公理,请参见[11],[12]。简而言之,NorthPole将256个模块化中枢陈设在16×16的二维阵列中。每个中枢包含一个向量-矩阵乘法器(VMM),在INT8、INT4和INT2精度下,每个中枢每个周期分别实行2048、4096和8192次操作。中枢臆测还包括一个4路、32切片的FP16向量单元和一个32切片的激活函数单元。中枢阵列统统有192 MB的SRAM,每个中枢配备0.75 MB的SRAM。片上存储器与臆测单元和抑制逻辑精采耦合,中枢存储器与臆测之间的总带宽为13 TB/s。此外,每个中枢齐有4096根导线在水温情垂直地点交叉,用于通过四个专用片上集中(NoCs)传递参数、指示、激活值和部分和。为了看重停顿,片上帧缓冲区配备32 MB的SRAM,将输入和输出数据的片外通讯与中枢阵列的片上臆测解耦。

图3:NorthPole处理器:硅片(左),裸片(中),封装模块(右)。

拓荒

NorthPole仍是在一个PCIe Gen3 × 8卡中进行了原型设想,如图4所示,其中16个卡装置在一台现成的2U处事器中,构成了一个究诘原型推理拓荒,如图5所示。该处事器包含两颗Intel Xeon Gold 6438M处理器,每颗处理器具有32个中枢和60 MB缓存,主频为2.2 GHz。系统还配备了512 GB的4800 MHz DDR5内存。每个处事器处理器连气儿有两条PCIe Gen5 × 16总线,提供统统256 GB/s的PCIe带宽(双向)。这四条总线通过PCIe桥接器蔓延至系统的16个PCIe插槽,每个插槽上齐装置了一个NorthPole卡。这16个NorthPole卡最大使用可用的256 GB/s PCIe带宽的一半。

图4:NorthPole PCIe卡。

图5:究诘原型拓荒的理解视图,展示了16个NorthPole PCIe卡的装置。NorthPole卡不错通过标准的PCIe端点模子与主机进行通讯,或者通过每个卡上的附加硬件功能径直、愈加高效地相互通讯。

该系统运行Red Hat Enterprise 8.9,NorthPole使用内置的VFIO内核驱动,以便用户空间的软件八成经管硬件。系统使用IOMMU进行地址调理经管,并启用拓荒蹂躏和造谣化等安全功能,以便使用造谣机或容器手艺运行应用程序。

每个NorthPole卡通过驻留在每个卡上的DMA引擎给与和传输数据。这些DMA引擎独处责任,不错以多种方式同期给与和传输张量。第一种方法是标准的PCIe端点模子,主机程序通过DMA引擎从主机内存中读取输入,并在臆测完成后将张量写回主机内存。第二种方法应用每个卡上的附加硬件功能,使NorthPole卡不错通过PCIe径直相互通讯,而无需进行主机内存之间的传输或在运行时进行特地的软件经管。通过径直的NorthPole间通讯,不错使更大的模子逾越多个NorthPole芯片,同期减少通讯延长和由纯软件经管系管辖来的支出。

将LLMs映射到NorthPole拓荒

映射LLMs的政策,如图6所示,受到了三个要道不雅察的启发。领先,关于有余大的模子,通盘变换器层不错使用INT4花样的权重、激活值和KV缓存完全适配在单个NorthPole芯片的内存中(“w4a4”),而输出层则不错适配在两个芯片上。其次,淌若权重和KV缓存完全驻留在芯片上,运行时只需在层间传输微型镶嵌张量,这在PCIe Gen3 × 8的带宽范围内。第三,不错通过在现成处事器中装置16个NorthPole PCIe卡,松驰拼装原型NorthPole拓荒。

这示意了一种政策,将每个变换器层映射到各自的NorthPole卡上,领受GPipe作风的活水线并行性,并将输出层跨两个NorthPole卡拆分,使用张量并行性,通过PCIe Gen3 × 8将层之间的镶嵌张量发送。在推理历程中,一个用户苦求的小批量(举例N个苦求)被分红M个独特的微批量,并通过16个NorthPole卡进行活水线处理。

天然活水线并行性已在LLMs测验中得到应用(莫得延长限度),但在推理中的使用受限于减少每个活水线阶段的闲适时候或活水线气泡所需的大小批量。举例,有究诘发现,高效测验条目微批量数M简易是活水线阶段数的四倍。小批量大小N受到以下身分的限度:(a)系统所需的每个token延长,以及(b)用于存储通盘小批量的KV缓存的可用内存。低延长臆测和13 TB/s的片上内存带宽使NorthPole八成竣事极低的每个token延长,因此聘请N时的限度身分是用于在芯片上存储通盘KV缓存的内存。此外,咱们发现微批量数M就是活水线阶段数足以使活水线闲适时候可忽略不计。

在本文阐发的推行中,咱们聘请了N = 28的小批量大小,分为M = 14个独特的微批量,从而使每个NorthPole卡臆测的微批量大小为2。咱们在如斯小的批量大小下进行高效臆测的架构设想聘请是竣事图1和表I中所示恶果的要道。

LLM模子与测验方法

A

LLM模子

用于测试咱们系统的模子基于开源的IBM Granite-8B-Code-Base模子,这是一个具有80亿参数的变换器解码器,包含36个变换器层,避讳层大小为4096,FFN中间层大小为14,336,耀眼力头数为32,使用分组查询耀眼力(GQA)的键值头数为8,词汇表大小为49,152。为了适合带有16个NorthPole卡的单个处事器,咱们使用了该模子的30亿参数版块,包含14个变换器层和一个输出层,量化为w4a4精度,但其他结构保抓不变。

值得耀眼的是,这种模子成就在每层的基础上与Llama 3 8B[13]和Mistral 7B[14]相匹配,仅在层数、模子词汇表大小和使用的测验数据上有所不同。

B

完全精度准确性的测验

为了在量化后恢回话始模子的任务准确性,领受了以下程序来创建模子权重。领先,基于116种言语的1万亿个代码token,从新入手测验一个基线模子,使用全FP16精度,战胜[4]的配方。接下来,对基线模子的输出层权重和输入,以及SiLU激活进行了INT8量化,而系数其他权重、线性层输入和矩阵乘法输入则进行了INT4量化。临了,通过对来自测验数据的Python言语子集的进一步85亿个token进行量化感知测验,回话后量化准确性,学习率为8×10??,批量大小为128,领受LSQ算法。激活量化器的步长使用热启动进行测验,在测验的前250步中将学习率进步200倍,以匡助快速适合数据。

在GPU上运行的基准FP16模子和在NorthPole上运行的量化模子在HumanEvalSynthesize-Python上的精度为pass@10,纰缪在0.01以内(0.3001 GPU vs. 0.2922 NorthPole。与Granite-8B-Code-Base模子比较,举座测验被简化为专注于硬件性能表征,而不是激动任务准确性的界限。

运行时应用

在推理历程中,如图6所示,token由在主机CPU上运行的高度活水线化用户应用生成,该应用通过使用分词器和镶嵌层将文本预处理为输入张量,将输入张量放入拓荒中的第一个NorthPole卡,从拓荒的临了一个NorthPole卡给与终结输出张量,使用解码器和反分词器对输出张量进行后处理,并将生成的token轮回手眼下一个输入。用户应用还正经用户界面以及领导预填充等更高档的优化。

为了将神经集中责任负载卸载到NorthPole,用户应用调器用有简易API的用户空间运行时库,在开动化时成就NorthPole卡的层权重和KV缓存,并在运行时发送和给与输入与输出张量。权重和KV缓存成就后保留在片上内存中,运行时无需从片外流式传输。运行时库还经管片上帧缓冲区,以看重NorthPole中枢因衰败输入数据或输出数据给与方而停滞。中间张量在卡之间传递,无需主机纷扰,如第四节所述。

性能终结

NorthPole 16卡拓荒在30亿参数LLM上竣事了28,356token/秒的婉曲量。该LLM的序列长度成就为2048(1024个领导长度,生成1024个token),解码器领受贪图采样。

为了与GPU进行比较,咱们测量了两款针对低功耗推理的GPU(L4 和 L40S)及两款针对高婉曲量测验的GPU(A100 和 H100)的单卡性能。系数系统均运行换取的LLM模子和成就,NorthPole以w4a4精度运行,而GPU则以最好的w4a16精度运行,因为据咱们所知,莫得可用的w4a4 CUDA中枢。在咱们的GPU推行中,咱们应用了GPTQ量化模子,并使用vLLM(版块0.5.4)Marlin中枢进行基准测试,以便与NorthPole进行比较。使用GPTQ量化通过裁减权重精度,同期保抓可接受的准确性,为GPU提供了最好的模子推感性能。此外,Marlin中枢被用来优化矩阵运算,独特是在处理疏淡和密集矩阵乘法时。通过vLLM运行时的基准测试,使咱们八成评估婉曲量和延长,确保在给定硬件成就下的最好模子性能。在多个GPU卡的推行中,领受与可用卡数独特的张量并行性,以灵验获取通过NVLink的最小可能延长。咱们的推行标明,分片手艺天然减少了延长,但导致GPU每卡的婉曲量下落。值得耀眼的是,NorthPole的不凡性能主要源于其渊博的片上内存带宽,其次才是较低的精度。

表I表露了NorthPole和GPU系统在每卡基础上的测量性能终结。基本磋商包括婉曲量、延长、空间和能量磋商,界说如下。

关于输入领导的小批量生成的总token数为:

其中,MMM为微批量的数目,tok_seq_len为单个用户生成的输出token数。系统婉曲量是反应输入领导的生成token总额(tokens gen),除以处理领导所需的总时候,包括领导预填充时候(prompt time)和token生成时候(token gen time):

婉曲量以每卡为单元进行比较,方法是将系统婉曲量除以系统中处理卡的数目:

延长是对特定用户生成输出token之间的平均时候的度量,它是镶嵌token流经处理管说念所需时候的总和,以及在生成token总额上平摊的领导预填充时候:

雷同地,聚会式1、2、4:

其中小批大小=小批大小耀眼,这是每个用户看到的系统延长。

通过系统中的卡片数目进行范例化,咱们蔓延了[11]中界说的空间和能量磋商,以便八成比较具有不同卡片数目的系统。由此产生的空间和能量磋商是每张卡的婉曲量,分别由每张卡的处理器晶体管数目和每张卡的功率归一化:

淌若系统婉曲量与系统中活水线卡的数目成比例地蔓延,则卡的范例化将被对消,使空间和能量磋商与系统中卡的数目保抓不变。往往,由于通讯和同步支出,系统婉曲量在卡数目上呈次线性增长。

论断

咱们冷落以下孝敬:

咱们展示了一个多卡NorthPole拓荒的究诘原型。

咱们解释了像LLM这么的大型神经集中模子不错灵验地在多个NorthPole处理器之间拆分,蔓延了咱们之前的责任,后者表露单个NorthPole处理器在视觉推理任务(ResNet50、Yolo-v4)上的发达优于其他架构。

咱们解释了NorthPole私有的架构相等得当LLM推理,使其在低延长和高能效的双重观点上显耀卓绝边际和数据中心GPU。

由于NorthPole拓荒必须手脚一个举座使用,因此它对高婉曲量应用最为高效。

本初步论文为进一步究诘能效优化、在相应更大NorthPole拓荒上映射更大LLM、新的与NorthPole架构协同优化的LLM模子,以及翌日系统和芯片架构提供了一个跳板。

[1] T. B. Brown, B. Mann, N. Ryder, M. Subbiah, J. Kaplan, P. Dhariwal, A. Neelakantan, P. Shyam, G. Sastry, A. Askell, S. Agarwal, A. Herbert-Voss, G. Krueger, T. Henighan, R. Child, A. Ramesh, D. M. Ziegler, J. Wu, C. Winter, C. Hesse, M. Chen, E. Sigler, M. Litwin,S. Gray, B. Chess, J. Clark, C. Berner, S. McCandlish, A. Radford, I. Sutskever, and D. Amodei, “Language models are few-shot learners,” 2020. [Online]. Available: https://arxiv.org/abs/2005.14165

[2] J. Yang, H. Jin, R. Tang, X. Han, Q. Feng, H. Jiang, B. Yin, and X. Hu, “Harnessing the power of LLMs in practice: A survey on ChatGPT and beyond,” 2023. [Online]. Available: https://arxiv.org/abs/2304.13712

[3] M. Chen, J. Tworek, H. Jun, Q. Yuan, H. P. de Oliveira Pinto, J. Kaplan, H. Edwards, Y. Burda, N. Joseph, G. Brockman, A. Ray, R. Puri, G. Krueger, M. Petrov, H. Khlaaf, G. Sastry, P. Mishkin, B. Chan, S. Gray, N. Ryder, M. Pavlov, A. Power, L. Kaiser, M. Bavarian, C. Winter, P. Tillet, F. P. Such, D. Cummings, M. Plappert, F. Chantzis, E. Barnes, A. Herbert-Voss, W. H. Guss, A. Nichol, A. Paino, N. Tezak, J. Tang, I. Babuschkin, S. Balaji, S. Jain, W. Saunders, C. Hesse, A. N. Carr, J. Leike, J. Achiam, V. Misra, E. Morikawa, A. Radford, M. Knight, M. Brundage, M. Murati, K. Mayer, P. Welinder, B. McGrew, D. Amodei, S. McCandlish, I. Sutskever, and W. Zaremba, “Evaluating large language models trained on code,” 2021. [Online]. Available: https://arxiv.org/abs/2107.03374

[4] M. Mishra, M. Stallone, G. Zhang, Y. Shen, A. Prasad, A. M. Soria, M. Merler, P. Selvam, S. Surendran, S. Singh et al., “Granite code models: A family of open foundation models for code intelligence,” arXiv preprint arXiv:2405.04324, 2024.

[5] O. (2023), “GPT-4 technical report,” 2024. [Online]. Available: https://arxiv.org/abs/2303.08774

[6] D. McCandless, T. Evans, and P. Barton. (2024) The rise and rise of A.I. large language models (LLMs) & their associated bots like ChatGPT. [Online]. Available: https://informationisbeautiful.net/visualizations/therise-of-generative-ai-large-language-models-llms-like-chatgpt/

[7] B. Cottier, R. Rahman, L. Fattorini, N. Maslej, and D. Owen, “The rising costs of training frontier AI models,” arXiv preprint arXiv:2405.21015v1, 2024.

[8] S. Samsi, D. Zhao, J. McDonald, B. Li, A. Michaleas, M. Jones, W. Bergeron, J. Kepner, D. Tiwari, and V. Gadepally, “From words to watts: Benchmarking the energy costs of large language model inference,” 2023. [Online]. Available: https://arxiv.org/abs/2310.03003

[9] B. Ammanath, “How to manage AI’s energy demand — today, tomorrow and in the future,” 2024. [Online].

Available:https://www.weforum.org/agenda/2024/04/how-to-manageais-energy-demand-today-tomorrow-and-in-the-future/

[10] D. A. Patterson, “Latency lags bandwidth,” Commun. ACM, vol. 47, no. 10, p. 71–75, Oct 2004. [Online]. Available: https://doi.org/10.1145/1022594.1022596

[11] D. S. Modha, F. Akopyan, A. Andreopoulos, R. Appuswamy, J. V. Arthur, A. S. Cassidy, P. Datta, M. V. DeBole, S. K. Esser, C. O. Otero et al., “Neural inference at the frontier of energy, space, and time,” Science, vol. 382, no. 6668, pp. 329–335, 2023.

[12] A. S. Cassidy, J. V. Arthur, F. Akopyan, A. Andreopoulos, R. Appuswamy, P. Datta, M. V. Debole, S. K. Esser, C. O. Otero, J. Sawada et al., “11.4 IBM NorthPole: An Architecture for Neural Network Inference with a 12nm Chip,” in 2024 IEEE International Solid-State Circuits Conference (ISSCC), vol. 67. IEEE, 2024, pp. 214–215.

[13] AI@Meta, “Llama 3 model card,” 2024. [Online]. Available: https://github.com/meta-llama/llama3/blob/main/MODEL CARD.md

[14] A. Q. Jiang, A. Sablayrolles, A. Mensch, C. Bamford, D. S. Chaplot, D. de las Casas, F. Bressand, G. Lengyel, G. Lample, L. Saulnier, L. R. Lavaud, M.-A. Lachaux, P. Stock, T. L. Scao, T. Lavril, T. Wang, T. Lacroix, and W. E. Sayed, “Mistral 7B,” 2023. [Online]. Available: https://arxiv.org/abs/2310.06825

[15] Y. Huang, Y. Cheng, A. Bapna, O. Firat, M. X. Chen, D. Chen, H. Lee, J. Ngiam, Q. V. Le, Y. Wu, and Z. Chen, “GPipe: Efficient training of giant neural networks using pipeline parallelism,” 2019. [Online]. Available: https://arxiv.org/abs/1811.06965

[16] N. Shazeer, Y. Cheng, N. Parmar, D. Tran, A. Vaswani, P. Koanantakool, P. Hawkins, H. Lee, M. Hong, C. Young, R. Sepassi, and B. Hechtman, “Mesh-TensorFlow: Deep learning for supercomputers,” 2018. [Online]. Available: https://arxiv.org/abs/1811.02084

[17] M. Shoeybi, M. Patwary, R. Puri, P. LeGresley, J. Casper, and B. Catanzaro, “Megatron-LM: Training multi-billion parameter language models using model parallelism,” 2020. [Online]. Available: https://arxiv.org/abs/1909.08053

[18] S. K. Esser, J. L. McKinstry, D. Bablani, R. Appuswamy, and D. S. Modha, “Learned step size quantization,” in International Conference on Learning Representations, 2020.

[19] N. Muennighoff, Q. Liu, A. Zebaze, Q. Zheng, B. Hui, T. Y. Zhuo, S. Singh, X. Tang, L. Von Werra, and S. Longpre, “Octopack: Instruction tuning code large language models,” arXiv preprint arXiv:2308.07124, 2023.

[20] NVIDIA Corporation, “NVIDIA ADA GPU Architecture (V2.01),” 2023. [Online]. Available: https://images.nvidia.com/aemdam/Solutions/Data-Center/l4/nvidia-ada-gpu-architecture-whitepaperv2.1.pdf

[21] ——, “NVIDIA Ampere GA102 GPU Architecture (V2.1),” 2021. [Online]. Available: https://images.nvidia.com/aemdam/en-zz/Solutions/geforce/ampere/pdf/NVIDIA-ampere-GA102- GPU-Architecture-Whitepaper-V1.pdf

[22] ——, “NVIDIA H100 Tensor Core GPU Architecture (V1.04),” 2023. [Online]. Available: https://resources.nvidia.com/en-us-tensorcore/gtc22-whitepaper-hopper

半导体杰作公众号保举

专注半导体界限更多原创内容

暖热内行半导体产业动向与趋势

*免责声明:本文由作家原创。著作内容系作家个东说念主不雅点,半导体行业不雅察转载仅为了传达一种不同的不雅点,不代表半导体行业不雅察对该不雅点赞同或因循,淌若有任何异议,迎接研究半导体行业不雅察。

今天是《半导体行业不雅察》为您共享的第3905内容,迎接暖热。

『半导体第一垂直媒体』

及时 专科 原创 深度

公众号ID:icbank

心爱咱们的内容就点“在看”共享给小伙伴哦探花 porn



Powered by 巨臀porn @2013-2022 RSS地图 HTML地图

Copyright Powered by站群 © 2013-2024