发布日期:2024-12-28 07:19 点击次数:85
出品 | 虎嗅科技组顶级人体艺术
作家 | 丸皆山
裁剪 | 苗正卿
头图 | 视觉中国
著述选录
英伟达新芯片遇过热问题,量产或推迟。
• B300/GB300 芯片功耗高达 1400W,散热成挑战
• AOS DrMos 决策纯属,问题或源于系统假想不及
• 大模子转向推理,阛阓需求存变数
继 B200/GB200 芯片托付推迟后,英伟达或又靠近新品难产的问题。
12 月 24 日,据 Wccftech 报谈,英伟达最新旗舰芯片 B300/GB300 的参数仍是证据。其中 B300 的显存规格从上代家具的 192Gb 栽种至 288Gb;GB300 平台将初度使用 LPCAMM 内存模块假想,并配备带宽栽种至 1.6Tbps 的光模块,以确保数据高速传输。
在性能大幅栽种的同期,B300/GB300 的功耗也被拉到史无先例的高度,TDP(热假想功耗)达到 1400W。四肢对比,Hopper 架构的拳头家具 H100 芯片,其 TDP 为 350W。
这关于处事器的散热假想来说,无疑是个庞杂的挑战。
而就在上周,天风国外分析师郭明錤在研报中暗示,英伟达在为 B300/GB300 开拓测试 DrMos 手艺时,发现芯片存在严重的过热问题,这可能会影响 B300/GB300 的量产程度。
尽管黄仁勋此前曾屡次暗示,英伟达将来将严格效力"一年一换代"的原则,但旗下 GPU 在改用 Blackwell 架构后,不啻一次出现"跳票"的情况。
Blackwell 架构,真有问题?
在郭明錤发布的研报中,指出了 B300/GB300 咫尺边临的问题:由 AOS(Alpha & Omega Semiconductor)公司提供的 5*5 DrMos 决策在测试中过热。
先来说说 DrMos 是什么。
这是英特尔在 2004 年推出的手艺顶级人体艺术,主要旨趣是将驱动器和 MOS 集成在一谈,以减小多个元件的空间占用以及镌汰寄生参数带来的负面影响,从而栽种疗养效果和功率密度。
浮浅地来说,它就是一个高度集成的电源搞定决策。
阔绰级显卡 RTX3060 上的 DrMos,由 AOS 供应
在英伟达 Hooper 架构芯片上,包括 H100/A100/H800/A800 在内,其 DrMos 决策全部由 MPS(Monolithic Power Systems)供应,可能是基于"不把鸡蛋放在销毁个篮子"的原则,在 Blackwell 架构芯片上,英伟达运行测试 AOS 的决策。那是否能诠释,AOS 应该为 B300 芯片的过热问题"背锅"呢?
只怕并不行。
吉吉影音成人电影网开端,AOS 的 5*5 DrMos 芯片是一款散热能效高,且卓越纯属的决策假想,这在行业内仍是得到平凡考证。
其次,郭明錤的财报中也提到了,有产业链东谈主士指出,B300 的发烧问题除了 DrMos 芯片自己除外,还源于系统芯片经管的假想不及。
这仍是不是 Blackwell 第一次被曝出存在假想问题。
本年 8 月,据《The Information》报谈,B200 在台积电流片进程中,发现假想存在劣势。
最先业内觉得可能是台积电的 N4P 制程工艺存在问题,但在与高盛的投资东谈主疏浚会中,黄仁勋说出了问题地方:由于 GPU 芯片、LSI 桥、RDL 中介层和主板基板之间的热扩张特质不匹配,导致封装结构出现鬈曲。
" 100% 是英伟达的背负。"
在芯片假想被曝出劣势后,B200/GB200 芯片的托付时刻从本年 3 季度被推迟至 4 季度。何况从内容情况来看,现阶段仍莫得公司拿到 B200 芯片,从公开贵寓中得知,马斯克凭借 10.8 亿好意思元的订单,得回了 B200 芯片的优先托付权,这些芯片将被用于增强 .xAI 的超等预备集群 Colossus。
而即即是得回优先托付权 xAI,也得比及来岁 1 月份材干收到 B200 芯片。
回到 B300 芯片上,这是一枚原定在来岁 3 月 GTC 大会上发布的旗舰家具,当今却靠近"未发布先难产"的问题。
迷漫操纵 AI 处事器芯片的英伟达,为什么会在 Blackwell 上一再翻车。
一个很垂危的原因是,英伟达过于追求芯片性能上断代最初,从而导致 Blackwell 系列芯片四肢量产型家具,险些酿成一个实际性平台。
比如 CoWoS-L 封装手艺的期骗。
这里需要说一个配景是,Blackwell 是一枚基于 MCM(多芯片封装)假想的 GPU,即在销毁个芯片上集成两颗 GPU die。
为了和谐英伟达的需求,台积电方面初度将 CoWoS-L 手艺期骗在这枚芯片的封装上。而在此之前,CoWoS-L 封装也莫得经过大领域考证。
有业内东谈主士指出,CoWoS-L 封装现阶段的良率可能在 90% 驾御,四肢一项后段工艺,这个数字很不睬思。
需求是否过于乐不雅?
在 Blackwell 架构芯片推出后,知名华尔街投行 Keybanc Capital Markets 曾发出了一份展望:
" Blackwell 芯片将股东英伟达数据中心业务的收入,从 2024 财年(甩掉 2024 年 1 月)的 475 亿好意思元增长到 2025 年的 2000 多亿好意思元。"
无人不晓,在大模子的锻真金不怕火与部署中,英伟达的 GPU 居功至伟,但 BlackWell 架构芯片真实能凭一己之力带动事迹翻倍高潮吗?
即便忽略掉 B200/B300 的延期托付问题,仅从阛阓需求来看,可能并不是独特的乐不雅。
关于各大互联网公司来说,一个首当其冲的问题是,要是大领域引入基于 Blackwell 芯片的处事器,那么算力中心的修复老本将会被大大提高。
因为 B200 芯片高达 1000W 的 TDP 内容上已跳跃了传统风冷散热的极限,好多处事器厂商为了搞定散热问题,不得以堆砌 3D VC ( 真空腔均热板 ) 的数目和面积,由此导致在 42U 的设施处事器机柜中,可容纳的芯片越来越少。
而到了 B300 芯片上,风冷散热决策不论怎么修修补补皆无法压住 1400W 的功耗,必须全面改用液冷。
但关于仍是搭建好预备中心的厂商而言,改用液冷会导致其老本骤增。比如在传统处事器机房中在搭建时皆会对空调系统进行重点假想,一些大型预备中心的空调系统不错复古 0° 以下的送风。
要是改用液冷,则意味着在加入配套基础法子的同期,已往花大价钱打造的空调系统沦为闲置。
天下东谈主工智能大会上的液冷机房,图片来源:视觉中国
另外就是处事器自己的价钱问题。现阶段,一组基于 GB200 的 AI 处事器把柄带宽建树的互异,订价约在 200-300 万好意思元之间,而要是这些处事器全部基于 GB300 改用液冷决策,价钱致使可能会翻倍。还有一个很垂危的问题是,阛阓关于最先进 GPU 的需求是否热烈?
就在 12 月 14 日的 NeurIPS 大会上,OpenAI 辘集首创东谈主 Ilya Sutskever)暗示,大模子预锻真金不怕火行将竣事,因为 AI 的化石燃料"数据"仍是用尽了。
要是 Ilya 的判断莫得问题,一个不言而谕的鼎新将是大模子的征询重点将从锻真金不怕火转向推理,在这么的配景下,天然英伟达 Blackwell 系列芯片具备强盛的"训推一体"才略,但有若干厂商将来泄气执续性地高老本干预顶级人体艺术,还有待不雅察。