一分彩app下载 英伟达胆怯寰球的芯片

公众号铭刻加星标⭐️,第一时候看推送不会错过。
2026年2月14日,情东谈主节。黄仁勋、SK集团董事长崔泰源以及来自英伟达和SK海力士的约30名工程师在圣克拉拉一家名为99 Chicken的韩国炸鸡店享用炸鸡和啤酒。晚餐后,《韩国经济日报》的又名记者在店外拦住了黄仁勋,央求进行节略采访。他修起说:“有什么问题尽管问。”
以下是他说的话:
“下个月在GTC大会上,咱们将发布一些足以胆怯寰球的芯片。咱们还是准备了多款前所未见的芯片。”
“每项本领皆会际遇极限,莫得什么是决胜千里的。但有了像这么的团队(NVIDIA 和 SK 海力士的内存工程师联袂协调),就莫得什么是不成能的。”
有三件事让我印象深化。
“多款芯片”。并非只发布一款GPU,而是同期推出多款产物。
“每项本领皆在靠近极限。”这并非谦卑,而是对三大物理瓶颈的会诊:硅芯片尺寸削弱、电信号传输和内存带宽。
时机选在与SK海力士工程师共进晚餐之后。这激烈标明,存储器逻辑集成对于改日的发展至关首要。
GTC 2026 将于 3 月 16 日至 19 日在圣何塞举行。在本文中,我将凭证公开信息、学术论文和供应链数据,文书三种本领上最实在的气象以及一种恒久气象。
免责声明:本文内容为基于公开数据、学术论文和行业酬金的本领分析,并非投资提议。GTC 2026 的本色公告可能与本文分析有所不同,统统气象均基于作家的推测。产物规格、时候表和性能数据以制造商的官方公告为准。
最初,布景:东谈主工智能芯单方濒临的三重壅塞
第一起墙:内存带宽差距
特拉华大学接洽团队于2025年12月发表的一篇微基准测试论文泄露,B200的张量中枢在FP16/FP8下的糊涂量比H200高出1.57到1.59倍。在FP4下,推理糊涂量更是提高至2.5倍。筹画引擎自己也在逐代显耀提高速率。
问题出在内存上。从 H100(HBM3,约 3.35 TB/s)到 B200(HBM3e,约 8 TB/s),再到 R200(HBM4,约 20.5 TB/s),GPU 的筹画能力每代提高 3 到 5 倍,而内存带宽仅增长 2 到 3 倍。岂论 GPU 的速率有多快,如若无法实时提供豪阔的数据,它就会闲置。正如我在之前的几篇著述中究诘过的,这便是咱们所说的“内存墙”。
第二谈墙:互连电源
Jensen本东谈主在2025年GTC大会的主题演讲中也提到了这个数字。在一个假思的百万GPU集群中,仅可插拔收发器就会破钞数百兆瓦的功率。一个1.6Tbps的可插拔收发器约莫破钞30瓦,而DSP(数字信号处理)就占了其中一半以上。互连功耗正在蚕食筹画能力。
在每个通谈 200 Gbps 的传输速率下,即使 PCB 板上 14 到 16 英寸的走线距离也会酿成约莫 22 dB 的信号损耗。为了赔偿这种损耗,DSP 需要破钞特等的功耗。铜的物理为止正成为东谈主工智能数据中心推广的竟然瓶颈。
第三谈墙:LLM推理的结构性低效性
微软接洽院和华盛顿大学(Splitwise)在 2023 年发表的一篇论文中弘扬了一个基技艺实:LLM 推理分为两个阶段:预填充(快速处理,筹画密集型)妥协码(生成象征,内存带宽密集型),这两个阶段对硬件的要求判然不同。如若在归拢 GPU 上运行这两个阶段,则其中一个阶段会不休干豫另一个阶段。
Splitwise 的接洽标明,在疏通的功耗和本钱预算下,将两个阶段分开不错提高 2.35 倍的糊涂量。这一理念自后成为 NVIDIA Dynamo(GTC 2025)、vLLM、SGLang 和其他主要推理框架的默许设想,并最终发展成为专用硬件:Rubin CPX。
在本文中,我将以这三个为止条款为基础,预测Jensen在 GTC 2026 上所说的“将轰动寰球的芯片”是什么情理。
决策一:Rubin Ultra门路图成为推行
Rubin Ultra当今已列入NVIDIA 2027年下半年的产物门路图。它将四个GPU筹画芯片集成在一个封装内,配备16个HBM4E显存堆栈(1TB),在NVFP4模式下性能可达100 PFLOPS,功耗为3600W。GTC 2026可能会带来对于产物量产时候表和系统树立的具体更新信息。

本领中枢:
Rubin R200 是 NVIDIA 的首款芯片级 GPU。它领受 CoWoS-L 中介层,集成了两个台积电 N3P 筹画芯片和一个 I/O 芯片。Rubin Ultra 的树立则翻倍:四个光刻胶尺寸的筹画芯片、两个 I/O 芯片以及十六个 HBM4E 显存堆叠。
最大的挑战在于其雄壮的尺寸。据SemiAnalysis分析,这种封装很可能领受两个在基板层纠合的中介层,而不是一个进步八个光刻掩模的单个中介层。中间的I/O芯片负责基板层两部分之间的通讯。这意味着需要使用尺寸过大的ABF基板,超越了当今JEDEC封装程序划定的120mm × 120mm。
Rubin Ultra NVL576 机架(代号“Kyber”)由 144 个这么的封装构成,整个 576 个筹画芯片,可提供 15 ExaFLOPS 的 FP4 运算能力,并配备 2,304 个 HBM 内存堆栈。这相等于 GB300 NVL72 性能的 14 倍。
它为何可能在2026年GTC大会上亮相:
内存供适时候表是要津成分。在2026年国外消费电子展(CES)上,SK海力士发布了群众首款48GB 16层堆叠的HBM4实体内存。此前,36GB的12层堆叠HBM4内存已展现出11.7Gbps的传输速率,并于2025年下半年参加量产。三星也在为Rubin处理器进行HBM4测试。在JEDEC于2025年4月最终详情HBM4的官方程序(2048位接口,单堆栈最高2TB/s,最高16层堆叠)后,通盘行业的研发程度将显耀加速。
GTC 2026 可能会公布 Rubin Ultra 的具体出产日历以及 Kyber 机架的建筑细节。不外,我个东谈主以为,这可能还不及以成为 Jensen 之前预报的“胆怯寰球”的时刻。
决策二:全硅光子堆栈
在2025年GTC大会上,NVIDIA发布了两款基于硅光子本领的收集交换机:
Quantum-X (InfiniBand):预测2025年下半年发货。144个端口 × 800 Gbps = 115 Tb/s
Spectrum-X (以太网):预测2026年下半年发货。端口数目从128个到512个不等,最高传输速率可达400 Tb/s。
2026 年 3 月的 GTC 大会未必在 Quantum-X 认真商用部署之前举行。这不单是是一次阐述发货的契机,它还可能包括 Rubin Ultra 时期的 NVLink 光互连门路图。

本领中枢:
NVIDIA 的 CPO(共封装光学器件)中的要津器件是微环调制器(MRM)。它不错径直在硅光子芯片上处理每个波长 200 Gbps 的 PAM4 调制,其尺寸比传统的马赫-曾德尔调制器小得多。
这是领受台积电的 COUPE(紧凑型通用光子引擎)工艺制造的,该工艺将电子电路(CMOS)和光子电路(PIC)集成在 3D 堆叠中,彼此之间的距离仅为几微米。
Quantum-X 开关系统 (Q3450-LD) 的构成如下:
Quantum-X800 开关 ASIC 领受台积电 4N 工艺,一分彩1070 亿个晶体管
集成在开关专用集成电路 (ASIC) 中的可拆卸光学子组件 (OSA),共 18 个硅光子引擎。
144 个端口,每个端口速率为 800 Gbps,总带宽为 115 Tb/s
14.4 TFLOPS 收集内筹画(夏普第四代)
与可插拔确立比较,能效提高 3.5 倍,收集弹性提高 10 倍。
凭证 NVIDIA 的本领博客,这项本领是自 2016 年以来与台积电协调近十年,并领罕有百项专利复古的。
当今,NVLink 契约主要依靠铜缆传输。在单个机架(举例 Rubin Ultra NVL576)内纠合 144 个封装的做事器,铜缆是绝对可行的。但对于 NVIDIA 的下一代平台 Feynman(预测 2028 年发布),NVLink 需要进步多个机架进行传输。在这种距离下,铜缆的传输能力将濒临物理极限。
NVIDIA 已在 2025 年 GTC 大会上文牍了交换机级别的 CPO(光纤产物)。2026 年 GTC 大会可能会公布下一步盘算:NVLink 光纤架构的具体门路图,这意味着 GPU 之间的互连将从铜缆过渡到光纤。如若齐备,这将完善 AI 制造经由中统统互连层(而不单是是交换机)皆领受光纤的决策。
决策三:Rubin CPX 系统演示
Rubin CPX 是一款仅用于推理的 GPU,于 2025 年 9 月的 AI 峰会上发布。诚然它莫得取得太多媒体关心,但这款产物将软件中经过考证的理念(来自 Splitwise/DistServe 的预填充-解码领悟)应用到了专用芯片上。
CPX规格和设想理念:

为什么选定 GDDR7?在预填充阶段,瓶颈在于筹画能力,而非内存带宽。跟着序列长度的加多,筹画讹诈率不休攀升,而内存带宽讹诈率却会降至个位数。最终,你却要为险些用不到的腾贵 HBM 带宽买单。
CPX 正面科罚了这种奢华问题。用 GDDR7 替换 HBM 可将内存本钱抵制约五分之一。用 CoWoS-S 替换 CoWoS-L 可简化封装。正如 SemiAnalysis 所说,CPX 是“一种以最小本钱齐备最大浮点运算性能的设想”。
对于这些数字的证明:NVIDIA 官方公布的 30 PFLOPS 数据使用的是启用自妥当压缩的 NVFP4。SemiAnalysis 臆测其密集 FP4 筹画能力约为 20 PFLOPS,约莫是 R200 密集 FP4 筹画能力(约 33 PFLOPS)的 60%。比较之下,消费级 GPU(举例 RTX 5090)的筹画能力往往唯一数据中心级 GPU 的 20% 傍边。这是一个显耀的提高。
Vera Rubin NVL144 CPX 机架
单个机架内包含 72 个 R200 GPU 封装(144 个筹画芯片)+ 144 个 CPX GPU + 36 个 Vera CPU
单机架:8 ExaFLOPS NVFP4,1.7 PB/s 带宽
与 GB300 NVL72 比较,AI 推感性能提高 7.5 倍
英伟达官方声称:“每投资 1 亿好意思元,即可取得 50 亿好意思元的代币收入”。
2026 年 GTC 大会上可能会出现该机架荒谬在 CSP 客户部署中的现场演示。
更宏不雅的视角:推理问题无法仅靠一块通用GPU科罚
CPX 的出现自己就象征着一种策略滚动。NVIDIA 承认,单一的通用 GPU 无法处理统统推理责任负载。
NVIDIA 与 Groq 于 2025 年 12 月达成的契约(200 亿好意思元的授权 + 东谈主才收购)也合适相似的模式。Groq 的 LPU 是一种片上 SRAM 架构,有益用于解码(令牌生成)。它绝对不使用 HBM。编译器以绝对详情味的容貌转念数据流,从而齐备超低蔓延推理。正如 CPX 在预填充经由中移除 HBM 一样,Groq 在解码经由中也移除了 HBM。

当今还莫得集成产物。往复完成于今还不到三个月,而芯片级集成需要数年时候。但各个瓜代正在迟缓到位。R200负责试验和通用推理。CPX领有预填充功能。Groq的LPU领有解码功能。异构架构的详细正在缓缓明晰,其中每个推理阶段皆对应着单个机架内专用的芯片。
GTC 2026 是否会公布具体的 Groq 集成门路图,当今还不知所以。但 Jensen 曾示意他准备了“多款足以轰动寰球的芯片”,因此很难摈弃价值 200 亿好意思元的推理架构是其中的一部分。
决策 4(恒久):在 GPU 顶部堆叠内存——3D IC
这并非关乎最终产物,但大致才是Jensen与SK海力士工程师共进晚餐的竟然原因。(这部分熟谙个东谈主预见。)

面前线案:2.5D,比肩泄露
H100、B200 和 R200 皆领受 2.5D CoWoS 封装。GPU 芯片和 HBM 内存堆叠比肩位于硅中介层上。GPU 芯片位于中心,周围环绕着六到八个 HBM 内存堆叠。这种封装容貌存在三个问题:
封装尺寸。GPU和 HBM 位于归拢平面,因此封装尺寸较大。Rubin Ultra 封装的尺寸更大。
中介层本钱。封装本钱的很大一部分来自中介层自己。这便是为什么东谈主们常说“封装比芯片贵”。
物理距离。数据通过中间层从GPU传输到HBM需要几毫米。
改日发展标的:3D IC,垂直堆叠
SK海力士副总裁李康旭(封装开导负责东谈主)于2025年4月在电子信息工程师学会年会上发表了演讲:
“将DRAM芯片垂直堆叠在GPU上方可能会带来颠覆性的变革。这将显耀抵制数据传输蔓延,并提高带宽和能效。”
他将这种架构称为3D HBM,并示意SK海力士盘算从HBM5代(预测2028至2029年)初始引入该架构。KED Global报谈称,SK海力士正在与包括NVIDIA在内的无晶圆厂公司就“将HBM径直置于处理器之上的集成设想”进行洽谈。在此布景下,SK海力士积极招聘逻辑半导体设想师(CPU、GPU)就显得愈加合理了。
如若这项本领得以齐备,GPU芯片将成为基础芯片。HBM DRAM层径直堆叠在其上,中间层将被移除。GPU内存界限器到DRAM的距离将从几毫米镌汰到几十微米。讹诈台积电的SoIC-X搀杂键合本领,与当今的CoWoS比较,移动单个比特的能耗将抵制一到两个数目级。这不单是是性能的提高,它将透顶转变东谈主工智能系统的能耗口头。
为什么这件事还没发生
散热方面,GPU功耗高达400至700瓦,并产生雄壮的热量。当今,散热片径直安设在GPU顶部以散逸热量。如若将DRAM舍弃在GPU顶部,热量必须先经过DRAM。DRAM结温为止(85°C)远低于GPU热门温度(150°C以上)。后头供电、径直液冷和微通谈冷却皆是潜在的科罚决策,但当今尚无任何本领不错量产。
良率。统统组件在拼装完成后皆会进行测试。如若GPU良率为85%,八个HBM堆栈的良率为95%,则总良率为0.85 × 0.95^8 ≈ 56%。这意味着近一半的芯片是废品。已知良品芯片(KGD)测试有所匡助,但这仍然是3D集成电路濒临的一项根人性经济壅塞。
预测时候表
HBM4(2026):领受台积电N12/N5定制基板。仍为2.5D CoWoS。这是3D打印的“准备阶段”。
HBM4E(2026 年至 2027 年):可引入搀杂键合本领用于 20 层堆叠结构。仍为 2.5D。
HBM5(2028 年至 2029 年):SK 海力士门路图上的首个 3D HBM 尝试。与 NVIDIA 的 Feynman 时候表一致。
HBM6 及改日(2030 年及以后):GPU-DRAM 3D IC 走向主流。
2026 年 GTC 大会上可能出现的情况:与其说是发布制品,不如说是认真文牍英伟达与 SK 海力士调解开导 3D 芯片。詹森在 99 Chicken 的晚餐大致是发布前的协调会议。
(起头:编译自damnang2)
*免责声明:本文由作家原创。著述内容系作家个东谈主不雅点,半导体行业不雅察转载仅为了传达一种不同的不雅点,不代表半导体行业不雅察对该不雅点赞同或复古,如若有任何异议,接待磋磨半导体行业不雅察。
今天是《半导体行业不雅察》为您共享的第4327期内容,接待关心。
加星标⭐️第一时候看推送
求推选

备案号: