版权声明
来源:XG云数智(uxuepai5g),书享界(readsharecn)
作者:黄仁勋,NVIDIA公司创始人兼首席执行官
北京时间3月19日凌晨,英伟达创始人兼CEO黄仁勋发表GTC2025主题演讲。黄仁勋宣布了一系列重磅发布,展示了英伟达在加速计算和AI领域的最新进展和未来布局。
黄仁勋指出,AI处于一个关键的转折点,推理和agentic AI的需求推动了计算量的激增。他还预测到2030年,数据中心的建设规模将达到一万亿美元;未来有工厂的企业将会有两个工厂:一个用于生产实际产品,另一个是AI工厂。
大会现场,黄仁勋宣布Blackwell平台已全面投产,在特定推理模型测试场景下,Blackwell的性能最高可达Hopper的40倍。今年下半年将推出的BlackwellUltra,还透露了下一代NVIDIARubinUltraGPU和NVIDIAVeraCPU架构的细节。
此外,宣布推出“AI工厂的操作系统”NVIDIA Dynamo,用于加速和扩展AI工厂中的推理模型;为支持AI工厂扩展到数百万个GPU,还推出了首个采用共同封装光学(CPO)技术的硅光子系统等。
黄仁勋还宣布通用汽车将采用NVIDIAAI、模拟和加速计算技术来开发下一代汽车、工厂和机器人。在机器人方面,英伟达还发布了Omniverse(物理AI的操作系统)、新一代世界基础模型Cosmos、Newton(与DeepMind和DisneyResearch合作开发的物理引擎)以及人形机器人的通用基础模型IsaacGrootN1并开源。
以下为演讲全文:
欢迎来到GTC。真是了不起的一年。
我们想在英伟达(NVIDIA)来做这件事,所以,通过人工智能的奇妙魔力,我们要把你带到英伟达总部。我想我正在把你带到英伟达总部。你觉得呢?这就是我们工作的地方。过去这一年太精彩了,我想让你们知道,我现在站在这里是没有演讲稿,没有提词器,而且我得讲很多内容。那就让我们开始吧。
首先,我要感谢所有赞助商,感谢所有与会的杰出人士。几乎每一个行业都有人参加:医疗保健行业在这里、交通行业、零售行业,当然还有计算机行业——每一家计算机行业相关的企业都在这里。所以非常非常高兴见到你们所有人,也感谢你们对大会的赞助。
1
GTC的起点是GeForce
一切都从GeForce开始。今天我在这里拿着一块GeForce5090。5090,难以置信,距离我们开始研发GeForce已经过去25年了。25年以后,GeForce在全球都卖断货。这就是90,也就是Blackwell这一代产品。和4090相比,你看看它的体积缩小了30%,散热效率提升了30%,性能也极其强大,几乎无法相比。而这背后的原因就是人工智能。GeForce把CUDA带给了世界,CUDA让AI成为可能,而AI现在又回过头来彻底变革了计算机图形学。
你现在看到的是实时计算机图形,100%光线追踪。每一个像素都经过了光线追踪,然后人工智能推断剩下的15个像素。想象一下:对于我们用数学方式真实渲染出的每一个像素,人工智能会推断另外15个像素。它必须以极高的精度来完成这一过程,让画面看起来正确,而且还要在时间维度上保持准确,这意味着在向前或向后播放时——毕竟这是计算机图形——画面都必须在帧与帧之间保持时间上的稳定。真是不可思议。
2
人工智能取得了非凡的进展
仅仅过去10年而已。我们讨论AI的时间稍长一些,但AI真正进入大众视野大约是10年前的事情,最先从感知AI开始——计算机视觉和语音识别。然后是生成式(AI)。过去5年里,我们主要关注的是生成式AI,教会AI如何在不同模态之间进行转换,比如文本到图像、图像到文本、文本到视频、氨基酸到蛋白质、物性到化学物质……我们可以用AI生成各种内容。
生成式AI从根本上改变了计算的方式——从“检索式计算模型”变为了“生成式计算模型”。过去,我们几乎所有工作都是预先创建内容、存储多种版本,然后在需要时去获取相应的版本。而现在,AI能理解上下文,理解我们在问什么,以及我们请求的含义,然后生成它所“理解”和“知道”的内容。如果需要,它还会检索信息来补充理解,最后生成答案;不再仅仅是检索数据,而是直接生成答案。这从根本上改变了计算的方式。
在过去几年里,计算的每一个层次都被彻底转变。过去两三年,出现了重大突破,也就是人工智能的根本性飞跃——我们称之为“agentic AI”(具备自主性的AI)。agentic AI的意思是,AI拥有“主动性”(agency)。它能感知并理解当前环境的上下文,很重要的一点是它能进行推理,能思考如何回答或解决问题,还能制定并执行计划。它可以使用工具,因为它现在理解多模态信息;它可以访问网站,查看网站的文本和视频格式,甚至可能播放视频,然后从该网站学到内容,理解之后,再带着这份新知识回来完成任务。
agentic AI的基础是推理,这在过去是非常新的能力。接下来的一波浪潮已经在发生,我们今天会重点讨论——那就是机器人学。机器人由“物理AI”推动,而“物理AI”则是理解物理世界的AI。它能理解摩擦力、惯性、因果关系、物体的“永久性”——当它看到一个物体拐到拐角处并消失于视线之外,并不代表那个物体就从世界上消失了,只是暂时看不到而已。对物理世界、三维世界的这种理解将开辟AI的新纪元,我们称之为“物理AI”,它将使机器人变得可行。
每一个阶段、每一波浪潮都为我们所有人带来新的市场机会,让更多新的合作伙伴加入GTC。因此,如今的GTC可以说是爆满。想要容纳更多人参与,恐怕我们得把圣何塞扩建了。我们正在努力,我们有足够的土地来扩展圣何塞,好让GTC越办越大。
我现在站在这里,希望你们能看见我所看到的景象。我们现在处在一个体育场里。去年是我们首次回归线下,当时的场面就像一场摇滚音乐会,那次GTC被称为AI界的“伍德斯托克”盛会。而今年它被称为AI界的“超级碗”。唯一的区别在于,在这场“超级碗”里,每个人都是赢家。每年都有更多人加入,因为AI能解决更多行业、更多企业的各种有趣问题。今年我们会着重探讨agentic AI和物理AI。
3
三大核心问题:数据、训练和扩展
从本质上说,每一波、每个阶段的AI,都涉及三大根本问题。
第一,如何解决数据问题。这之所以重要,是因为AI是一种数据驱动的数据科学方法,需要用数据来学习,需要数字化的经验来学习、获取知识。
第二,如何在没有人工参与的情况下进行训练。因为人工干预是有极限的,而我们想要AI能以超越人类的速度来学习,几乎是实时的,而且规模要大到人类无法企及。所以第二个问题是:如何训练模型。
第三,如何进行扩展(scale)。怎样找到一个算法,使得你提供越多的资源(不管是什么资源),AI就变得越聪明。这被称为“scalinglaw”(扩展定律)。
过去这一年,几乎整个世界在这方面都看走眼了。AI的计算需求及其扩展定律其实更具韧性,甚至可以说是超加速。由于agentic AI、由于推理的出现,如今我们所需的计算量比一年前的预期至少高出100倍。让我们来解释一下为什么。
首先,从AI能做什么开始,逆推回去:agentic AI的核心是推理。我们现在已有能进行推理的AI,它能把问题分解为若干步骤。也许它会同时尝试几种方式来解决问题,然后选择最佳答案;也许它会用不同的方法去求解同一个问题,最后进行结果一致性检查;或者,它在得出答案后,还会把结果重新带回方程检查一遍,比如带回二次方程看看是否真的是正确答案,而不是像以前那样一次性随便给出一个答案。两年前,当我们开始使用ChatGPT时,虽然它已经非常神奇,但很多复杂问题或简单问题它也经常答错,这可以理解——它只做了一次性输出。它根据预训练数据(它在预训练数据中看到或学到的东西)进行一次性“输出”,就像随口说出来一样。而现在我们有了能逐步推理的AI,它利用“Chain of Thought”(思维链)、取多种解法里最优的和一致性检查等多种技术,一步一步地分解问题,进行推理。
由此可以想见,AI所生成的token数量会急剧增多。AI的底层技术本质仍是根据上一个token来预测下一个token。不同的是,现在“下一个token”对应的是推理的某个步骤。AI先生成第一步的一连串token,然后把这一步的输出再次输入给AI,用来生成第二步、第三步、第四步的推理。这样一来,AI不再只是一字一句地往外“吐”token,而是生成一大段文字来表示推理的步骤。最终产生的token量会大大增加,我会在稍后展示这一点。很轻松就可能高出过去的100倍。
那么“100倍”具体意味着什么?也许是生成了100倍的token,如我刚才所说;或者,模型本身更复杂,只生成10倍的token,但我们如果想让模型具备交互性、实时性,不想等它“思考”太久让人失去耐心,我们就要把计算速度再提高10倍。这样,10倍的token、10倍的速度,就相当于需要100倍的计算量。因此在接下来的演讲中,你们会看到推理所需的计算量远超以往。
接下来的问题:如何教AI像我刚才描述的那样进行推理?如何让AI执行“Chain of Thought”?在训练中,我们面临两个根本性难题:1)数据从哪里来?2)如何避免“人工参与”带来的限制?因为人类能提供的示例数据是有限的。最近两年最重大的突破就是“强化学习”和可验证结果。也就是说,当AI一步一步地尝试解决问题时,我们可以使用强化学习对它进行奖励,让它越做越好。
举例来说,人类历史上已经解决了许多问题,我们知道答案,比如二次方程的解法,毕达哥拉斯定理,还有很多数学、几何、逻辑以及科学定理。另外我们还有一些益智类游戏,能提供约束条件,比如数独等等。我们有数以百计的这种问题领域,可以生成数以百万计的不同例子,让AI有数以百计的机会去逐步求解。通过强化学习,它会不断获得奖励,从而表现越来越好。
因此,你把上百种不同的课题、几百万个不同的例子、再乘以上百次尝试、而每一次尝试都要生成数以万计的token,把这一切加起来就达到了数万亿的token,用来训练模型。现在有了强化学习,我们就能够利用“合成数据生成”的方法,以类似“机器人”的方式来教AI。这两方面的结合给整个行业带来了巨大的计算挑战,而你能看到整个行业也正在全力应对。
4
Hopper与Blackwell:基础设施的爆发式增长
我接下来要展示的是Hopper的出货量——仅限于四大CSP(云服务提供商):亚马逊、Azure、GCP和OCI。这四大CSP拥有公共云业务。我说的还不包括任何AI公司、不包括初创企业、不包括企业级用户,也不包括许多其他群体。仅仅这四家,能让你对比Hopper的峰值出货量和Blackwell(译者注:NVIDIA新一代架构)在第一年出货的对比数据。由此你可以看出,AI的确正在经历一个拐点:它变得更强大、更具推理能力,也因此被更多人使用。你可以从ChatGPT的使用体验看出来,现在每次打开ChatGPT,似乎等待时间都变长了,这反映了很多人在使用它,而且用得很有效。而训练这些模型、在推理中使用这些模型所需的计算量也随之飙升。仅仅在一年之内——而Blackwell刚开始出货——你就能看到AI基础设施的惊人增长。
这种增长也体现在整个计算领域。这张图里,紫色的部分是分析师们给出的预测:从现在到2030年,全球数据中心(包括CSP与企业数据中心等)的资本支出会出现大幅增长。我以前就说过,我预计数据中心的建设最终会达到万亿美元规模,而我非常确信我们很快会达成这一目标。这里有两个动力在同时发生。
第一,绝大多数增长很可能都是加速计算,我们早就知道通用计算已经走到尽头,需要新的计算方式。全球正在经历一场从“手动编写软件跑在通用CPU上”到“机器学习软件跑在加速器和GPU上”的平台转变。以这种方式来进行计算,目前已经过了拐点,我们正看到数据中心建设的全面爆发。
第二,大家也越来越认识到,软件的未来需要资本投入。这是一个非常重大的理念转变。过去我们的模式是:先编写软件,再把软件放到计算机上运行。而未来,计算机本身会为软件生成token。因此,这台计算机更像是一台“生成token的机器”,而不是简单的“检索文件的机器”。也就是从“检索式计算”向“生成式计算”的转变,从过去传统方式建造数据中心,变为新的基础设施形态。我把它称为“AI工厂”,因为它只有一个功能,就是生成这些惊人的token,然后我们再把这些token重构成音乐、文本、视频、研究数据、化学配方或者蛋白质……各种不同形式的信息。全世界不仅会建造更多数据中心,还会改变数据中心的构建方式。
5
并非所有计算都只为AI,但一切都将被加速
你们看到的这张幻灯片对我来说意义重大,因为多年来,你们一直在GTC上听我介绍这些库,其实整场GTC讲的也就是这些。这张幻灯片就是GTC的核心。事实上,大约20年前,我们只有一张类似的幻灯片,上面列出一个又一个库。你没法单单只加速软件,就像我们需要AI框架才能创建AI,然后对这些AI框架进行加速一样;对于物理、生物、多物理场、量子物理等领域,我们也需要专门的库和框架。我们称之为Cuda X库,这些是各个科学领域的加速框架。
首先介绍一下这个:Numpy是全球下载量最多、使用最广泛的Python库,去年下载量达4亿次。cuNumeric可以在无需任何变动的情况下替换Numpy,所以如果你正在使用Numpy,可以试试cuNumeric,你会喜欢它。klitho是一个计算光刻库。经过4年努力,我们把计算光刻整个流程都加速了。计算光刻是晶圆厂中的第二条生产线——第一条工厂制造晶圆,第二条则制造生产晶圆所需的信息。未来,每一家有工厂的企业都将拥有两条工厂线:一条用来制造实体产品,另一条是用来制造数学和算法,也就是“AI工厂”。造车的公司会有一条生产汽车的工厂,还有一条生产车载AI的工厂;造智能音箱的,会有工厂负责制造音箱本体,另一条则负责生产智能音箱所用的AI。klitho就是我们的计算光刻库。台积电、三星、ASML以及相关合作伙伴,包括Synopsys、Mentor,都在支持这个项目。我们认为在未来5年内,每一个光刻掩模都会用到NVIDIA CUDA来处理。
Ariel是我们针对5G的库,将GPU变成5G无线电。为什么不行呢?信号处理本就是我们的强项。有了这个之后,我们还能在上面叠加AI,称为“AIRAN”。下一代无线电网络会深度融入AI。为什么我们要受限于信息论?频谱资源就那么多,怎么突破?可以通过整合AI。cuOpt是用于数学优化的库,几乎各行各业都需要它,用于安排航班座位和航线、管理库存和客户、工厂劳动力调度、司机和乘客配对等等,都有多种约束和变量,需要在时间、收益、服务质量、资源利用率等方面做优化。我们英伟达也用它来做供应链管理。cuOpt非常强大,可以把过去需要数小时的工作降到几秒钟完成,这是很重要的,因为这样我们就有足够的时间去探索更庞大的空间。我们宣布要将cuOpt开源。几乎所有人都在用Gurobi、IBMCPLEX或FICO等工具,我们和这些公司都有合作,业内对此非常兴奋——我们即将为整个行业带来大规模加速。
PairBricks用于基因测序和基因分析;MONAI是全球领先的医学影像库;Earth-2是多物理场库,用于在极高分辨率下预测局部天气;cuQuantum和cudaQ则是量子计算相关的库。我们在这届GTC首次设置了“Quantum Day”,与几乎所有量子生态系统玩家都有合作,帮助他们研究量子架构、量子算法,或者构建“经典+量子”异构体系,非常令人兴奋。cuEquivariance、Tensor并行压缩、量子化学……很多很多。这些就是在Cuda之上又构建了一层又一层的库,整合进各种生态系统、软件和基础设施,最终实现AI。
我这里还有一个新的要宣布:cuDSS,这是我们的稀疏求解器,对计算机辅助工程(CAE)相当重要。过去一年里发生了一件大事:我们和Cadence、Synopsys、ANSYS,还有一些做系统的公司进行了合作,使几乎所有重要的EDA和CAE库都能被加速。非常了不起。想想看,直到最近,英伟达还一直用运行在通用CPU上的那些超级慢的软件来设计我们自己的加速计算机,因为我们自己没有针对EDA的高效加速软件。现在我们终于有了,所以整个行业在向加速计算迈进时,将被大幅提速。
cuDF是一个面向结构化数据的DataFrame库。我们现在已经实现了对Spark和Pandas的“零改动加速”。还有Warp,这是一款针对物理模拟的Python库,用于Cuda加速,稍后我会有个重要公告。以上只是加速计算所需要的库的一个缩影。加速计算不仅是Cuda,我们为Cuda感到骄傲,但如果没有Cuda以及它庞大的装机基础,这些库对开发者就毫无意义。使用这些库的开发者首先能获得惊人的加速和可扩展性;其次,因为现在Cuda的安装基础非常广泛,几乎每家云服务商、每个数据中心、每家计算机公司都提供Cuda,遍布全球。因此,你若使用这些库,你的优秀软件就能被所有人使用。至此,我们可以说加速计算已经过了“引爆点”,是Cuda带来了这种可能。而这一切,也离不开在座各位以及整个生态系统的贡献,这就是GTC的意义所在。为此,我们做了一个简短的视频送给你们。
6
AI的开始
AI的确是从云开始的,这是有道理的,因为AI需要基础设施——这是“机器学习”。如果科学叫“机器学习”,那就需要“机器”来做这门科学。而云数据中心正好拥有所需的基础设施,也汇聚了顶尖的计算机科学和研究力量,是AI在云端迅速腾飞的完美环境。云服务提供商(CSP)自然而然成为早期的主要阵地。但AI不会只局限在云端,它会遍地开花。接下来我们会从多个角度探讨AI。
云服务商当然喜欢我们的尖端技术,他们也喜欢我们拥有完整的“全栈”——因为加速计算如前所述,不是只有芯片,也不止有芯片和库,还需要编程模型,以及在其之上各种复杂的软件堆栈,每一层库都像一个SQL(IBM在存储计算领域革命性的东西)那样重要。而在AI领域,这样的库更多,堆栈更加复杂。云服务商还喜欢这样一点:NVIDIA CUDA开发者也往往是云服务商的潜在客户,因为他们最终要把软件部署在云上面向世界,所以庞大的开发者生态对CSP至关重要。
现在我们要把AI带到世界的其他角落,而全世界在系统配置、操作环境、领域专用库、用例等方面都有巨大差异。当AI进入企业、制造业、机器人、自驾驶汽车等等领域时,需求又会不同。还有一些新兴的GPU云公司,大约20家左右,都是在NVIDIA崛起期间成立的,他们就干一件事:托管GPU,称自己是“GPU云”。我们的优秀合作伙伴之一CoreWeave正准备上市,我们也为他们感到自豪。这些GPU云各有各的需求。
我个人非常兴奋的一个方向是边缘端。今天我们宣布,思科、NVIDIA、T-Mobile(全球最大的电信公司之一)、Cerebras、ODC,将在美国构建一个面向无线电网络的完整堆栈。这会成为我们宣布的第二条堆栈。这个全新的堆栈将AI带到边缘端。要知道,每年大约有上千亿美元投资在无线网络和相关数据中心中,而我坚信,这些网络的未来毫无疑问是融合AI的加速计算。AI可以更好地适应不断变化的无线环境和流量状态,毫无疑问我们会用强化学习去实现这一点。Massive MIMO(大规模多入多出)本质上就像一个巨大的无线机器人,有了AI,自然能在信号调度上做得更好。
我们当然会提供相关功能,AI肯定也会革新通信领域。你看AI是怎么改变视频处理的,也看到了我之前讲的对3D图形的改变,同理可得我们也会这么做在边缘端。我对今天宣布的这件事感到非常兴奋:T-Mobile、Cisco、Nvidia、Cerebras、ODC将合作构建一整套堆栈。
7
AI将进入各行各业:自动驾驶为例
AI会进入所有行业,早期比较典型的是自动驾驶。自从我见到AlexNet(我们在计算机视觉领域已耕耘许久),那一刻让我深受启发、热血沸腾,于是我们全力投入自驾车技术研发。到现在我们已经做了10多年。我们构建的技术几乎被每一家自动驾驶公司采用——他们可能只用我们的数据中心产品(例如Tesla在数据中心里用很多NVIDIA GPU),或者像Waymo、Woven Planet既在数据中心也在车端使用NVIDIA的计算机;也有极少数只在车端使用,但非常罕见。也有人把我们整个软件栈都用上了。
我们和汽车行业的合作方式是非常灵活的,看车企需求如何。我们提供三种计算机:训练计算机、仿真计算机、自动驾驶计算机,以及它们之上的整套软件栈、模型和算法。这和我们在前面其他行业所做的一样。
“今天,我非常高兴宣布,通用汽车(GM)已经选择与英伟达(NVIDIA)合作,打造他们未来的自动驾驶车队。自动驾驶车辆的时代已经到来。我们期待与GM一起在三个领域中运用AI:第一,用于制造——他们可以革新生产方式;第二,用于企业级——他们可以彻底改变他们的工作模式、设计车辆和模拟车辆的方式;第三,用于车载——我们将为GM构建并部署AI基础设施。对此我非常兴奋。
我特别自豪的一点在于汽车安全领域,尽管它很少被关注。我们公司内部称之为“Halos”。要实现安全,需要从芯片到系统,再到系统软件、算法以及方法论都整合到位。从多样性到确保多样性监控,再到透明性与可解释性,所有这些不同的理念都必须深度嵌入到系统及软件开发的每一个环节。我相信我们是世界上第一家让每一行代码都通过安全评估的公司——有700万行代码接受了安全评估。不仅是代码,我们的芯片、系统、系统软件以及算法都要进行第三方安全评估,对方会逐行审查代码,确认系统是在保证多样性、透明性和可解释性的前提下设计的。我们还在这个过程中提交了一千多份专利。在本届GTC中,我也非常鼓励你们去参加“Halos Workshop”,亲眼看看为了确保未来汽车既安全又能实现自动驾驶,需要整合多少不同的要素。我为此感到非常自豪,但它往往很少被讨论,所以这一次我就多花些时间来介绍一下,这就是NVIDIA Halos。
你们都见过自动驾驶汽车,比如Waymo的Robo-Taxi非常了不起。我们做了一个视频来展示我们所用的一些技术,如何解决数据、训练、多样性等问题,以便利用AI的神奇力量,去创造新的AI。
NVIDIA正通过Omniverse和Cosmos来加速自动驾驶系统的AI开发。Cosmos的预测与推理功能,支持‘AI-first’的自动驾驶系统,从端到端实现可训练。它通过新的开发方法——模型蒸馏、闭环训练以及合成数据生成来完成。
首先,模型蒸馏将Cosmos的驾驶知识,转换为一个较小、更快的学生模型来在车内推理。教师的策略模型会示范出最佳的行驶轨迹,而学生模型会通过多次迭代来学习,直到它的表现几乎与教师模型一样好。蒸馏过程为策略模型提供了初步的‘引导’,但复杂场景仍需进一步优化。这就需要闭环训练来微调策略模型。日志数据会被转换为3D场景,并使用Omniverse的物理级神经重建,让模型在模拟环境中进行闭环驾驶。然后在这些场景的不同变体中测试模型的轨迹生成能力。Cosmos的行为评估器会对模型生成的驾驶行为进行打分,从而衡量其性能。新生成的场景及其评估结果,汇集成庞大的数据集,用于闭环训练,帮助自动驾驶系统更稳健地应对复杂场景。最后,3D合成数据生成技术能让自动驾驶系统适应多样化环境。从日志数据中,Omniverse通过融合地图和图像来构建高精度的四维驾驶环境,并生成真实世界的数字孪生,结合对每个像素的语义分割来辅助Cosmos。Cosmos会生成准确而多样化的场景,以扩大训练数据规模,进一步缩小仿真与现实的差距。Omniverse和Cosmos让自动驾驶系统得以学习、适应并实现智能驾驶,为更安全的出行奠定基础。”
NVIDIA是做这件事的完美人选,天呐,这几乎就是我们的宿命:用AI来再创造AI。你在视频中看到的那些技术,和我们带给你的数字孪生世界的技术很像,
8
数据中心(DataCenters)
让我们谈谈数据中心吧。Blackwell已经全面进入量产,这就是它的样子。实在是不可思议。不少人看到它会觉得:对我们来说,这是一种美的盛景,对吗?这怎么可能不美呢?
因为我们在计算机体系结构上实现了一个根本转变。三年前,我给你们看过一个版本,叫做“Grace Hopper”,那个系统叫“Ranger”。Ranger的体积大概是这个屏幕一半宽度——那是全球首个支持NVLink32的系统。三年前我们展示Ranger时,它实在太大了,但方向完全正确。我们想解决的是“scale up”的问题。
分布式计算(scaleout)是让很多计算机协同工作来解决一个巨大的问题;但我们仍然需要“scale up”,在扩展(scaleout)之前先进行纵向扩展(scale up)。二者都很重要,但你想先把单机/单系统的规模尽量扩大,然后再做分布式扩展。然而,“scale up”十分艰难,没有什么捷径可走。你不可能像Hadoop那样,把一堆普通服务器用网络连起来,搞一个庞大的分布式存储计算。Hadoop在过去确实带来了革命,让超大规模数据中心能够用通用硬件处理海量数据,但现在我们要解决的问题要复杂得多。如果继续用那种方式,只会过度消耗电力和能耗,深度学习也就不会出现。
因此我们必须先“scale up”。我不会把它举起来,因为它有70磅重。它是我们上一代的系统架构“HGX”。HGX彻底革新了我们的计算方式,也革新了人工智能:它含有8块GPU,每一块GPU就像手里这个(指向手中的Blackwell GPU模组)。这里面实际上是两个Blackwell GPU封装在一块芯片上。所以,一台HGX里有8块这样的东西。它们通过“NVLink 8”互联。而这上面还会连接一个CPU机箱(CPU shelf),里面有双路CPU,用PCIe和HGX相连。然后再通过InfiniBand把很多这样的节点连起来,就形成了一台所谓的“AI超级计算机(AI super computer)”。这就是过去我们的方法——通过这样的方式先做“scale up”,再做分布式扩展(scale out)。可我们还想把“scale up”做得更大。
我曾提到Ranger:它把HGX再扩充了四倍,于是就有了NVLink32,只不过整机体积太大了。我们必须对NVLink及其拓扑进行重大革新,才能继续扩大规模。
做法是:把NVLink交换机(switch)拆分出来过去,NVLink交换机嵌在主板里,但我们现在要把它拆出来,放到机架中央。它是全球性能最强的交换机,使得所有GPU可以同时以全带宽互联。我们把这些交换机拆分出来,集中放在机架中央。有18个这样的交换机,分布在9个交换机托盘中。然后,计算节点就位于机架的四周相对于交换机而言,这样我们就能把这一切都做成“完全液冷”。通过液冷,我们可以在一个机架里塞进所有这些计算节点。这就是整个行业的大转变:从集成式NVLink转向解耦式NVLink,从风冷转向液冷,从每台计算机大约6万个元件变为每个机架60万个元件、功耗达120千瓦,全部采用液冷。结果就是——我们可以在一个机架里实现1 exaFLOPS的计算能力。太不可思议了!
9
新的计算节点
这就是新的计算节点,相当于以前那台8-GPU的HGX,再加上CPU的合体。现在它就能装进一个机架里。整机重量达3000磅,约有5000根线缆,长度差不多有两英里,以及60万个元件……大概相当于20辆汽车的零件数;这些都组合到一起成为一台超级计算机。
我们的目标就是这样:做彻底的“scale up”,现在的形态大致长这样。我们理想中想造一块芯片,上面集成约130万亿个晶体管,其中约有20万亿个专为计算所用。但从工艺上讲,这是不可能一次性实现的。所以我们通过“解耦”的方式,将Grace、Blackwell和NVLink-72拆分到多个机架上。结果就是,我们达成了极致的“scale up”。这是有史以来最极端的“scale up”方案。它带来的运算量、内存带宽都达到了惊人的水平——570TB/s,所有指标都以T计量,一切都是万亿级别。这台机器拥有1 exaFLOPS(即10^18次浮点运算/秒)级别的运算能力。
我们之所以要做到这样极致的规模,是为了应对一项极端困难的任务。很多人原本以为这是一件很简单的事,但实际上它是终极级别的计算难题,这就是——推理(inference)。原因很简单,推理就意味着“生成token”,而生成token的“工厂”(AI工厂)能带来收益和利润,也可能带来损失。所以这座“工厂”必须以极高的效率和极大的性能来运行。因为工厂的效率会直接影响服务质量(QoS)、收入以及盈利能力。
坐标轴有两个:
-
横轴(x-axis)是“tokens per second”。我们在使用ChatGPT时,输入一个prompt,然后输出的是一个个token(标记),最终被映射成文本单词。一个英文单词可能对应多个token,也有的token只代表字母组合如“th”,它可以在多种单词中出现,比如“the”、“them”、“theory”、“theatrics”等。
-
纵轴(y-axis)是“响应延迟”(latency)或者说“响应速度”。我们已经了解到,如果想让AI更聪明,就需要生成更多token——它可能需要进行推理token、一致性检查token、思考多种方案以选择最佳方案的token,这些都属于“思考”过程。它也可能自我质疑,像我们人一样“一边想一边碎碎念”。生成的token越多,AI表现就越聪明。但若AI回答问题太慢,用户就会失去耐心,不会再用它。这就像网络搜索一样,有个用户可接受的最大时延。
因此,这两个指标是相互冲突的:一方面,你想让AI为单个用户生成更多token——也就是“tokens per second”越大越好,以实现更智能的回答;另一方面,你还想在同样的硬件里“服务更多的用户”,提高整座“工厂”的吞吐量(throughput),以获得更高收益。这时就不得不做“batching”,批量处理很多用户的请求。但一旦批处理,就会增加等待时间,这影响单个用户的响应速度。没有任何系统能在这两个维度上同时做到绝对完美,你理想地想要一个“曲线”尽可能在右上方覆盖更大面积——因为横纵乘积越大,代表你同时兼顾了响应速度和吞吐量。
要实现这样的目标,你得具备海量的FLOPS、极高的带宽和内存访问能力,以及适当的编程模型来把这些资源用起来。这正是我们这台机器所擅长的:更多FLOPS、更大内存、更高带宽、最优架构、最好的能效比,以及能协调所有资源的软件栈。
下面这个演示会让你更直观地感受我说的内容。演示:“传统大型语言模型(LLM)可以捕捉到基础知识,而‘推理模型’则可以通过思考Token来解决更复杂的问题。
在这里,我们给了模型一个prompt,要求根据一些条件来为婚宴安排座位,比如某些传统习俗、如何拍照更好看,以及哪些家人之间存在矛盾需要分开坐等。
传统的LLM只用不到500个Token就很快给出答案,但它在安排来宾座位时犯了错误。
而推理模型则使用了8000多个Token来思考,最终给出了正确答案。它甚至需要一个牧师来调解整个局面。”
就像大家都知道的,如果你要安排300人的婚宴座位,并让所有人都满意,这是只有AI或者“丈母娘”才能解决的问题(笑)。可你看到的例子里,R1模型(指更高级的推理模型)要进行反复思考。传统LLM使用了439个Token,一次性给出答案,确实很快,但错误百出,相当于是439个Token白费。而推理模型用了约8600个Token,一步步推理、不断验证,最后才得出正确答案。它所需的计算量也大得多。
10
更深入的推理需要更复杂的并行与调度
在展示一些结果前,我还要解释点别的。你看Blackwell这种规模庞大的系统,它依赖“MVLink 72”架构,把所有GPU通过NVLink串起来,形成一个统一整体。但模型本身动辄拥有几千亿、几万亿参数,比如R1有6800亿参数,更大的下一代模型甚至可能达到数万亿参数。
我们要把这些数万亿参数分割后分发到一大堆GPU上,可能使用张量并行:把模型中的某一层拆分成多个GPU协同运行;也可能使用流水线并行:把模型的各层按顺序分配到不同GPU;还可能采用专家并行:把不同的专家分配到不同的GPU。这三种并行方式(张量并行、流水线并行、专家并行)可以组合出无数种方案,而具体选择哪一种取决于模型、工作负载以及当时的环境。有时你要优化延迟(latency),有时要优化吞吐量,也可能在推理时使用各种批处理技巧。总之,这套AI工厂的软件操作系统极其复杂。
有一个关键观察点:当所有GPU都通过NVLink72构成统一整体后,我们就能在内部灵活调度“推理”的不同阶段,而这些阶段需求不同。我们通常把推理分成两个阶段:
-
‘预填充’阶段(思考阶段):AI不断从上下文中摄入信息(包括用户输入、提示、可能还会查询PDF或网站,甚至观看视频),把所有内容都整合进模型。这个过程计算量很大,但生成的Token并不多。
-
‘解码’阶段(解码阶段):AI根据模型的所有参数和上下文来预测下一个Token。由于语言模型每次只能预测一个Token,要把整个模型(数万亿参数)从HBM(高带宽存储器)读入,再生成一个Token,然后再放回去作为输入,再来一次……持续很多次,才能输出完整结果。这对带宽以及FLOPS)提出了极高要求。
举例来说,如果模型规模是好几万亿参数,意味着你每次解码,都要读取TB级的数据来输出一个Token。而在那个演示里,推理模型输出了8600多个Token,也就意味着对模型参数进行了8600多次的读取-计算-输出循环。这也解释了为何我们要用NVLink:它能把所有GPU连接成一个巨大的逻辑GPU,让我们在同一个地址空间里处理海量数据。
另外,当推理分为‘预填充’和‘解码’两大阶段时,我们可以在NVLink的统一架构下进行灵活调度:如果接下来大部分工作是思考或检索信息,就多分配GPU给‘预填充’;如果是成千上万用户一起聊天、需要大量输出Token,则把更多GPU用于‘解码’。像我平时做研究时,会给AI一个超长的指令,让它去94个网站搜集资料,读完、总结,再给我写一篇报告。这个过程很耗‘预填充’计算。而当几百万人在和ChatGPT聊天时,又是‘解码’计算最繁重。
根据工作负载的不同,我们可能会决定在解码阶段分配更多的GPU,或者在预填阶段分配更多的GPU。这种动态分配的过程非常复杂。我刚刚描述了管线并行、张量并行、专家并行、飞行批处理、解耦推理工作负载管理,以及所谓的键值缓存——我得把它路由到正确的GPU,还要管理所有存储层级。那部分软件复杂得令人难以置信。
所以,今天我们宣布了NVIDIA Dynamo。
NVIDIA Dynamo会处理以上所有事情,它本质上就是一座“AI工厂”的操作系统。过去,我们在数据中心里运行的操作系统可能是VMware之类的,我们会用它来编排整个企业级IT负载,事实上现在我们仍在这样做,我们是VMware的大用户。但未来,应用本身不再只是企业级IT,而是“智能体”(agents);操作系统也不再像VMware,而会类似于Dynamo。它并不是跑在传统的数据中心上,而是跑在所谓的“AI工厂”之上。
我们之所以把它称为Dynamo,是有原因的。正如你们所知,“Dynamo(发电机)”是引爆上一次工业革命的第一台仪器。那次工业革命是关于能源的:水进来,电出来,这太神奇了。你知道,水或者燃料进入后,变成蒸汽,再输出一种无形却极具价值的东西(电)。后来又花了大约80年才进化到交流电,但Dynamo正是这一切的开端。所以,我们决定把这套复杂到极致的软件命名为NVIDIA Dynamo。它是开源的,我们非常高兴有许多合作伙伴与我们一起研究它。其中我最喜欢的合作伙伴之一就是Perplexity,他们在这个领域做了非常具有革命性的工作,而且他们的创始人Aran人也很好。总之,这就是我们与Perplexity携手开发的东西,真的非常棒。
好,现在要等我们大规模建好这些基础设施,但与此同时,我们已经进行了大量深入的模拟。我们用超级计算机来模拟我们的超级计算机,这很合理。下面我要向你们展示我们所说的这一切带来的好处。请记住之前那张“工厂”图表:横轴(x-axis)表示“用户体验的tokens per second”,纵轴(y-axis)表示“整座工厂的tokens per second吞吐量”。你希望你的AI单体能够产出更多token(让它更聪明),也希望整个工厂的产量也很高。下面我们来看一看Hopper(架构)的情况。
Hopper可以为每个用户大约产生100 tokens/s。这里指的是一台包含8块GPU的系统,通过InfiniBand连接。为了公平起见,我们把它归一化到“每兆瓦的tokens per second”。也就是说,如果我们有一个1兆瓦的数据中心(其实在AI工厂里并不是很大的规模,但我们就取1兆瓦方便对比),它可以在单用户模式下做到100tokens/s,然后在这个点上(黄仁勋指着图),它能给你提供每秒100,000个token;或者,如果你愿意等很久,让系统做极限“批处理”,它可以达到250万tokens/s。大家理解吗?好,如果在极端批处理场景下就是这样。
大家点点头,因为这部分可能有些烧脑。你们知道,每次GTC都有“入场门槛”——你们得接受一点数学的折磨。只有在NVIDIA大会上,你才会被数学折磨。
Hopper可以产出2.5million tokens/s,这是在1兆瓦的功耗下实现的。那250万tokens/s怎么转化成经济效益呢?假如说ChatGPT是10美元/百万token(只是举例),那么在极端批处理的情况下,这台“工厂”每秒就可能做到250万tokens/s乘以10美元/百万tokens=每秒25美元吗?或者每秒250美元?我们先别在意具体数字精确度,核心是:如果你的AI工厂能更快地产出token,那么你的服务质量更好,也能赚到更多钱。但如果你为了让AI回答更聪明生产更多token、更多推理步骤,你就需要更多计算资源,导致整体吞吐量下降。这是一种合理的平衡。上面的曲线正是我们努力要改善的目标。
我要再次强调,Hopper本来就是目前最快的计算机,推动了很多革命性进展。那我们如何进一步提升它呢?首先,我们采用Blackwell架构和NVLink8(同一个Blackwell芯片),运算更强,晶体管更多,整体规模更大。然后我们还采用了一种新精度:不是简简单单的4-bit浮点,但用4-bit浮点做量化能在同样的运算里耗更少能量,从而做更多事。要知道,每个数据中心以后都会碰到“功率极限”。你能获得多少收入,很大程度上取决于你能使用多少能源。和很多行业类似,我们也进入了一个“能耗受限”的时代。因此,你必须要构建尽可能节能高效的计算架构。
接下来,我们再把规模扩大到NVLink72,大家应该能理解这个思路。看下面这张图对比一下:
-
NVLink72+FP4+我们全新的Dynamo
-
还有一个是没有Dynamo的配置
我们体系结构紧密结合,现在再加上Dynamo,性能进一步拉升。Dynamo对Hopper也会有帮助,但对Blackwell的帮助特别巨大。现在你会看到,我在图表中标出了两个闪亮的区域——那大概就是“最大效率点(max-Q)”。你在寻找在高吞吐与高智能之间的平衡,那些点就是你“工厂”最优化的工作区间。如果我们把那两个点连线对比,会发现Blackwell远远优于Hopper。要记住,这里比较的是“相同功耗”(ISO Power),也就是所谓的终极摩尔定律。过去,摩尔定律在讲晶体管数量的提升,这里我们是在同样能耗的前提下做对比,结果居然是一代就提升25倍。那简直不可思议。
在图表上,你还能看到一个彩虹一样的曲线,那就是所有可能的配置点——我们称之为Pareto前沿。在那条前沿曲线下有无数种组合——工作拆分、分片策略、并行方式,各种可行配置。我们最终找到了最优解,也就是Pareto前沿。根据曲线上的颜色,你可以看出在不同配置下的表现。这非常清楚地说明,你需要一个“可编程的”且“同构的”架构,因为负载在前沿曲线的不同部分有着截然不同的需求。
在曲线上某个顶部点,配置可能是“专家并行8+批大小3000+解聚关闭+Dynamo关闭”;中间可能是“专家并行64+26%上下文+批大小64+Dynamo开启”,等等;最底部点又是另外的配置,比如“张量并行16+专家并行4+批大小2+1%上下文”……也就是说,整台计算机的配置会在这整个范围内变化。这就是为什么我们说需要一个可编程的、通用的架构。
接着我们来看这个演示:在输入序列长度为1000 token、输出长度为2000 token的测试场景中,Blackwell性能是Hopper的40倍。哇,简直不可思议。我之前说过一句话:当Blackwell大规模出货后,你送Hopper别人都不会要。这就是我指的意思,这也很合理。当然,如果你现在还打算买Hopper也没关系,但是我是公司最大的“营收终结者”(我的销售团队可能会想:“别这样说啊!”)但是你们懂的,当技术以如此惊人的速度迭代,如果你确实在建一个“AI工厂”,就应该投资在对的产品上。把它放到一个更大的视角看就明白了。
举个例子,这是一座100兆瓦的“AI工厂”。
-
如果用Hopper,需要45,000颗GPUDIE、1400个机架,能产出大约3亿token/s。
-
如果用Blackwell,那就需要……呃……(黄仁勋做出手势)好像就只要8000颗GPUDIE,就能达到同样产量。(现场笑声)你可能想:“这听上去我用不了那么多GPU了?”我们并不是想卖得更少,而是想告诉你,这是一个更优解。“买得越多省得越多”,何况现在是“买得越多,赚得越多”嘛(笑)。
总之,现在的一切都围绕“AI工厂”这个概念来思考。我们一直谈芯片,但实际上要先想好怎么做“scale up”,最后才会决定你买多少芯片。我现在想让你看看一座实际AI工厂的样子,但它实在太复杂了——仅仅一个机架就有60万个元件、重达3000磅。如果你要连上几十个甚至上百个这样的机架,就更是庞然大物。所以我们开始在Omniverse里做“数据中心数字孪生(digital twin of a data center)”,也就是先构建一座虚拟的AI工厂,再去建实体的。
11
NVIDIA的路线图(Roadmap)
现在我得加快节奏了,因为我要跟你们讲的东西实在太多。如果我说得太快,不是因为我不关心你们,而是信息量确实很大。
先说一下我们的路线图(roadmap)。现在我们已经全面量产Blackwell,世界各地的计算机制造商都在大规模出货这种令人惊艳的机器。我对此深感欣慰并心怀感激——大家为过渡到这套新架构都付出了巨大努力。然后在今年下半年,我们会平稳过渡到升级版,也就是Blackwell Ultra+NVLink72。它具备原先1.5倍的FLOPs,拥有新的attention指令,内存也提升了1.5倍,非常有用,比如放KVcache;网络带宽也扩大了2倍左右。所以,基于相同的架构,我们会顺利推出这个升级版本,称之为Blackwell Ultra,预计在今年下半年。
为什么我们要在这个场合宣布这样的产品?一般情况下,别的公司宣布时大家可能会觉得“好啊,下一步是什么?”。事实上,这正是我们希望你们的反应。原因在于:我们现在要建的是AI工厂,需要多年的规划。这可不是买台笔记本电脑那么简单,也不是一笔随心所欲的支出,而是必须经过土地、电力、资金、工程团队等各方面的长远计划。所以我们必须给你们一个2~3年的预告,而不是等到某个月份突然说“嘿,下个月又有一个超棒的新系统”。我会举个例子让你们看为什么要这样做。
再往后一年,我们会推出以著名天文学家命名的新系统,她的名字是Vera Rubin。她发现了“暗物质”,对,就是Vera Rubin。她非常了不起。她这套新平台里,CPU也变成新的,比Grace性能提高两倍、内存更多、带宽更大,但功耗只增加一点点(可能是50瓦的CPU),真是厉害。新的GPU代号是CX9,还有新的智能网卡SmartNIC、NVLink6,以及新的内存(比如HBM4)。一切都是全新的,只保留现有的机箱和底层基础设施,这样我们在一个方向上冒险升级时,不会同时冒险太多层面。我们称之为Vera Rubin+NVLink144,将在2026年下半年问世。
需要做个小小的澄清:Blackwell芯片实际上包含两个GPUDIE,但我们过去把它当做“一块GPU”来称呼,这在NVLink命名上造成了混乱。今后,我说“NVLink144”指的是连接144个GPUDIE——它们可能封装在一起,也可能分开封装。总之,今后每个GPUDIE就叫一个GPU,所以当我们说“Rubin+NVLink144”,就是可以连接144块GPUDIE。将来具体是怎么封装的,会视情况而定。
有了VeraRubin+NVLink144,接下来又为第二年(也就是再往后一年)做好了铺垫,称之为Rubin Ultra。你们应该惊呼一下(笑)。对,这就是Vera Rubin Ultra,预计在2027年下半年。这是NVLink576极致扩展。每个机架600kW,包含250万个元件——哦不,250万组件。当然还会有更多GPU,总之各项指标又提升一个数量级。14倍更多的FLOPs,就是15exaFLOPs,而现在Blackwell的规模只有1exaFLOPS。我之前提到过可以做15exaFLOPs的“scale-up”。内存带宽达到4.6PB/s(4600TB/s),这还是单机架内部的统一带宽,并不是整体聚合带宽的概念。当然还会有全新的NVLink交换芯片和CX9等一系列新组件。
请注意,这里用了16颗GPU DIE打包封装在一个封装中,极大规模的NVLink。我给你们比对一下。比如说,这就是你们现在正在量产、部署的Grace Blackwell看上去像个小板子,对吗?而Rubin比它大很多。我们是等比例放置,让你们感受一下它的体积差别。
这就是为什么我们总是强调——在开始做大规模分布式(scaleout)之前,你先得做极致的“scale up”。然后我们再用一些让你惊艳的技术进行分布式扩展。
性能演进:Hopper→Blackwell→Rubin
现在我们可以看看算力(scale-up FLOPs)的进化:
-
Hopper=1×
-
Blackwell=68×
-
Rubin=900×
如果你把它和功率结合起来,也就是我前面说的“在可接受的能耗下,最大化FLOPs×带宽”。你会发现Rubin将带来更低的成本、更高的效率。所以,这就是NVIDIA未来几年的路线图,大约一年一次的迭代节奏,就像时钟滴答一样稳定。
讲完纵向扩展(scale up)的路,我们再来看横向扩展(scale out)要怎么做。我们之前介绍过,MVLink负责纵向扩展,而InfiniBand与Spectrum X负责横向扩展。大家都知道我们进入以太网领域,因为我们想让以太网拥有跟InfiniBand类似的性能特性,比如阻塞控制、超低延迟,以及把我们计算结构的软件优势带进去,于是就有了Spectrum X。现在的表现非常出色,比如我们用Spectrum X构建了“Colossus”,那是全球最大的单体GPU集群之一,表现非常好。Spectrum X可以说是大获成功。
我对另一个方向也很兴奋:最大的企业网络厂商将把Spectrum X整合进他们的产品线,帮助全球的企业“AI化”。我们现在用的是CX8、CX7,马上要有CX8、CX9。随着将来要到VeraRubin的时代,我们希望能扩展到成千上万、甚至几十万块GPU DIE。但是,如果要把几十万块GPUDIE做成大规模横向扩展,数据中心大到体育场大小,那么机架之间就需要远距离连线,不再能完全使用铜缆。铜缆只适合在机架内或1~2米以内,这样能保持高可靠、低成本、能效高;但在机房更大范围内,我们就需要“硅光”技术。硅光长久以来的挑战是收发模块功耗太大,需要把电信号转换为光信号,需要串行器/解串器,以及好几级转换,每一个步骤都在消耗能源
让我们展示一下这个东西。首先,我们宣布了英伟达首个“共封装硅光方案”,世界上首个1.6Tb/s的CPO(co-packaged optics)。它基于微环谐振调制器(Micro Ring Resonator Modulator,MRM)技术,这是我们在TSMC工艺上与众多技术伙伴合作多年的成果。它非常疯狂,极具创新。
之所以选用MRM(微环谐振调制器),是因为它在功耗密度和能效方面都优于现有的马赫-曾德尔调制器,后者目前主要用于远距离电信或数据中心间通信。之前,在数据中心互联或城域/长途光纤里,MoZ(马赫-曾德尔)足够用,因为对带宽和密度的要求相对没那么高。但如今随着我们要在机架间、机房内都高密度部署光模块,这就需要更高的集成度与更低功耗,而MRM更适合这种规模化的场景。好吧,这就是要让‘推理模式’上线的时刻了。要把这些线整理好其实没那么容易,它们又细又绕。好了,让我们看看这个家伙(展示某个光学收发器)。
你看,这一块功耗是30瓦。你要记住,30瓦。如果你大批量采购,每个可能要1000美元。这里有一个插头,这边(指一端)是电连接,那边(指另一端)是光学连接。所以,光纤会从黄色这边进来;你把它插到交换机上,这一头是电接口,里面包含了收发器、激光器,采用了被称为“马赫-曾德尔(Mach-Zehnder)”的技术,十分先进。我们用它把GPU连接到交换机,再连接到下一级交换机,然后再下一层交换机,最终到另一块GPU。例如,如果我们有10万块GPU,那么就要有10万个这种光纤接口;然后再加上……呃,还要另一端从交换机到交换机,也有10万个。最后去连接另一端Nick(网络接口卡)。如果我们有25万块GPU,就得再加一级交换机。因此,每块GPU(25万块GPU时)都会拥有6个收发器端口,也就是6个这样的插头。这样的话,每块GPU光是这些收发器就要消耗180瓦(30瓦×6),每块GPU还要6000美元的成本(1000美元×6)。
所以,问题来了:我们如何把GPU的规模扩展到上百万块?如果我们有100万块GPU,每块都有6个收发器,那就等于600万个收发器,总耗电是600万×30瓦=1.8×10^8瓦,也就是180兆瓦(megawatt)纯粹用来“搬运信号”,并没有做任何计算。正如我之前说的,能源是我们最重要的资源,一切最终都和能耗挂钩。若这些收发器吃掉180兆瓦,那就意味着我们的客户(或我们自己的)数据中心能够用于实际计算(从而创造收益)的电力减少了180兆瓦。
于是,我们必须想办法解决这个问题。这就是我们所做的惊人的发明:我们开发了全球首款采用微环谐振调制器(MRM,Micro Ring Resonator Modulator)的硅光技术,它看起来是这样的(展示示意图)。你会看到有一个小小的波导,当光在这个环形结构里共振时,它会控制波导的反射率,通过吸收或者透过来改变光的强度,从而把连续激光束转换成0和1,这就是其神奇之处。然后,光子集成芯片与电子集成芯片叠加在一起,再加上大量的微透镜,以及所谓的光纤阵列等多层技术——全部都是在台积电(TSMC)采用他们称作COUPE的制程里制造,并用3DCoWoS(或3DCoP类封装技术)来封装。我们携手众多技术伙伴一起研发了很多年,才打造出如此不可思议的器件。让我们看段视频来了解下这项技术的奇迹吧。
然后,这些器件会被做成交换机,比如我们的InfiniBand交换机。硅芯片的工作状况非常好。我们会在今年下半年(指2025下半年)出货这款硅光交换机;到明年下半年(指2026下半年)会出货整套Spectrum X解决方案。之所以能成功,是因为我们当初选择了MRM,也承担了过去五年里的巨大技术风险,提交了数百项专利,还将这些专利授权给我们的合作伙伴来共同生产。如今,我们就有能力把硅光和共封装技术集成在一起,直接把光纤插进交换机里,而无需传统收发器模块。这样,每台交换机就能做到512个端口,这在其他方式下几乎不可能实现。
因此,这为我们扩展到十几万块乃至上百万块GPU奠定了基础。你们可以想象一下,在一个数据中心里,我们能节省几十兆瓦的能耗。比如说,你可以省下60兆瓦,这相当于10个Rubin Ultra机架(每个6兆瓦),或者更多(如果一个Rubin Ultra机架是600kW,则60兆瓦就是100个机架的电力)。我们就能把这些电能重新投入到Rubin超级计算机本身。
这就是我们的完整路线图:每年一次,每年都会带来一次新架构,两年一个大的产品线迭代,每次都实现数量级的提升。我们会分步承担硅片、网络、机箱等方面的风险,从而推动整个行业不断前进,朝着这些不可思议的技术迈进。
至于名字,“Vera Rubin”用于下一代架构,向发现暗物质的Vera Rubin致敬。她非常了不起,我还要感谢她的孙子孙女们也在现场,见证我们对她的崇高敬意。再下一代,我们会以“Feynman”来命名,NVIDIA的路线图就是这样。
非常重要的一点是:要把AI真正带给全球企业,我们需要回到英伟达的另一个方向。
让我们先回顾一下:AI与机器学习从根本上重塑了整个计算堆栈——处理器变了、操作系统变了、应用程序也变了,编排方式也不同,运行方式也不同。举个例子,过去我们检索数据是精确检索并读取自己想要的内容;将来,我们可能会像用Perplexity那样,直接问它一个问题,让AI帮你找答案。这也是未来企业IT的模式:我们会有很多“AI助手(AIagents)”,它们相当于我们的数字化劳动力。全世界有10亿知识工作者,而将来可能会有100亿数字工作者与我们并肩协作。全球约有3000万软件工程师,我敢肯定其中100%会在未来用AI辅助进行开发;到今年年底,我们英伟达自己所有的软件工程师也都将有AI助手。所以AI助手会无处不在,它们在企业里运行的方式也与现在完全不同,我们需要为其打造新的计算机形态。
看看这个:这就是未来PC的样子,拥有20petaFLOPs的算力,72核CPU,芯片间接口、HBM内存……还有一些PCIe插槽方便你插GeForce显卡(笑)。这款我们称作DGX Station或DGX Spark;OEM厂商比如HP、Dell、Lenovo、华硕等都会推出这种产品,面向全球的数据科学家与研究人员。这是进入AI时代后,计算机应有的样子;未来的计算就会在这种机器上运行。我们也提供一整条产品线,从迷你机型到工作站再到服务器级、超级计算级,都会交由各大合作伙伴推出。
同时,我们还会彻底革新存储。回想一下,计算有三大支柱:计算、网络,再就是存储。既然网络升级成了Spectrum X,存储也要改头换面:从过去的“检索式”存储系统转向“语义式”存储系统,要能在后台不断地对数据进行“embedding”,将其转换成可用的知识。当你需要数据时,不再是“检索数据”,而是直接对数据发问,让AI帮你找到答案。Aaron和Box公司就把一个“超智能存储系统”放在了云上与我们合作,我很希望现场能有个视频,但我们没有。不过,未来每家企业都会拥有类似的“AI存储”。这将是企业存储的未来。
我们正在与存储领域的所有主要厂商——如DDN、Dell、HPE、Hitachi、IBM、NetApp、PureStorage、VAST、WDC——携手,把GPU加速(GPU-accelerated)第一次带到他们的存储系统里。那将是第一次你的存储系统也内置GPU加速。
有人觉得我幻灯片不够多,所以Michael给了我这一张。尽管我本来就有很多PPT,但这张确实不错:它一张图就展示了Dell将如何提供一系列英伟达企业级IT+AI基础设施系统,以及在其上运行的所有软件。你可以看到,我们正在推动全球企业IT的大变革。
12
“机器人(Robotics)”
我们来聊一下机器人吧。现在真的是机器人的时代了。机器人能与物理世界交互,执行纯数字世界无法实现的工作。众所周知,劳动力严重短缺。据估计,到本世纪20年代末,全球会短缺至少5000万名工人。我们很乐意给他们每人5万美元的年薪,但现实里并没有这么多劳动力,所以有可能要给“机器人”付5万美元/年的租金或使用费(笑)。这将是一个非常庞大的市场。
所有在移动的东西都将变得自主化。全球有成千上万家工厂、数以亿计的摄像头、仓库、无人车辆,汽车本身也是一个机器人。现在我们还在研发通用机器人。我给你们放段视频,展示我们的做法。
“物理AI和机器人正在飞速发展,可能会成为规模最大的产业。一切的核心挑战跟之前类似:数据从哪来、模型架构是什么、以及如何做扩展(scaling)。在机器人领域,我们同样需要能大量生成或获取数据,需要强大的计算来训练模型,同时还得有能让AI越训越强的扩展性。英伟达为此打造了‘Omniverse’这一物理AI的‘操作系统(OS)’,已谈了很多年。今天再补充两项新技术:
-
1、‘Cosmos’——把Omniverse与一种能够理解物理世界的生成式模型结合起来。Omniverse控制场景中的机器人和环境,Cosmos则能生成无穷无尽的虚拟环境。你可以看到,我们在Omniverse里通过示意颜色来精确控制场景,而Cosmos不断变化虚拟世界,让数据既能‘有锚点’又能‘无限丰富’。
-
2、正如我们之前提到的,大型语言模型能快速提升的关键在于‘可验证的强化学习)’。机器人世界里这种‘可验证的奖励’就来自物理定律。所以我们需要一款极其强大的物理引擎。以往的物理引擎可能偏向大型机械或游戏,但要训练机器人的精细操作、触觉反馈、动力学控制,就需要GPU加速、超实时(superreal-time)模拟,还要与机器人开发者常用的‘Mujoco’或类似框架无缝整合。因此,我们宣布一件非常特别的事:由三家企业——DeepMind、Disney Research和Nvidia——共同合作,推出一个叫做Newton的东西。让我们看看Newton吧。”
再发布一个好消息:GrootN1开源
正如我所说,我们机器人相关的进展巨大。今天宣布,GrootN1现在是开源的!
我想感谢各位来到GTC。让我们做个总结吧:
-
1、Blackwell已全面量产,需求极其旺盛,原因也很明显——AI迎来一个拐点,尤其是“推理”方面对算力需求激增,并且要训练会推理、能自主规划的“agentic AI”。
-
2、Blackwell+NVLink72+Dynamo提供的AI工厂性能比Hopper提高了40倍。而在未来十年,推理(inference)将成为最重要的负载之一,我们会把AI规模继续扩大。
-
3、我们公布了年度迭代的产品路线图,好让你们能规划自己的AI基础设施。
-
4、我们构建了三条AI基础设施线:一条给云,一条给企业,一条给机器人。


书享界保留所有权 |书享界 » 黄仁勋GTC 2025年度技术大会演讲全文