华为管理培训
数字化转型培训

黄仁勋:NVIDIA的重塑之路,从芯片到AI基础设施

640 (4)

版权声明

来源:数字开物(kj-quan),书享界(readsharecn)

作者:黄仁勋,NVIDIA公司创始人兼CEO

导语

5月19日上午,英伟达CEO黄仁勋在COMPUTEX 2025发表主题演讲。黄仁勋指出,英伟达已从一家芯片公司成长为一家AI基础设施公司,其发布的路线图对于全球数据中心的规划至关重要。他预言,AI将无处不在,AI基础设施将如同电力和互联网一样成为必需品,而今天的数据中心正在演变成“AI工厂”。活动现场,黄仁勋还发布了一系列重磅产品、技术更新及战略合作。以下是本次主题演讲实录:

1

NVIDIA的重塑之路:从芯片到AI基础设施

 

黄仁勋:NVIDIA的故事,是计算机产业的重塑史。事实上,NVIDIA的故事也是我们公司的重塑史。正如我所说,我来这里已有30年。在座的许多朋友都听过我多次主题演讲,有些人甚至一场不落。当你们回想起我们之间的交流,回想过去30年我们所探讨的内容,就会明白我们经历了多么巨大的变革。我们最初是一家芯片公司,目标是创建一个全新的计算平台。2006年,我们推出了CUDA,它彻底改变了计算的实现方式。

 

十年后的2016年,我们意识到一种全新的计算方法已经出现。这种新方法要求对技术栈的每一层都进行彻底重塑。处理器是新的,软件栈是新的,系统理应也是新的。因此,我们发明了一种全新的系统。这个新系统,当我在2016年的GTC 上宣布它时,没有人理解我在讲什么,也没有人给我下采购订单。这个系统就是DGX-1。我将第一台DGX-1捐赠给了名为OpenAI的非营利组织,由此开启了AI革命。

 

多年后我们认识到,事实上,这种如今被称为AI的全新软件开发与运行方式,与传统的软件运行模式截然不同。传统模式下,许多应用程序在大型数据中心的少数处理器上运行,我们称之为超大规模计算。而这种新型应用则需要众多处理器协同工作,为数百万人提供查询服务。因此,这种数据中心的架构也必须从根本上改变。我们意识到存在两种类型的网络:一种是南北向网络,因为你仍需控制存储、仍需控制平面、仍需连接外部世界;但更重要的网络将是东西向网络,即计算机之间为了协同解决问题而进行的通信。我们发现,在东西向流量、高性能计算以及大规模分布式处理领域,有一家最顶尖的网络公司,它对我们公司至关重要,与我们心意相通——这家公司就是Mellanox。我们在五年前,也就是2019年,收购了Mellanox。我们将整个数据中心转变为一个单一的计算单元。大家之前听我说过:现代计算机就是整个数据中心。数据中心即计算单元,不再仅仅是一台个人电脑,也不再仅仅是一台服务器,整个数据中心都在运行同一个任务。操作系统也随之改变。NVIDIA的数据中心发展之路如今已是众所周知。

 

过去三年,你们已经见证了我们正在逐步成形的一些理念,以及我们如何开始以全新的视角审视我们的公司。历史上,没有任何一家公司,当然,也没有任何一家科技公司会一次性公开长达五年的发展路线图。没人会告诉你接下来会推出什么,这通常是高度机密的商业秘密。然而,我们意识到NVIDIA不再仅仅是一家技术公司,事实上,我们是一家不可或缺的基础设施公司。倘若你不了解我未来要打造什么,你又如何能规划你的基础设施——你的土地、你的厂房、你的电力供应以及全球范围内所有必要的融资呢?因此,我们相当详尽地阐述了我们公司的路线图,其详细程度足以让全球各地的人们都能据此着手建设数据中心。

 

我们现在认识到,我们是一家AI基础设施公司,一家对全世界而言都至关重要的基础设施公司。每个区域、每个行业、每家公司都将构建这样的基础设施。这种新型基础设施,如同电力或互联网基础设施一样,是一种智能基础设施。我知道,现在当我们说“智能基础设施”时,听起来可能有些费解。但我向你们保证,十年之后再回首,你们会发现AI已经融入万事万物。事实上,我们处处都需要AI。每个区域、每个行业、每家公司,都需要AI。AI如今已成为基础设施的一部分。而这种基础设施,就像互联网、像电力一样,需要“工厂”来生产。这些工厂,本质上就是我们今天正在建造的东西。它们不再是过去那种耗资万亿美元,为我们所有ERP系统和员工提供信息与存储的数据中心——那是旧时代的数据中心。

 

现在的AI数据中心,虽然与过去的数据中心同出一源,都来自我们这个行业,但它将演变成一种截然不同、与传统数据中心完全分离的存在。这些所谓的AI数据中心,更准确地说,其实是“AI工厂”。你向其中输入能源,它就能产出极具价值的东西——这些东西就是Token。如今,许多公司已经开始讨论他们上一季度、上个月生产了多少Token。很快,我们将会讨论每小时能生产多少Token,就像任何一座实体工厂一样。世界因此发生了根本性的改变。我们公司刚成立的1993年,我曾试图估算我们的市场机会有多大,当时的结论是NVIDIA的商机非常可观——3亿美元!我们当时觉得要发财了。从一个3亿美元的芯片产业,发展到一个约万亿美元的数据中心市场机遇,再到如今一个以数万亿美元计的AI工厂和AI基础设施产业。这就是我们正在开创的激动人心的未来。

 

2

英伟达的核心竞争力在于算法和CUDA-X函数库的融合

 

黄仁勋:我们所做的一切,其核心都根植于几项关键技术。当然,我经常谈论加速计算,也经常谈论AI。但NVIDIA的真正独特之处,在于这些能力的融合。尤其重要的是算法和库——我们称之为CUDA-X库。我们总是在谈论库。事实上,我们是全球唯一一家持续不断谈论库的科技公司。原因很简单,因为库是我们一切工作的核心,是一切的起点。今天,我将向大家展示一些新的库。但在那之前,请允许我先预告一下今天要分享的内容。你们接下来将看到的一切,全都是关于模拟、科学和AI。这里没有艺术创作,全都是模拟——只是它们恰巧非常精美。让我们一起来看。

 

(视频播放高级模拟、机器人技术、城市规划、医学成像等视觉内容)

 

 

黄仁勋:我现在站在实时计算机图形面前。这不是一段视频,这是计算机图形,由 GeForce 生成。这是一块全新的GeForce 5060,RTX 5060。这块显卡来自华硕,而这块,来自MSI。我们把这款性能卓绝的GPU成功地缩小并置入了这里。你们能想象吗?看,这简直不可思议!所以,这台就是MSI的新款笔记本电脑,搭载了5060显卡。

 

GeForce将CUDA带给了全世界。现在,你们所看到的画面,每一个像素都经过了光线追踪。我们是如何能够模拟光子,并以如此高的分辨率实现这样的帧率的呢?答案就是AI。我们实际上只渲染了十分之一的像素。也就是说,你们看到的每一个像素,只有十分之一是真实计算生成的,其余十分之九,都是AI“猜”出来的。是不是很神奇?而且效果堪称完美,完全看不出破绽,AI猜得非常准。当然,这项技术就是DLSS (深度学习超级采样),一种神经渲染技术。我们为此投入了多年的研发时间。从我们开始涉足AI领域的那一刻起,我们就着手开发DLSS,这趟旅程已经持续了十年。AI彻底革新了CG的进展。GeForce将AI带给了世界,而今,AI又反过来革新了GeForce。女士们先生们,这就是GeForce!

 

640 (2)

 

你们知道,作为CEO,你会拥有很多“孩子”。GeForce就是引领我们走到今天的那个“孩子”。如今,我们主题演讲的内容90%都不是关于GeForce的了。但这并非因为我们不再珍爱GeForce。恰恰相反,GeForce RTX 50系列刚刚完成了有史以来最为成功的发布,也是我们历史上销售速度最快的一次发布。PC游戏产业如今已有30年历史,这足以说明GeForce是多么的不可思议。

 

我们来讨论一下函数库。核心在于,一切都始于CUDA。通过使CUDA尽可能高性能、尽可能普及,以确保其安装基础遍布全球,应用程序就能轻易找到CUDA图形处理器。安装基础越庞大,就有越多的开发者愿意创建函数库。函数库越多,就能完成越令人赞叹的任务,应用程序就越出色,用户获得的益处就越多,他们就会购买更多的计算机。计算机越多,CUDA的应用就越广。这种反馈路径至关重要。

 

然而,加速计算并非通用计算。通用计算,指的是编写软件,大家使用Python、C或C++等语言编写,然后进行编译。通用计算的方法论是贯穿始终的:编写应用程序,编译应用程序,然后在中央处理器上运行。然而,这套方法在加速计算中从根本上是行不通的,因为如果行得通,那它就会被称为中央处理器了。若中央处理器无需改变,就能满足编写软件、编译软件并在其上运行的需求,那么加速计算的意义何在呢?因此,必须采取不同的方法,这实际上是合乎情理的。

 

原因在于,无数的科研人员和工程师投入到通用计算领域,带来了数万亿美元的创新。仅仅依靠芯片内部的几个小型组件,怎么可能突然让计算机速度提升50倍、100倍呢?这不合逻辑。因此,我们所应用的逻辑是:更深入地理解应用程序的特性,就能对其进行加速。如果能创建一个更适合加速的架构,使其99%的运行时都以接近光速运行——即便这部分只占代码量的5% (这本身就非常令人惊讶),就能有效加速应用程序。在大多数应用程序中,代码中极小的一部分却消耗了绝大部分的运行时。我们观察到了这一点,因此我们开始逐个攻克不同的领域。

 

640 (3)

 

例如前面展示的计算机图形学。我们还有数值计算领域的库,例如cuNumeric。cuNumeric是目前最普及的数值计算库。接下来是Ariel和Shona。Ariel是全球首个用于5G和6G的GPU加速无线电信号处理库。一旦我们将其实现软件定义,就可以在其之上叠加AI。这样,我们就能将AI技术引入5G和6G网络。Parabricks用于基因组学分析,MONAI用于医学成像,Earth-2用于天气预测,cuQuantum用于量子经典混合计算机架构和计算机系统。cuEquivariance和cuTensor用于张量数学中的张量收缩运算。

 

Megatron,以及这里展示的完整系列,包含了我们所有的深度学习库以及进行深度学习训练和推理所必需的全部函数库。这彻底改变了计算领域,而这一切都源于这些函数库的积累。不仅仅是CUDA,还有cuDNN,在cuDNN之上是Megatron,接着是TensorRT-LLM,以及近期发布的,专为大型AI工厂设计的全新操作系统Dynamo。cuDF用于处理数据帧,类似于Spark和SQL,它同样可以加速结构化数据的处理。cuML用于经典机器学习。Warp是一个用于描述CUDA内核的Python风格框架,取得了巨大的成功。

 

cuOpt用于数学运算和优化,例如解决旅行商问题,以及优化诸如供应链优化这类具有高度约束和大量变量的复杂问题。cuOpt取得了令人瞩目的成就,我对此感到非常兴奋。cuDSS和cuSparse用于稀疏结构模拟器,这些模拟器广泛应用于CAE (计算机辅助工程) 和CAD (计算机辅助设计)、流体动力学以及EDA (电子设计自动化) 和CAE行业。当然,还有cuLitho,这是计算光刻领域最重要的函数库之一。掩模制造过程通常耗时良久,可能轻易就需要一个月的时间,并且其计算量极为庞大。现在有了cuLitho,我们可以将计算速度提升50到70倍。这将为未来AI在光刻技术中的应用奠定坚实基础,开辟广阔前景。

 

我们拥有众多出色的合作伙伴。台积电正在广泛应用cuLitho。ASML和Synopsys也是我们在cuLitho项目上的重要合作伙伴。因此,正是这些函数库本身,使得我们能够在一个又一个应用领域、一个又一个科学领域、一个又一个物理领域中加速相关的应用程序。同时,这也为我们开拓了新的市场。

 

3

电信行业的AI转型与合作伙伴 

 

黄仁勋:我们关注特定的区域和市场,并认为这些领域对于向新型计算方式的转型至关重要。如果通用计算在经历了这么多年之后已经发展到了其瓶颈,为什么它没有在每一个行业都走到这一步呢?其中最重要的行业之一无疑是电信行业。正如全球的云数据中心现已实现软件定义一样,电信业也理应实现软件定义。这就是我们花费了大约六年时间来完善和优化一个完全加速的无线接入网络堆栈的原因。该堆栈在每兆瓦数据速率或每瓦数据速率方面展现出卓越的性能,目前已达到与最先进的专用集成电路相媲美的水平。一旦我们能够实现这一点,一旦我们能够达到这样的性能和功能水平,我们就可以在其之上叠加AI技术。

 

我们在这方面拥有强大的合作伙伴。可以看到,SoftBank和T-Mobile、Indosat以及Vodafone正在进行相关试验。Nokia、Samsung、Kyocera正与我们合作开发完整的技术堆栈。Fujitsu和Cisco则致力于系统层面的工作。因此,我们现在有能力将AI on 5G或AI on 6G的理念,与计算中的AI的理念一同推广。

 

4

AI的演进:从感知到物理AI与机器人

 

黄仁勋:AI。十二年前,我们的起点是感知。当时的AI模型能够理解模式、识别语音、识别图像。这仅仅是开端。在过去的五年里,我们一直在探讨生成式AI。这指的是AI不仅具备理解能力,还具备生成内容的能力。因此,它可以实现从文本到文本的转换,我们在ChatGPT中就经常使用这项功能。它还能进行文本到图像、文本到视频、视频到文本、图像到文本的转换。几乎可以实现任何事物到任何事物的转换,这正是AI令人惊叹之处:我们发现了一种通用函数逼近器和一种通用翻译器。只要我们能够对其进行Token化处理,将信息表示为比特流,它就能够将任何事物翻译成其他任何事物。

 

目前,我们已经达到了一个至关重要的AI发展阶段。生成式AI为我们带来了单样本AI的能力。你给它一段文本,它就能返回相应的文本。这是两年前我们初次接触ChatGPT时所体验到的巨大突破。你输入文本,它就返回文本。它能预测下一个词,预测下一个段落。然而,智能的内涵远不止于从大量研习过的数据中学习到的知识。智能包含推理的能力,即解决前所未见问题的能力,逐步分解问题的能力,甚至可能应用某些规则和定理来解决从未遇到的问题,以及模拟多种选项并权衡其利弊的能力。

 

大家可能听说过一些相关的技术,例如思维链,它指的是逐步分解问题;还有思维树,它指的是探索多种可能的解决路径。所有这些技术都在增强AI的推理能力。现在,令人赞叹的是,一旦AI具备了推理能力和感知能力——例如,多模态感知能力,能够阅读PDF文档,能够执行搜索,能够使用工具——那么你就拥有了Agentic AI 。

 

这种Agentic AI 所做的,正是我刚才描述的我们人类的普遍行为:我们接受一个目标,然后逐步分解它,我们推理该做什么、最佳方案是什么,我们考量其后果,然后开始执行计划。该计划可能包括进行研究,可能包括执行某些工作、使用某些工具,也可能包括联系另一个AI Agent进行协作。Agentic AI 的核心在于:理解、思考和行动。而理解、思考和行动,正是机器人学中的控制回路。Agentic AI 本质上是数字形态的机器人。这些技术在未来几年将变得极为重要。我们正在这一领域见证巨大的进展。

 

在此之后的下一波浪潮是物理AI,即能够理解物理世界的AI。它们理解诸如惯性、摩擦力、因果关系等概念。例如,如果我滚动一个球,球滚到汽车底下,根据球的速度,它很可能滚到了汽车的另一边,但球并没有消失——这就是对象持久性。你或许能够推理出,如果面前有一张桌子,而你必须到另一边去,最佳方法不是直接穿过它,而是选择绕过去或从下面通过。对这些物理现象进行推理的能力,对于AI的下一个时代至关重要。我们称之为物理AI。

 

因此,在这个特定的案例中,大家可以看到我们仅仅通过提示AI,它就能生成视频,用于在不同场景下训练自动驾驶汽车——稍后我会展示更多相关内容。例如,最初的指令是“生成一只狗”,然后是“生成一只带鸟的狗”,再之后是“生成包含人的狗的图像”。系统从左边的图像开始生成。

 

接下来,在这一阶段之后,我们将推理系统、生成式系统和物理AI的能力相结合。这种综合能力将被赋予物理实体,我们称之为机器人。如果你能想象可以通过提示AI来生成一个机器人伸手拿起瓶子的视频,那么你自然也能想象直接指令一个机器人伸出手去拿起那个瓶子。当今的AI技术已经具备实现这些复杂操作的能力。

 

5

Blackwell升级与GB300第三季度推出

 

黄仁勋:我们近期发展的方向,就是我们即将推出的这种计算机。我们为了实现AI的极速思考这一目标而正在构建的计算机,其特性与以往的产品截然不同。大约三年前,一款名为Hopper的革命性计算机问世,它彻底改变了我们所熟知的AI,并可能成为了世界上最受欢迎、也最广为人知的计算机。

 

在过去几年中,我们一直致力于研发一款新型计算机,以使我们能够实现推理时间扩展,或者通俗地说,就是实现极快速的思考。因为当你在思考时,你的头脑中会生成大量的tokens,可以说,你会产生大量的想法,并在你的大脑中进行迭代,然后才能得出答案。因此,过去的“一次性”AI现在将转变为思考型AI、推理型AI、具备推理时间扩展能力的AI。这将需要更多的算力。

 

为此,我们创造了一个名为Grace Blackwell的新系统。Grace Blackwell实现了几个关键功能。它具备向上扩展的能力。向上扩展意味着将一台计算机变成一台巨型计算机。向外扩展则是指将多台计算机连接起来,让工作在许多不同的计算机上协同完成。向外扩展相对容易,而向上扩展则极其困难。构建超越半导体物理极限的更大型计算机,是一项极具挑战性的任务。Grace Blackwell正是为此而生,它突破了几乎所有的限制。

 

在座的各位中,有许多合作伙伴正与我们共同构建Grace Blackwell系统。我非常高兴地宣布,我们正在全面投入生产,但同时,我们也可以说,这个过程充满了巨大的挑战。尽管基于HGX的Blackwell系统自去年年底就已全面投产,并从今年二月开始供货,但我们现在才开始陆续让所有的Grace Blackwell系统上线。它们每天都在世界各地不断上线。CoreWeave平台搭载该系统也已有数周时间,许多云服务提供商也已开始使用。现在,你正开始看到它在各处涌现。大家都在社交媒体上宣布Grace Blackwell已投入生产。

 

正如我所承诺的,在今年第三季度,我们将一如既往地逐年提升我们平台的性能,每一年都如同精准的节拍。今年第三季度,我们将升级到Grace Blackwell GB300。GB300将会提升性能,它采用相同的架构、相同的物理尺寸、相同的电气和机械设计,但内部的芯片进行了升级。它升级到了全新的Blackwell芯片,其推理性能提升了1.5倍,高带宽内存 (HBM) 增加了1.5倍,网络带宽增加了两倍。因此,整体系统性能得到了提升。

 

接下来,让我们深入探究Grace Blackwell的内部构造。Grace Blackwell系统始于其计算节点。眼前的这个便是其中一个计算节点。这是上一代产品B200的形态,而这则是B300的形态。请注意其中心部分,现在已完全采用100%液冷设计,但其他外部接口和尺寸均保持不变,因此可以直接插入现有的相同系统和机箱中。

 

这就是Grace Blackwell GB300系统。其推理性能相较之前提升了1.5倍。训练性能基本持平,但推理性能实现了1.5倍的增长。我们眼前的这个特定系统,其算力高达40 petaflops,这大致相当于2018年Sierra超级计算机的整体性能——要知道,Sierra超级计算机配备了18,000个Volta GPU。而如今,仅这一个节点便足以取代那整台超级计算机。短短六年间,性能提升了惊人的4,000倍!这正是极致的摩尔定律的体现。

 

请记住,我先前曾提及,NVIDIA大约每十年就能将AI计算性能提升约一百万倍。我们目前依然稳健地行进在这条发展轨迹上。

 

但要实现如此巨大的性能飞跃,仅靠提升单一芯片的速度是远远不够的。芯片的速度和尺寸都存在其固有的物理极限。以Blackwell为例,我们甚至需要将两块芯片连接在一起协同工作。TSMC与我们紧密合作,共同发明了一种名为CoWoS-L的新型CoWoS工艺,这才使得制造这种巨型芯片成为现实。

 

然而,我们对芯片尺寸和性能的追求永无止境,因此,我们必须创造出名为NVLink的技术。这是目前世界上最快的交换机。大家看到的这个NVLink,其传输速率高达每秒7.2太字节 (TB/s)。在一个标准机架中,会装配九个这样的交换机。

 

而这九个交换机,则是通过一项堪称工程奇迹的技术——我手中这个相当有分量的部件,NVLink Spine——连接起来。它看起来轻巧,实则重达近70磅。这便是NVLink Spine。它内部集成了长达2英里的电缆,包含5000根结构化同轴电缆,均经过了精密的阻抗匹配。它将全部72个GPU与另外72个GPU通过这个称作NVLink Switch的网络紧密相连。

 

NVLink Spine的总带宽高达每秒130太字节。这是什么概念呢?作为参考,整个互联网的峰值流量大约是每秒900太比特。将其除以八转换为字节,一个NVLink Spine传输的数据量便已超越整个互联网的峰值流量。通过一个NVLink Spine连接这九个NVLink交换机,可以确保每一个GPU都能同时与其他任何一个GPU高效通信。这便是GB200系统设计的奇迹所在。

 

此外,由于SerDes的信号驱动距离存在物理限制——这已是SerDes技术所能达到的最远驱动距离——从芯片到交换机,再到Spine,乃至连接到任何其他交换机和芯片,全程均采用电气连接。这一限制,也使得我们将所有关键组件都高度集成在同一个机架之内。而这样一个机架的功耗高达120千瓦,这也是为何所有部件都必须采用液冷技术的原因。

 

我们现在已经成功地将GPU从传统意义上的单个主板中“解放”出来,使其能够扩展至整个机架,可以说,整个机架构成了一个巨大的“主板”。这本身就是一项奇迹。这种完全的分解式设计,使得GPU的性能、内存容量以及网络带宽都达到了前所未有的水平。基于此,我们才能够真正实现大规模的向外扩展。一旦完成了单个节点的向上扩展,我们就能继而将其向外扩展,构建出强大的大型系统。

 

大家会注意到,NVIDIA构建的几乎所有产品都具有庞大的规模。其根本原因在于,我们并非仅仅在构建传统的数据中心和服务器,我们致力于打造的是AI工厂。以CoreWeave和Oracle Cloud为例,这些设施中的机架功率密度极高,以至于必须将它们间隔得更开,以便有效分散和管理巨大的能量密度。但核心理念是,我们建造的是AI工厂,而非传统数据中心。

 

例如,XAI公司的Colossus工厂,以及Stargate项目——一个占地400万平方英尺、功率需求高达1千兆瓦 (GW) 的宏伟工程。试想一下,这样一个1千兆瓦的AI工厂,其总投资规模可能高达600亿至800亿美元。在这巨额投资中,构成计算核心的电子设备和系统本身,就可能占据400亿至500亿美元。因此,这些都是名副其实的巨型工厂级投资。

 

640 (4)

 

人们之所以斥巨资建造工厂,是因为深谙一个朴素的商业逻辑——正如大家所熟知的:买得越多,你制造的就越多,从而你赚取的利润也就越多。这便是工厂经济学的核心所在。

 

这项技术是如此的复杂。事实上,仅仅通过肉眼观察,大家仍然难以完全领会我们所有合作伙伴以及在座的中国台湾企业同仁们所完成的这项杰出工作背后蕴含的巨大努力。因此,我们特地为大家制作了一段影片。

 

视频:

Blackwell堪称一项工程奇迹。它的制造始于TSMC提供的一块空白硅晶圆。经过数百道精密的芯片处理和紫外光刻工序,在12英寸的晶圆之上,逐层构建起多达2000亿个晶体管。

随后,这片晶圆被精密切割成独立的Blackwell芯片裸片,每一个裸片都经过严格的测试和分选,确保只有合格品才能进入下一制造环节。接下来是芯片晶圆基板封装 (CoWoS) 工艺,这一关键步骤由TSMC、SPIL和Amkor协同完成。在此过程中,32个Blackwell裸片和128个HBM堆栈被精密地贴装到一块定制的硅中介层晶圆之上。

金属互连走线直接蚀刻在这块中介层上,负责将Blackwell GPU和HBM堆栈连接到每一个系统级封装单元之中,从而将所有核心部件牢固地集成为一体。之后,整个组件还要经过烘烤、模制和固化等一系列复杂处理,最终才能锻造出强大的Blackwell B200超级芯片。

在KYEC公司,每一颗Blackwell芯片都必须在125摄氏度的高温烤箱中,经受长达数小时的极限压力测试,以确保其在严苛条件下的稳定性和可靠性。画面转到富士康,在这里,高度自动化的机器人正夜以继日地工作,将超过一万个不同的组件精准无误地拾取并贴装到Grace Blackwell的印制电路板 (PCB) 之上。

与此同时,其他成千上万的零部件也正在全球各地的专业工厂中紧张有序地生产和准备。例如,来自Cooler Master、AVC、Auras和Delta的定制化液冷铜块,它们的作用是确保芯片在运行时能始终保持在最佳温度范围。在富士康的另一处高度现代化厂区,ConnectX-7 SuperNICs正在被制造出来,它们为系统提供了大规模横向扩展通信的能力;而BlueField-3 DPU则专门用于高效卸载并加速网络、存储以及安全相关的计算任务。

所有这些来自全球各地的精密部件,最终会汇聚一处,被技术娴熟的工程师们小心翼翼地集成到GB200计算托盘之中。NVLink是NVIDIA发明的一项革命性高速互连技术,它能够将多个GPU紧密连接起来,并将其向上扩展成为一个统一的、巨大的虚拟GPU。

NVLink交换机托盘由NVLink交换芯片构成,可提供高达每秒14.4太字节(TB/s)的全互联带宽。而NVLink Spines则构成了一个定制化的盲插背板,其内部集成了5,000根特制铜缆,总共能提供高达每秒130太字节的全互联带宽。正是通过这种精巧的设计,所有72个Blackwell芯片 (即144个GPU裸片) 才得以高效协同,共同构成一个性能无与伦比的巨型GPU。

来自世界各地的零部件,包括富士康、纬创、广达、戴尔、ASUS、GIGABYTE、HPE、Supermicro以及众多其他重要合作伙伴提供的组件,纷纷运抵指定的组装中心。在这里,它们将被经验丰富的技术人员精密组装,最终形成一台完整的机柜级AI超级计算机。

这样一台超级计算机,总共包含约120万个独立组件,内部铺设了长达2英里的铜质线缆,集成了惊人的130万亿个晶体管,其总重量更是高达1800公斤。从在晶圆上蚀刻的第一个微小晶体管,到固定Blackwell机架的最后一颗坚固螺栓,每一个环节、每一步骤,都深深凝聚了我们所有合作伙伴的无私奉献、顶尖精度和卓越工艺。

因此,Blackwell并不仅仅是一项单纯的技术奇迹,它更是对整个中国台湾地区卓越技术生态系统实力的一次辉煌证明与礼赞。

我们为能共同取得如此辉煌的成就而感到无比自豪。谢谢你,中国台湾

 

谢谢。谢谢大家。那真是太不可思议了,对吧?但这是你们的功劳。这是你们的功劳。谢谢大家。

 

6

与富士康、TSMC等合作,为中国台湾打造首台巨型AI超级计算机

 

黄仁勋:中国台湾不仅仅为世界建造超级计算机。今天,我非常高兴地宣布,我们也在为中国台湾构建AI。因此,今天我们宣布与富士康、中国台湾政府、NVIDIA、TSMC携手为中国台湾的AI基础设施和AI生态系统打造第一台巨型AI超级计算机。谢谢大家。现场有谁需要AI计算机吗?观众席中有没有AI研究人员?每一位学生、每一位研究员、每一位科学家、每一家初创公司、每一家大型成熟企业,TSMC他们自身就已经在进行海量的AI和科学研究。而富士康在机器人技术领域也投入了巨大的努力。我知道观众席中还有许多其他公司,我稍后会逐一提到,他们也正在进行机器人研究和AI研究。因此,在中国台湾拥有世界一流的AI基础设施确实至关重要。

 

所有这一切的努力,都是为了让我们能够制造出一款超大规模的芯片。而NVLink技术和这一代的Blackwell架构,使我们得以创造出这些令人难以置信的系统。这里展示的是来自和硕 (Pegatron)、广达电脑 (QCT)、纬创 (Wistron) 和纬颖 (Wiwynn) 的产品。这一款则来自富士康 (Foxconn)、技嘉 (Gigabyte) 和华硕 (ASUS)。大家可以看到它的正面和背面。它唯一的目标,就是将这些Blackwell芯片——大家可以看到它们有多么巨大——整合成为一个单一的、巨型芯片。当然,实现这一目标的能力,是由NVLink技术所赋予的。但这远不足以体现其系统架构的复杂性、将所有组件无缝连接的丰富软件生态系统,以及由150家公司共同构建的整个生态系统。这个架构以及相关的技术、软件和整个产业生态,是我们三年心血的结晶。这是一项巨大的产业投资。现在,我们希望让任何人,任何想要构建数据中心的人,都能轻松实现这一目标。它可以是大量的NVIDIA GB200或300s,以及来自NVIDIA的加速计算系统。它也可以是其他厂商的解决方案。

 

7

定制芯片加强,NVLink添加到技术组合中供第三方使用

 

因此,今天,我们要宣布一项非常特别的技术:NVIDIA NVLink Fusion。NVLink Fusion的目标是让您能够构建半定制的AI基础设施。这不仅仅是指半定制芯片,因为那已成为过去。您现在想要构建的是AI基础设施,而每个人的AI基础设施都可能有所不同。有些人可能需要更多的CPU,另一些人可能需要更多的NVIDIA GPU,还有些人可能采用某家厂商的半定制ASIC。构建这些系统的难度极高。它们都缺少一个关键的、令人难以置信的组成部分——NVLink。NVLink技术能够让您扩展这些半定制系统,并构建出真正强大的计算机。

 

640 (5)

 

所以今天,我们正式宣布推出NVLink Fusion。NVLink Fusion的工作原理大致如下:这是一个纯NVIDIA平台,100%采用NVIDIA组件。您拥有NVIDIA CPU、NVIDIA GPU、NVLink交换机、来自NVIDIA的网络解决方案、网卡、网络互连设备、交换机,以及整个系统——一个完全端到端构建的基础设施。当然,如果您愿意,也可以进行混合搭配。而今天,我们让您甚至可以在计算层面进行混合搭配。如果您使用定制的ASIC,就会这样做。我们拥有出色的合作伙伴 ,他们正与我们紧密合作,以集成您特有的TPU、特有的ASIC,或任何特有的加速器。它不必仅仅是一个Transformer加速器,它可以是任何您希望集成到大型可扩展系统中的加速器类型。

 

我们为此创造了一款NVLink小芯片。它本质上是一个紧贴在您芯片旁边的交换机。我们将提供相应的IP,以便集成到您的半定制ASIC中。一旦完成这些,它就能完美地装配到我之前提到的计算板卡中,并融入到我向大家展示的这个AI超级计算机的生态系统中。现在,或许您希望使用自己的CPU。您可能已经研发自己的CPU有一段时间了,也许您的CPU已经构建了一个非常庞大的生态系统,并且您希望将NVIDIA的技术集成到您的生态系统中。现在,我们使这成为可能。您可以通过构建自己的定制CPU来实现。我们为您的ASIC提供NVLink芯片到芯片接口。我们通过NVLink小芯片将其连接,然后它就能直接连接并紧密贴合到Blackwell芯片以及我们的下一代Rubin芯片上。而且,它再一次完美地融入了这个生态系统。这项令人难以置信的庞大工作成果,现在变得灵活和开放,可供所有人集成。因此,您的AI基础设施可以包含一些NVIDIA的组件,大量您自己的组件——是的,大量您自己的组件——以及大量的CPU、大量的ASIC,或许还有大量的NVIDIA GPU。

 

640 (6)

 

因此,在任何情况下,您都可以从使用NVLink基础设施和NVLink生态系统中获益,并且它与SpectrumX网络解决方案完美连接。所有这一切,都达到了工业级强度,并且拥有一个由众多已经实现这一切的工业合作伙伴组成的庞大生态系统的支持。所以,这就是NVLink Fusion。如果您完全从我们这里购买所有产品,那真是太棒了。没有什么比您购买NVIDIA的所有产品更让我感到高兴的了。我只是想让大家知道这一点。但如果您只从NVIDIA购买部分产品,这也会让我非常高兴。这是非常务实的。

 

因此,我们拥有一批优秀的合作伙伴。Elchip、Astera Labs、Marvell,以及我们的重要合作伙伴之一联发科,他们将与我们携手,共同服务那些希望构建此类系统的ASIC或半定制客户、超大规模数据中心运营商,或者希望构建此类系统的CPU供应商;这些合作伙伴将成为他们的半定制ASIC提供商。

 

此外,富士通和高通也正在构建集成NVLink的CPU,以便融入我们的生态系统。我们还与Cadence和Synopsys合作,将我们的IP转移给他们,以便他们能够与在座的各位合作,并将该IP应用于你们所有的芯片。所以,这个生态系统是令人难以置信的,但这仅仅突出了NVLink Fusion生态系统的重要性。一旦您与这些伙伴合作,您就能立即集成到整个更庞大的NVIDIA生态系统中,从而使您能够将系统扩展成为这些AI超级计算机。

 

8

面向开发者与个人的AI计算机:DGX Spark与DGX工作站

 

黄仁勋: 现在,请允许我介绍一些新的产品类别。如大家所知,我已经向各位展示了几种不同的计算机。然而,为了服务全球绝大多数的用户,我们产品线中仍有一些空白。接下来我将谈论这些。但在开始之前,我想向大家同步一个最新进展:事实上,我们称之为DGX Spark的这款新计算机已经全面投入生产。DGX Spark将很快准备就绪,预计几周内即可上市。我们有众多杰出的合作伙伴与我们并肩作战,包括戴尔、惠普、ASUS、MSI、GIGABYTE、联想——这些都是与我们合作的顶尖伙伴。这就是DGX Spark。这实际上是一台量产机型。这是我们的版本。这是我们的版本。然而,我们的合作伙伴们正在打造众多不同配置的版本。这款产品专为AI原生开发者设计。如果您是一位开发者、一名学生或研究员,不想每次都繁琐地启动云实例、进行配置,用完后还要费心清理——那么这款产品正适合您。您会希望拥有自己的,基本上就是一台专属于您的AI云,它就静候在您的手边,始终在线,随时待命。它能让您轻松进行原型设计和早期开发。这正是它的非凡之处。

 

640 (7)

 

它拥有1 petaflops的算力性能和128 GB的内存。回想2016年,当我交付第一代DGX-1时,这仅仅是它的一个前面板。我根本无法搬动整台计算机,它重达300磅。这就是DGX-1。它同样拥有1 petaflops的算力性能和128GB的内存。当然,DGX-1配备的是128GB的HBM内存,而DGX Spark配备的是128GB的LPDDR5X内存。两者的性能实际上非常接近。但最重要的是,您在这台DGX Spark上可以完成的工作,与您在DGX-1上可以完成的工作是完全相同的。这仅仅在大约十年间取得的成就,堪称令人难以置信。好了,这就是DGX Spark,献给每一位渴望拥有自己的AI超级计算机的人。至于价格,我会让我们所有的合作伙伴自行公布。但有一件事是确定的:每个人都能在圣诞节前拥有一台。

 

我还有另一台计算机想展示给大家。如果那台还不够满足您的需求,这里还有一台。这是另一款桌面级产品。戴尔和惠普、ASUS、GIGABYTE、MSI、联想也将提供这款产品。它还将由BOXX、Lambda这些卓越的工作站公司提供。这将是您专属的个人DGX超级计算机。这台计算机的性能,是您能从普通墙壁插座获得的极致。您可以把它放在厨房里——但仅仅是勉强。如果您把它放在厨房,然后有人恰好使用了微波炉,我想这就达到供电极限了。所以,这就是极限。这就是您能从墙壁插座获得的性能极限。这是一台DGX工作站。它的编程模型和我之前展示给大家的那些大型系统是完全相同的。这才是最了不起的地方:统一的架构。它拥有足够的容量和性能,足以运行一个包含1万亿参数的AI模型。请记住,Llama模型中,Llama 70B是一个拥有700亿参数的模型。一个1万亿参数的模型将在这台机器上完美运行。好的,这就是DGX工作站。

9

企业IT的AI重塑:RTX Pro、AI数据平台IQ与AI Ops

 

黄仁勋: 那么现在,让我们来谈谈,请记住,这些系统是AI原生的。它们是AI原生计算机。它们是为这个新一代软件而构建的计算机。它不必与x86架构兼容。它不必运行传统的IT软件。它不必运行虚拟机管理程序。它不必运行所有那些传统的组件,它不必运行Windows。这些计算机专为现代AI原生应用程序而设计。当然,这些AI应用程序可以是通过API被传统和经典应用程序调用的服务。但是,为了让我们能够将AI引入一个全新的领域——这个全新的领域就是企业IT——我们必须回归本源,我们必须彻底重塑计算,并将AI引入传统的企业计算之中。

 

现在,我们所了解的企业计算,实际上包含三个层面。它不仅仅是计算层。它是计算、存储和网络。始终是这三个方面:计算、存储和网络。正如AI已经深刻改变了一切,按理推断,AI也必然已经改变了企业IT的计算、存储和网络。那个底层的硬件基础设施必须被彻底重塑,而我们正在着手这项工作。我将向大家展示一些新产品,它们将为我们开辟道路,彻底释放企业IT的潜力。它必须与传统的IT行业协同工作,并且必须增添一种全新的能力。而企业所亟需的这种新能力,就是所谓的Agentic AI。这基本上是指:数字化的营销活动经理、数字化的研究员、数字化的软件工程师、数字化的客户服务代表、数字化的芯片设计师、数字化的供应链经理——也就是我们过去所从事的各种工作的数字化版本、AI版本。正如我之前提到的,Agentic AI拥有推理、使用工具以及与其他AI协作的能力。因此,在很多方面,这些都是数字化的工作者。它们是数字化的员工。当今世界正面临劳动力短缺的问题。我们缺乏足够的工人。预计到2030年,全球劳动力缺口将达到约3000万到5000万,这实际上限制了全球经济的增长潜力。因此,现在我们拥有了这些可以与我们协同工作的数字化AI Agent。

 

NVIDIA 100%的软件工程师现在都配备了数字化AI Agent与他们并肩工作,以帮助他们、协助他们更高效地开发出更优质的代码。所以在未来,你们将会看到这样一个层面——这是我们的愿景。你们将会看到一个由Agentic AI 构成的层面,AI Agent。那么,世界将会因此发生怎样的变化?企业又将发生怎样的变化?过去,我们为人类员工设立人力资源部;未来,IT部门将转变为数字员工的人力资源部。因此,我们必须为当今的IT行业、当今的IT从业者创造必要的工具,使他们能够有效地管理、改进和评估在他们公司内部辛勤工作的整个AI Agent家族。这就是我们致力于构建的愿景。但首先,我们必须重塑计算。请记住我之前所说的。企业IT系统大多运行在x86架构之上。它运行着各种传统软件,例如来自VMware、IBM Red Hat或Nutanix的虚拟机管理程序。它还运行着大量的经典应用程序。我们需要的是能够胜任同样工作的计算机,但同时要增加这种全新的能力——也就是增加这种被称为Agentic AI 的新能力。那么,让我们来具体了解一下。

 

640 (8)

 

好的,这便是全新的RTX Pro、RTX Pro企业版以及Omniverse服务器。这款服务器堪称万能。它当然配备了x86架构,能够运行所有传统的虚拟机管理程序。在这些虚拟机管理程序之上,它还能运行Kubernetes。因此,贵公司的IT部门管理网络、集群以及编排工作负载的方式将与以往完全一致。它甚至可以将Citrix等虚拟桌面串流到您的个人电脑。可以说,当今世界运行的任何应用,都应该能在这台服务器上运行。Omniverse在此也能完美运行。

 

但更重要的是,这款服务器是专为企业级AI Agent打造的。这些AI Agent可以是纯文本的,也可以是计算机图形化的——比如,可爱的虚拟助手“小TJ”或“小玩具Jensen”来到您身边,协助您完成工作。因此,这些AI Agent可以是文本形式、图形形式,或是视频形式。所有这些类型的工作负载,本系统均能支持。

 

无论采用何种模态,我们所知的全球每一款模型、每一款应用,都应能在这套系统上运行。事实上,就连《Crysis》这样的高要求游戏也能在此运行。好了,现场有GeForce游戏玩家吗?看来没有。非常好。连接这八颗GPU——即基于Blackwell架构的新款Blackwell RTX GPU,具体型号为RTX Pro 6000s——的是这款全新的主板。这款新主板实际上是一个交换式网络。CX8是一类全新的芯片,它首先是交换机,其次才是网络芯片。它同时也是全球最先进的网络芯片。CX8目前已进入量产阶段。您可以将GPU插入CX8,CX8芯片位于背板。这里通过PCI Express连接,CX8实现GPU间的通信。其网络带宽高达惊人的每秒800吉比特。这就是插入此处的收发器。因此,每一颗GPU都拥有独立的网络接口。所有GPU现在都能通过东西向流量与其他所有GPU进行通信,性能卓越。

 

现在,真正令人惊叹的部分来了,它的性能究竟有多么不可思议。这就是RTX Pro的性能表现。在GTC大会上,我曾向各位阐述过如何理解AI工厂环境下的性能。关键在于吞吐量,即Y轴所示的每秒Token输出量。您的AI工厂产出越高,生成的Token就越多。因此,吞吐量是以每秒Token数来衡量的。然而,并非所有AI模型都一样,有些AI模型需要更强的推理能力。对于这类AI模型,您需要极高的单用户性能,也就是说,每个用户每秒可获得的Token数量必须非常高。这正是传统工厂模式面临的难题:工厂往往要么追求高吞吐量,要么追求低延迟,却难以两者兼得。因此,我们面临的挑战在于如何构建一个操作系统,既能实现Y轴代表的高吞吐量,又能保证同样由Y轴体现的极低延迟,即交互性和每个用户每秒Token数。这张图表揭示了该计算机的整体性能,乃至整个AI工厂中计算机集群的综合性能。请看这些缤纷的色彩,它们代表了为达到理想性能,您需要对我们所有GPU进行的各种不同配置方式。有时需要流水线并行,有时则需要专家并行;有时需要批处理,有时需要进行推测解码,有时则不需要。所有这些不同类型的算法,都必须根据具体的工作负载进行独立和差异化的应用。而这条曲线的帕累托前沿,即外包络区域,代表了您AI工厂的综合能力。

 

请注意,Hopper,我们目前全球最著名的计算机Hopper H100,其HGX系统售价为225,000美元,在图表中的位置相对靠下。而我刚才介绍的Blackwell服务器,这款企业级服务器的性能是Hopper的1.7倍。但接下来这个更惊人:对于Llama 70B模型,以及DeepSeek R1模型,DeepSeek R1的性能提升达到了四倍。当然,其原因在于DeepSeek R1经过了专门优化。DeepSeek R1的出现,确实是赠予全球AI产业的一份厚礼。它在计算机科学领域取得的突破相当重大,极大地推动了美国乃至全世界研究人员的创新研究。无论我走到哪里,都能感受到DeepSeek R1对于人们如何思考AI、如何思考推理以及如何思考推理型AI都产生了深远影响。他们为整个行业乃至全世界做出了卓越贡献。因此,对于DeepSeek R1,其性能达到了目前顶尖H100的四倍。这样对比,大家就能更清楚地认识到它的强大之处了。

 

所以,如果您正在构建企业级AI ,我们现在为您准备了绝佳的服务器和系统。这是一台几乎无所不能的计算机,性能极其强大。无论是x86应用还是AI应用,它都能流畅运行。好的。我们的RTX Pro服务器,正由我们所有的行业合作伙伴进行大规模量产。这很可能是我们有史以来最大规模的一次产品上市行动。非常感谢各位。

 

计算平台已然不同,存储平台亦是如此。其原因在于,人类通常查询的是像SQL这样的结构化数据库,而AI则需要查询非结构化数据,它们追求的是语义理解和深层含义。因此,我们必须打造一种新型的存储平台,这便是NVIDIA AI数据平台。正如您所熟悉的,在传统的SQL服务器、SQL软件以及您合作的存储供应商提供的文件存储软件之上,都有一层极其复杂的配套软件。大多数存储公司,实际上主要是软件公司,其软件层的复杂性非常之高。因此,在新型存储系统之上,必然会有一个全新的查询系统。我们称之为IQ,即NVIDIA AI Q,简称IQ。这套系统绝对是业界顶尖水准,表现非常出色。我们正在与存储行业几乎所有的参与者展开合作。

 

640 (9)

 

未来的存储架构将不再是CPU架设在存储阵列之上,而是GPU置于存储阵列的核心。这是因为系统需要对原始的非结构化数据进行嵌入处理以发掘其意义,还需要执行索引、搜索和排序操作。整个过程是高度计算密集型的。因此,未来大多数存储服务器的前端都将配备一个计算单元,一个GPU计算节点。

 

这一切都基于我们创建的AI模型。我接下来要展示的几乎所有内容,都源于卓越的AI模型。我们投入大量精力与技术来创建AI模型,并对开放AI模型进行后训练。我们使用对您完全透明的数据来训练和后训练这些AI模型。这些数据安全可靠,完全合规,可放心用于训练。我们会提供相关数据清单供您查阅,确保整个过程的透明性。我们向您提供数据,对模型进行后训练,而经过我们后训练的模型,其性能表现令人难以置信。目前,可供下载的开源推理模型——LlamaNeMoTron推理模型,堪称全球最佳,下载量极为庞大。此外,我们还为其配备了一系列其他AI模型,使您能够实现我们称之为IQ的功能,特别是其中的检索部分。其速度比现有方案快15倍,查询结果的质量提升50%。

 

所有这些模型都已向您开放。IQ的蓝图是开源的。我们与存储行业紧密合作,将这些模型集成到他们的存储堆栈和AI平台之中。以VAST为例,这就是它的大致样貌。我不会深入细节,只是想让您对集成到他们平台中的AI模型有一个概念性的了解。接下来,让我们看看VAST所做的工作。

 

Agentic AI正在改变企业利用数据进行决策的方式。仅在三天内,VAST公司便利用NVIDIA IQ蓝图及其加速型AI数据平台,成功构建了一个销售研究AI Agent。该平台采用NeMo Retriever技术,能够持续地提取、嵌入并索引数据,以实现快速的语义搜索。其工作流程如下:首先,AI Agent会草拟一份概要。接着,它会接入客户关系管理系统、多模态知识库以及企业内部工具。最后,AI Agent利用LlamaNeMoTron模型将这份概要转化为详尽的、步骤化的销售计划。以往需要耗时数日的销售规划工作,如今仅需一个AI提示即可启动,并在短短几分钟内生成最终方案。借助VAST的加速型AI数据平台,企业有能力为每一位员工打造专属的专业化AI Agent。

 

好的,以上便是VAST的案例。Dell公司也拥有出色的AI平台,它是全球领先的存储供应商之一。Hitachi公司同样拥有强大的AI平台和AI数据平台。IBM正在与NVIDIA NeMo携手构建AI数据平台。NetApp也在积极打造其AI平台。如各位所见,所有这些方案都向您开放。如果您计划构建一个前端集成了语义查询AI的AI平台,那么NVIDIA NeMo无疑是全球最佳的选择。好了,至此,我们已经为您呈现了企业级的计算解决方案和企业级的存储解决方案。

 

接下来是一个全新的软件层面,我们称之为AI Ops。正如供应链有其运营管理,人力资源也有其运营管理一样,未来,IT部门也将拥有专属的AI Ops。AI Ops将负责管理数据、微调模型、评估模型、为模型设置护栏并确保其安全。我们拥有一整套必要的库和模型,以便无缝集成到AI Ops的生态系统之中。

 

我们拥有众多优秀的合作伙伴,他们协助我们将这些能力推向市场。CrowdStrike、DataIQ、DataRobot都与我们紧密合作。您可以看到,这些都是AI运营的核心环节,旨在为企业中的Agentic AI创建、微调并部署模型。NVIDIA的库和模型已深度整合到这些环节中。例如DataRobot,还有DataStax,以及Elastic——我听说Elastic的下载量达到了惊人的四千亿次。此外还有Nutanix、Red Hat,以及在中国台湾的Trend Micro——我想我早些时候还见到了Eva,嗨Eva!还有Weights & Biases。好的。基本上就是这样。这便是我们如何为全球的企业,为全球的企业IT赋予能力,让他们能够将AI融入到日常工作的方方面面。我们并非要取代企业IT组织中的一切,因为企业的正常运营必须得到保障。但我们完全可以将AI无缝地加入其中。现在,我们拥有了企业级的系统,以及由众多卓越的生态系统合作伙伴构成的强大后盾。我记得早些时候好像看到了Jeff,是的,伟大的Jeff Clark,他来中国台湾的年头和我差不多一样久,并且长期以来都是我们重要的合作伙伴。所以,有Jeff Clark以及我们其他的生态系统伙伴,如Dell等,他们会将这个平台、这些平台推广到全球的企业IT部门。

 

10

机器人新时代:Newton物理引擎、Isaac Groot与Cosmos

 

黄仁勋:好了,接下来让我们谈谈机器人。

 

所以,无论是Agentic AI,还是AI Agent——这些有许多不同称谓的“Agents”,其本质上都是数字机器人。原因在于,一个机器人具备感知、理解和规划的能力,这与Agents的核心功能如出一辙。

 

但我们的目标不止于此,我们还希望构建实体物理机器人。要实现物理机器人,首先要解决机器人学习自身行为能力的问题。然而,在物理世界中进行这种学习的效率并不高。因此,我们必须创建一个虚拟世界,机器人可以在这个虚拟环境中学习如何成为一个“优秀”的机器人。这个虚拟世界必须严格遵守物理定律。目前,大多数物理引擎尚不能高保真地处理复杂的刚体和柔体仿真。

 

鉴于此,我们与Google DeepMind以及Disney Research展开合作,共同打造了Newton——当今世界最先进的物理引擎。Newton将于今年七月开源。它的功能强大到令人难以置信:它完全由GPU加速;它是可微分的,这意味着机器人可以从经验中学习;它具备极高的高保真度;并且实现了超实时性能。

 

640 (10)

 

因此,我们可以利用Newton引擎,它已成功集成到MuJoCo以及NVIDIA自家的Isaac Sim平台中。这意味着,无论您采用何种仿真环境或框架,都能从中受益。借助于Newton,我们将能真正赋予这些机器人生命。

 

谁不渴望拥有这样的机器人呢?我当然想。你能想象一个或几个这样的小家伙在屋里跑来跑去,追着你的狗,让它们不得安宁吗?那么,你明白刚才演示的是什么了吗?那并非一段动画,而是一个模拟演示。机器人的软件是在模拟环境中运行的。所以,它不是预先制作的动画,而是实时模拟的。未来,我们会将训练好的人工智能 (AI) 模型植入到模拟环境中的机器人体内,让它自主学习如何成为一个出色的机器人。

 

我们正致力于多个项目以支持机器人产业的发展。如你所知,我们投身于自主系统领域已有相当长的时间。我们的自动驾驶汽车主要包含三个系统:首先是用于创建AI模型的系统,这正是GB200、GB300的用武之地,它们被用来训练AI模型;其次是用于模拟AI模型的Omniverse平台;最后,当你完成了AI模型的训练,便会将这个模型部署到自动驾驶汽车中。

 

今年,我们将与Mercedes合作,在全球范围内部署我们端到端的自动驾驶汽车技术栈。我们构建了这整套体系,并且我们推向市场的方式与我们在其他领域拓展业务的模式完全一致。我们创建完整的技术栈,并将其完全开放。我们的合作伙伴可以根据自身需求,自由选择使用其中的任何部分。他们可以选择只使用我们的计算机,而不使用我们的库;也可以选择同时使用我们的计算机、库以及我们的运行时。具体采用何种程度的方案,完全取决于合作伙伴,因为业界存在着众多拥有不同工程风格和技术能力的工程团队。我们致力于以一种尽可能便捷的方式提供我们的技术,以便每个人都能轻松地将NVIDIA的技术集成到他们的系统中。你知道,正如我常说的,我当然乐于你购买我们所有的产品,但即便只购买一部分,我也非常欢迎。这是非常务实的做法。

 

因此,在机器人系统领域,我们采取了与汽车领域完全相同的策略。这便是我们的Isaac Groot平台。其模拟环境与之前提到的一致,都是Omniverse。计算资源和训练系统也是相同的。当你完成了模型的训练,便可以将其部署到Isaac Groot平台中。Isaac Groot平台的核心是一块名为Jetson Thor的全新计算机,它最近刚投入生产。这是一款性能卓越的处理器,堪称专为机器人设计的处理器,可用于自动驾驶汽车和人形机器人系统。在此之上,是我们称之为NVIDIA Isaac的操作系统。NVIDIA Isaac操作系统扮演着运行时的角色,负责处理所有的神经网络运算、传感器处理流水线等任务,并最终输出执行器的控制结果。再往上,则是我们卓越的研究团队和顶尖的机器人团队预先训练好的模型。我们为此提供了所有必需的工具,包括模型本身。

 

因此,今天我们宣布Isaac Groot N-1.5正式开源,全世界的开发者都可以免费使用。该平台已被下载超过6000次,在社区中广受欢迎,获得了令人难以置信的积极反响和高度评价。这便是模型的创建过程。我们同时也公开了创建模型的方法。机器人领域面临的最大挑战,实际上也是AI整体面临的最大挑战,在于你的数据策略是什么?数据策略至关重要,需要大量的研究和技术投入。就机器人技术而言,人类演示是关键环节,就像我们教导孩子或教练指导运动员一样,你可以通过远程操作向机器人演示如何执行任务。由于AI具备泛化能力,并且我们拥有相应的泛化技术,机器人便能从一次演示中学习并推广到其他类似技术。那么,如果你想让机器人掌握大量技能,需要多少名不同的远程操作员呢?答案是:非常多。因此,我们决定利用AI来增强人类演示系统的效果。这本质上是一个“真实到真实”的过程,即利用AI辅助我们扩展和增幅通过人类演示收集到的数据量,从而训练出更强大的AI模型。接下来,让我们看一段演示。

 

通用型机器人的时代已经到来,这得益于机电一体化、物理AI和嵌入式计算领域的突破。这恰逢其时,因为劳动力短缺正在制约全球工业的增长。机器人制造商面临的一个主要挑战是,缺乏大规模、真实的以及合成数据来训练模型。人类演示的规模难以扩展,因为它受到每日工作时长的限制。

 

开发者可以利用NVIDIA Cosmos物理AI世界基础模型来扩增数据。Groot Dreams是一个基于Cosmos构建的蓝图,用于大规模生成合成轨迹数据,这是一个“真实到真实”的数据工作流。首先,开发者通过在单一环境中对单一任务进行远程操作所记录的人类演示数据,来对Cosmos进行微调。然后,他们使用图像和新的指令来提示模型,以生成所谓的“梦想”——即预测的未来世界状态。Cosmos是一个生成模型,因此开发者可以使用新的动作词汇进行提示,而无需捕获新的人类远程操作数据。一旦生成了大量的“梦想”,Cosmos会对每一个“梦想”的质量进行推理和评估,并挑选出最优的用于训练。但这些“梦想”最初仍仅仅是像素信息。机器人需要从行动中学习。Groot Dreams蓝图能够从二维的“梦想”视频中生成三维的动作轨迹。这些轨迹随后被用来训练机器人模型。Groot Dreams使得机器人能够通过最少的手动数据捕获来学习大量多样化的新动作。因此,一小队人类演示员现在可以完成以往需要数千人才能完成的工作量。Groot Dreams帮助开发者在解决机器人数据挑战的道路上又迈进了一大步。

 

这难道不令人振奋吗?所以,要推动机器人技术的发展,你离不开AI;而要训练AI,你同样需要AI。这正是AI Agent时代的奇妙之处:我们需要海量的合成数据生成,机器人技术本身也需要海量的合成数据生成,还需要通过被称为微调的技能学习过程——这涉及到大量的强化学习——以及与之匹配的庞大算力。因此,我们正处在一个这样的时代:无论是这些AI的训练、开发,还是其最终的运行,都对算力有着巨大的需求。

 

正如我之前提到的,全球正面临严重的劳动力短缺。而人形机器人之所以如此重要,在于它是唯一一种几乎可以部署在任何现有环境——即所谓的“棕地”环境——中的机器人形态,而无需像“绿地”项目那样从零开始建设。它可以无缝融入我们为自己构建的世界,执行那些我们为自己设计的任务。我们为自身的需求改造了世界,现在我们可以创造出适应这个世界并为我们提供助力的机器人。

 

人形机器的魅力不仅在于其实用化后所展现出的高度通用性,更关键的是,它极有可能是唯一能够真正成功的机器人类型。这背后的原因是技术发展需要规模效应。迄今为止,我们所拥有的大多数机器人系统,其产量和市场规模都太小。这些小批量的系统永远无法形成足够的技术规模,难以启动并加速“飞轮”效应,从而也无法吸引我们投入足够的技术去持续改进它们。但人形机器人不同,它极有可能成为下一个万亿美元级别的庞大产业。其技术创新速度惊人,对计算资源和数据中心的消耗也将是巨大的。

 

这恰恰是那种需要三种核心计算能力支持的应用:一是用于学习的AI计算能力;二是作为模拟引擎的计算能力,AI可以在虚拟环境中学习如何成为一个机器人;最后是机器人实际部署和运行所需的计算能力。展望未来,所有动态的物体都将具备机器人化的特征。

 

11

数字孪生驱动制造业升级:Omniverse与中国台湾的实践

 

黄仁勋:当我们将这些机器人引入工厂时,需要认识到,工厂本身也正在经历机器人化的变革。当今的工厂已经极其复杂。例如Delta公司的这条生产线,他们正积极为其机器人化的未来做准备。这条产线已实现了机器人化和软件定义。未来,将会有机器人在其中工作。为了能够创造和设计出在机器人化工厂中协同工作的机器人团队,我们必须借助Omniverse平台,让它们学习如何协作。谈到数字孪生,你现在不仅拥有机器人的数字孪生,还拥有所有设备的数字孪生,未来更将拥有整个工厂的数字孪生。这些层层嵌套的数字孪生正是Omniverse强大能力的一部分。

 

屏幕上展示的是Delta公司的数字孪生,这是Wiwynn公司的数字孪生。此刻,当你们观看这些画面时,如果不仔细分辨,甚至会以为它们是真实的照片。但这些全都是数字孪生,是模拟出来的场景。它们仅仅是视觉效果极其逼真,图像非常精美,但其本质仍是数字孪生。接下来是Pegatron公司的数字孪生,这是富士康公司的数字孪生,这是GIGABYTE公司的数字孪生,这是Quanta公司的,以及Wistron公司的。

 

中国台湾的TSMC也正在为其下一代晶圆厂构建数字孪生。就在我们交流的此刻,全球范围内有价值高达5万亿美元的工厂正在规划建设中。未来三年内,随着世界格局的重塑和全球再工业化浪潮的推进,各地将涌现出总值5万亿美元的新建工厂。这为我们提供了一个巨大的机遇,去确保这些工厂能够高质量、高性价比且按时建成。因此,将一切纳入数字孪生进行管理,无疑是迈向成功的第一步,也是为迎接机器人化未来所做的必要准备。

 

实际上,这5万亿美元的投资还不包括我们正在建设的一种全新类型的工厂。甚至我们自己的工厂,也已经创建了数字孪生。这就是NVIDIA AI工厂的数字孪生模型。中国台湾的高雄市也构建了自身的数字孪生。他们成功地将高雄市进行了数字孪生化处理,其中已包含了数十万座建筑物和数百万英里道路的数据。所以,是的,高雄市也拥有了数字孪生。接下来,让我们一同详细了解这些案例。

 

中国台湾正在开创软件定义制造。TSMC、富士康、纬创、和硕、台达电子、广达、纬颖和技嘉正在NVIDIA Omniverse平台上为制造过程的每一步开发数字孪生。TSMC与MedAI合作,从2D CAD生成整个晶圆厂的3D布局,并在cuOpt上开发AI工具,能够模拟和优化跨越多个楼层的复杂管道系统,从而节省数月的时间。广达、纬创和和硕在实体建设之前,以虚拟方式规划新的设施和生产线,通过减少停机时间节省了数百万美元的成本。和硕模拟焊膏分配过程,以减少生产缺陷。广达使用Siemens Teamcenter X结合Omniverse来分析和规划多步骤流程。富士康、纬创和广达则利用Cadence Reality Digital Twin模拟测试数据中心的功耗和散热效率。并且,为了开发实体AI赋能的机器人,每家公司都将其数字孪生用作一个机器人训练场,用以开发、训练、测试和模拟各类机器人——无论是机械臂、自主移动机器人 (AMR)、人形机器人还是视觉AI Agent——看它们如何执行任务或作为一个多样化的机器人团队协同工作。而且,当通过物联网连接到物理孪生体时,每一个数字孪生都会变成一个实时交互的仪表盘。工业AI的时代已经到来,它由中国台湾的技术领导者们引领,并由Omniverse平台提供强大支持。

 

我整个主题演讲的内容都源于你们的杰出工作。这实在是太出色了。这合乎逻辑,中国台湾,作为最先进产业的中心,作为AI和机器人技术即将诞生的震中,这理应是一个非凡的机遇。这里也是世界上最大的电子制造业聚集地。因此,AI和机器人技术必将改变我们所做的一切。所以,这确实非同凡响,在历史上这堪称首次,你们的工作革新了每一个行业,而现在,它又将回来革新你们自己的行业。在演讲开始时,我说过GeForce将AI带给了全世界。随后AI又反过来改变了GeForce。是你们将AI带给了全世界。现在,AI也将回来改变你们所做的一切。与各位的合作非常愉快。谢谢大家。

 

12

NVIDIA Constellation:全新办公室落户台北

 

黄仁勋:我有一款新产品。今天我已经宣布了几款产品了,但我还有一款新产品要宣布。我有一款新产品要宣布。我们已经在SpaceDock中研发了一段时间。而且,我想现在是时候揭晓我们有史以来打造的最大的产品之一了。而且,它就停在外面,在等着我们。让我们拭目以待。

 

640 (11)

 

NVIDIA Constellation。如各位所知,我们一直在发展壮大。我们与各位的所有合作关系也都在不断深化。我们在中国台湾的工程师数量也在持续增长。因此,我们现有的办公空间已经快要无法满足我们的发展需求了。所以,我准备为他们建造一个全新的NVIDIA中国台湾办公室,它的名字就叫NVIDIA Constellation。我们也一直在进行选址工作。我们一直在选址,各个城市的市长们都对我们非常友好,我想我们拿到了一些不错的条件。我也不太确定。看起来好像相当昂贵。但黄金地段毕竟是黄金地段。所以,今天,我非常高兴地宣布,NVIDIA Constellation将落户北投士林。我们已经,我们已经就,从目前该租约的持有者手中转让租约事宜进行了谈判。不过,我了解到,市长在批准这项租约之前,想知道台北的市民们是否赞同我们在这里建造一个宏伟、美观的NVIDIA Constellation。你们赞同吗?他还请大家给他打个电话。所以,我相信你们都知道他的电话号码。请大家立刻给他打电话,告诉他你们觉得这是个非常棒的主意。所以,这将是NVIDIA Constellation。我们会建造它。我们会尽快开始动工。我们需要这个办公空间。NVIDIA Constellation,落户北投士林。非常令人期待。

 

黄仁勋:我要感谢所有的各位。我要感谢各位多年来的鼎力合作。我们正面临一个千载难逢的机遇。毫不夸张地说,我们眼前的机遇是空前巨大的。在我们共事的这些年里,这是第一次,我们不仅仅是在打造下一代信息技术——这件事我们已经做过好几次了,从个人电脑 (PC) 到互联网,到云计算,再到移动云时代,我们已经经历了好几轮。但这一次,我们不仅在打造下一代IT,我们实际上是在开创一个全新的行业。这个全新的行业将为我们展现前方巨大的机遇。我期待与各位携手,共同打造AI工厂,为企业开发AI Agent,制造机器人,也期待所有这些卓越的合作伙伴们与我们一道,围绕着同一个架构来构建整个生态系统。因此,我要感谢大家今天的到来。祝各位在Computex一切顺利。谢谢大家。感谢各位的光临。

 

77640 (9)640 (10)640 (11)
5

书享界保留所有权 |书享界 » 黄仁勋:NVIDIA的重塑之路,从芯片到AI基础设施

扩展阅读请点击
分享到:更多 ()

相关推荐

评论区 抢沙发

华为管理培训 · 数字化转型培训

服务案例联系书享界