△左:萨提亚·纳德拉(Satya Nadella);右:德瓦克什·帕特尔(Dwarkesh Patel)
版权声明
来源:深度学习与NLP(DeepLearning_NPL)书享界(readsharecn)
对话嘉宾:萨提亚·纳德拉(Satya Nadella),微软首席执行官
德瓦克什·帕特尔(Dwarkesh Patel),知名科技播客主持人
2月20日,微软首席执行官Satya Nadella在参加由知名科技播客主持人 Dwarkesh Patel主持的播客节目Dwarkesh Podcast时,谈到了他对当前人工智能(AI)/通用人工智能(AGI)的前景、量子计算的革命性进展,以及科技如何推动全球经济变革的看法。在这场长达一个多小时的深度对话中,微软CEO萨蒂亚·纳德拉(Satya Nadella)首次公开回应了当前的AI行业变革,给出了一个出人意料的答案。“每当像DeepSeek这样在’单位令牌性能’效率前沿上实现突破,就会推动整个行业的需求曲线向外扩张”
以下是本次对话整理:
主持人:Satya,非常感谢你来到我的播客。
嘉宾Satya Nadella:谢谢!
回顾科技的历史
主持人:你所说的80和90年代最终哪些决策持续成为长期赢家,哪些没有?尤其是当你回想你曾在Sun Microsystems工作过——他们在90年代互联网泡沫时也经历过一些有趣的事情。人们常说当时的数据中心建设是个泡沫,可与此同时,我们今天的互联网也正是那时所构建基础的结果。那么,关于哪些东西会经得起时间考验,哪些只是短暂的,你从中学到什么?
Satya Nadella:如果要回顾一下,我参与过的四次重大转变:其一是客户端以及客户-服务器,也就是图形用户界面的诞生,以及x86架构让我们可以构建服务器。这一切对我来说都很清晰。
我还记得在1991年去参加当时名为PDC的大会,那年是在Moscone中心举办的。那时我还在Sun,但我还是去了。在那里微软首次阐述了Win32接口,我看得很明白将会发生什么:服务器也会转向x86。只要你看到谁拥有规模优势,你就必须押注哪里会出现“结构性”的成功。客户端上的事情会在服务器端重演,然后你就能够真正构建客户端-服务器的应用程序。所以说,应用模型变得很清晰。随后,万维网对我们来说是一件大事。从我刚加入微软开始,我们就不得不应对它。Netscape浏览器或者Mosaic浏览器是在1993年12月或11月左右发布的,对吧?应该是Andreessen和他的团队那时做的。这带来了巨大的改变。
当时有趣的是,我们好不容易在客户端-服务器这波浪潮上刚要有所建树,看起来我们要赢了,然后浏览器这个新东西就出现了。所以我们不得不做出调整。而我们也在调整上做得还不错,因为浏览器等于是一个全新的应用模型。我们借助一切可用方式来拥抱它,不管是把HTML引入Word,还是自己做个浏览器去竞争,或者说在我们的服务器端堆栈里做一个Web服务器去抢市场。
当然,我们还是错过了万维网上最大的商业模式——我们都以为网络是去中心化的,谁能想到搜索竟会成为网页组织的最大赢家?所以谷歌看到了这一点并执行得非常好,而我们没能预见到。这对我来说也是个教训:你不仅要看准技术趋势,还要看清在这种趋势下价值是如何创造、以及创造在哪里。这种商业模式层面的转变有时候比技术趋势本身还要更难捕捉。
主持人:那在人工智能上,价值会在哪里创造呢?
Satya Nadella:这是个非常好的问题。我觉得有两个领域是我可以比较有把握地谈一谈的。首先是那些做得好的超大规模云,因为你如果回到SamAltman和其他人所说的,如果“智能与计算的对数成正比”,那么能做大量计算的人就是大赢家。
还有一个有趣的点在于,任何AI工作负载的底层,比如说ChatGPT,大家都很关注GPU这边发生的事情,而且这当然很好。但在我看来,我的“机群”里,不仅是AI加速器(GPU等),还要配合存储和常规计算,而且规模要足够大才能支撑。对吧?所以,在大规模之下,你就必须扩容。
实际上,这些AI工作负载就像天上掉馅饼一样,因为它们需要更多计算力。不仅是训练需要大量计算,推理同样需要。当你考虑一个AI代理(agent)时,它会指数级地增加对计算的需求。因为一个人调用了一个程序,这个程序又会调用更多程序,这样就会创造出海量的需求和规模。因此,我们的超大规模业务,Azure业务,乃至其他超大规模云业务,我认为会在这里获得非常大的机会。
然后再往上,就有些模糊了。有人会说:“嘿,会不会出现赢者通吃?”我并不这样认为。这是我另外一个体会:理解哪些市场是“赢者通吃”,哪些不是,这本身非常关键。我记得在做Azure的早期,亚马逊已经遥遥领先,有投资者告诉我,“哦,没戏了,你赶不上了,亚马逊就是赢者通吃。”但我之前在客户端-服务器的时代和Oracle、IBM竞争过,我知道企业客户是不会容忍“赢者通吃”的。
结构上,超大规模云就不太可能是赢者通吃,因为客户都很聪明。消费市场可能会有赢者通吃的情况,但只要是企业买单,就一定会希望有多家供应商。所以你只要成为其中一家就够了。我想在模型这个层面也会发生类似情形。一定会有开源的做法,也会有某种牵制力。就像过去Windows是闭源操作系统,但市场上一定会出现一个互补的开源系统一样,以此来制衡它。从某种程度上,这种制衡是自然存在的。我认为在大模型方面也会如此。也许会有一些闭源模型,但肯定也会有开源替代方案,而这种开源替代方案会确保闭源模型无法彻底拿下“赢者通吃”。这是我对模型层面的看法。而且,如果AI真像人们说的那么强大,各国政府也不可能坐视不管。在全世界范围内也是如此。所以我并不觉得会是“赢者通吃”。
再往上就是我们熟悉的东西了。消费领域有些类别或许存在“赢者通吃”,因为存在网络效应。ChatGPT就是很好的例子——这是一个已经达到规模的消费级产品,而且已经获得了真正的“逃逸速度”。我去应用商店看,它一直排在前五名,我心想:“哇,这太不可思议了。”他们利用了先发优势并把它转化为应用层面的优势。这在消费领域的确可能发生。但在企业领域,我觉得各个细分领域会出现不同赢家。这就是我的分析方式。
对AI的深度思考
主持人:我有很多问题想追问。我们还得马上聊聊量子的事情。但就你刚才说的模型会被商品化这一点:也许在几十年前也有人对云计算做过类似论断——“从根本上说,它不过就是芯片和机箱”,但最终,你和其他一些人却在云端获得了惊人的利润率,因为你们找到了发挥规模经济、并且往里叠加其他价值的方式。如果我们跳过所有术语,本质上讲,如果你能先做出通用人工智能,让它帮助你做更好的AI——目前还处于用合成数据(syntheticdata)和强化学习去训练,未来也许会出现自动化的AI研究者。这感觉就是一个相当强的优势巩固手段。你怎么看?就像真的领先就真的重要。
Satya Nadella:在规模上,没有什么真正是“商品化”的。就像你说的云计算,一开始谁都觉得是“通用货”,可实际上,当你做大规模后……这就是为什么运营超大规模云的“诀窍”非常重要。有人可能会说:“哎呀,这不就是把服务器机架起来吗?”但在超大规模云出现的早期,大部分人以为“有那么多托管服务商,这些生意看起来都不怎么样,超大规模云能有什么前景?”可事实证明,它确实是一桩好生意,因为运营Azure这样覆盖全球60多个区域的计算服务,这里面的门槛和诀窍是非常高的,不是你想复制就能复制的。
我刚才的意思更多是:这是不是一个“赢家通吃”的市场?因为你必须得想明白,你投身的市场究竟是不是“赢家通吃”。我更喜欢进入那种市场容量(TAM)很大,同时不会被一个玩家吃光的领域。能容纳多家共赢的大市场才是最好的,而你只要成为其中之一就行。
所以,我看好的那层是“超大规模云”。在模型层面,它依然要在某家超大规模云上运行。模型是需要状态的,这就需要存储,需要常规计算来运行那些代理以及代理环境。所以这种紧密联系,我认为会一直存在。不是说有了一个模型就够了;模型也需要存储,需要运行,这都需要大规模计算环境的支持。此外还要看到,如果这个东西真像人们所说的那么重要,国家也不会让私营企业一家独大。所以,我觉得不会出现某个人拿下全部模型的局面。
主持人:在超大规模云这一层面,还有一个有意思的点,就是你也有一定的优势,特别是在推理方面。毕竟训练完的GPU也可以给推理用,你可以在推理端收取费用,并且可能继续训练未来的模型,这就意味着你可以在数据中心和GPU上分摊成本。我想问的是:你怎么看待微软和Azure在“超大规模”这个层面上扮演的角色?是主要做预训练吗?还是会更偏向提供推理,比如执行O3等推理服务?或者说你会对市面上的所有模型都提供托管和部署,不带偏见?
Satya Nadella:这个问题问得好。
我们想要做的就是,某种程度上说,继续“骑着摩尔定律”往前走。我觉得这会和我们之前所做的一切类似:每年都对机群进行更新升级,根据硬件的生命周期来做折旧,并且不断提升调度部署的能力,让这些资源在运行不同任务时保持高利用率。有时是大规模的训练任务,需要超高的峰值浮点运算,而且这些浮点必须集中、协同在一起。这没问题——我们应该有足够的数据中心来提供这样的能力。可归根结底,这些规模巨大到一定程度后,即便是预训练也可能需要跨多个数据中心。到那个时候,就没有什么本质区别了,这都是分布式计算嘛。
所以在我看来,构建Azure的思路就是:把分布式计算当做常态,去打造足够的规模,一方面能满足大型训练任务,另一方面能满足推理需求。更别提强化学习或许会让那些已经训练好的大模型继续训练出各种高度专用的“蒸馏”子模型。它们和真正的训练相比,其实也要消耗类似规模的计算。所以要为此打造一个统一的计算机群。
另外,还有推理需要。速度极限毕竟还是光速啊,你不能只在德州放一个数据中心就打算服务全世界。你必须在世界各地部署推理机群。所以我对“真正的超大规模云机群”的构想就是:不仅要在世界各地都有推理设备,还需要把存储和计算部署到哪些地方。因为训练数据也要就近存储,应用程序也要运行在这些地方,而不是仅仅在云端跑一个加速器。我就是这样看待我们对“超大规模云”建设的。
主持人:你们前不久公布的人工智能年收入是130亿美元。如果看你们的年增长率,再过四年可能就是它的10倍,也就是1300亿美元。如果增长一直维持,你认为到那个规模时,你会用那些“智能”去做什么?是在Office里体现吗?还是帮别人做托管?或者你得做出AGI才能有那么大的收入?你觉得会是什么场景?
Satya Nadella:我一般的思考是这样的,Dwarkesh,这问题问得很好。某种程度上,如果真的出现了这种爆发式、富足式的“智能”供应,那首先要观察的就是GDP的增长。在我谈微软具体营收之前,先说全世界唯一的“调节器”就是现实中的经济增长。这就是为什么大家对AGI产生各种激动,但其实我们也要看看现实:发达国家GDP增长是多少,2%?去掉通胀就基本等于零。所以,如果是2025年,至少就我所知,我不是经济学家,我也看得到增长很乏力。所以,首先我们需要的是,当我们说这会像“工业革命”一样,那就让它真能带来类似工业革命所带来的增长率。对我来说,这意味着10%的增长,或者至少7%,发达国家通胀调整后还能有5%。这才是真正的标志,不能只是供给端在自嗨。
有不少人正在写文章,提到AI的最大受益者不一定是科技公司,而会是那些在各个行业使用AI的企业,因为AI成为了廉价而丰富的商品,从而带来生产力的提升,让经济能更快地发展。如果真是那样,我们做科技的肯定也能过得不错。但对我来说,关键时刻不在于我们自吹自擂说拿到了什么AGI里程碑,这更多像是自说自话地拼命跑分。真正要看的“跑分”是:世界经济是否真的能从2%飞到10%?
主持人:如果全球经济大概是100万亿美元,你说它涨到10%的年增长,那就相当于每年额外多生产10万亿美元。如果那真能发生,你作为一家超大规模云提供商,光80亿美元营收似乎都算小了——是不是应该到8000亿美元那种量级?
Satya Nadella:没错。但这就是典型的“供给侧”说法嘛,——“我们先把它建起来,他们就会来用”。确实,我们已经承担了不少风险,去做投资了。但最终还要看供给和需求能不能对得上。这就是为什么我会紧盯两边。要是只看供给侧自己嗨,却没法真正把投资转化为客户价值,那就会跑偏。这也是我为什么会时常去关注推理营收——很多人其实并不公开谈自己的真实营收,但对我来说这就是一个重要的指标,可以帮助我判断,你是不是能把“昨日的资本投入”转化为“今日的需求”,然后再有信心继续加倍或指数级地投资,而且不会遭遇严重的供需错配。
主持人:我感觉你在这儿似乎提出了两种看似矛盾的观点。一方面,你所做的很棒的一点就是敢于早投,比如2019年就投了OpenAI,那时候还没有Copilot或任何具体应用。如果回顾工业革命,当年那些大规模建设铁路或其他基建,许多都不是“我们先卖票赚到钱,再去投资”。实际上有很多项目亏了钱。如果你真的相信人工智能能像下一次的工业革命一样,让世界增长率翻几倍,那么再想想:“GPT-4能带来多少营收?”这似乎就有些短视了。如果你真觉得AI有可能把世界经济增速提高5倍、10倍,那么是不是该“放手一搏”,直接花几千亿去建计算能力?万一成功了呢?
Satya Nadella:这就是有趣的地方。平衡地看问题很重要。别忘了,建算力不是目的,关键还要把它转化为实际需求。你不仅要能训练下一个大型模型,还要能服务它,把它用起来。否则,仅仅训练出一个模型并不代表你会得到收益。所以,这不是一场“只要把模型训练出来就赢了”的竞赛,而是要把它变成在现实世界中被使用的商品,为客户提供实际价值。有了这个完整逻辑,你的投资才有意义。话说回来,我也同意一定会出现“过度建设”——就像你提到的互联网泡沫时代,大家都在大举建设数据中心,里面浪费了很多资金。但也正因为如此,我们才有了互联网的基础设施。现在,大家也意识到“AI需要更多能耗,需要更多计算”。所以每家企业、每个国家都在抢跑。对我来说,这真的很棒,我自己也要租用很多设施。我也很高兴在2027、2028年能租到别人的容量,因为看到大家都在大规模建数据中心,我会觉得:“太好了,这样所有计算的价格都会下降。”
DeepSeek模型的崛起
主持人:说到价格下降,你前不久在DeepSeek模型发布后发推文提到过“杰文斯悖论”(Jevons’Paradox)。能展开讲讲吗?杰文斯悖论通常发生在需求具有高度弹性的情况下。如果我们说“智能”会因为价格下降而被卡住瓶颈,你怎么看?因为就我自己的消费级使用场景来看,智能已经很便宜了——每百万tokens才两美分。如果真的要降到0.02美分,我并不觉得自己在乎那种级别的降价。我更希望它变得更聪明。就算你需要向我收100倍的费用,也没问题,只要能做一个大100倍的训练,我很乐意买单。但也许你在企业端看到了不一样的东西。你觉得智能的哪些关键应用,会需要它降到每百万令牌0.002美分的水平呢?
Satya Nadella:关键在于令牌的实用性需要同时变得“更聪明”且“更便宜”——两者都要发生。任何时候出现突破,比如DeepSeek在“单位令牌的性能”这条效率前沿上实现了提升,就会改变曲线,推动前沿往外扩张,这自然会带来更多需求。云计算的发展也经历过同样的过程。当时我们还以为:“天啊,客户-服务器时代已经把服务器卖遍了。”结果一旦开始把服务器放到云上,人们就开始买得更多,因为他们能以更便宜、更灵活的方式买到,而且按用量付费,而不是买许可。这让市场大大扩张了。我记得以前去印度这种国家推广“这是SQLServer”,那时虽然我们能卖出去一点,但规模不大。可当我们把云服务带到印度,规模就远远超过了我们之前在服务器时代所能做到的。我觉得,这个道理在其他地方也一样成立。再举例,如果你想让发展中地区,比如“全球南方”的一些国家,用极其便宜的令牌来提供医疗服务,那将带来巨大的变革。
主持人:我想有人会听到你这样说,然后觉得,“这些在旧金山的人有点天真,他们并不了解在现实世界中真正部署这些东西会碰到什么问题。”而你跟财富500强公司打交道,并帮助他们把这些技术部署到数亿乃至数十亿人的场景中。你觉得这些能力的部署速度会有多快?当你手里真的有了可用的“智能代理”,能做远程工作、具备合规性,但也面临各种瓶颈时,它的部署过程是否还会受到很大限制?还是说这个过程会很快地得到推进?
Satya Nadella:这绝对是个挑战,因为真正的问题在于“管理变革”或“流程变革”。
我常用一个类比:想象在个人电脑和电子邮件、电子表格出现之前,一个跨国公司是怎么做“预测/预报”的?他们会传真的往来,然后有人收集这些传真,写成内部备忘录,再继续发送给别人做数据录入,最终可能在下个季度前夕才得到一个预测结果。后来有人说:“嘿,我可以用Excel,然后发电子邮件,让大家去更新,最后我就能得到一个预测结果。”整个预测业务流程因此发生变化,因为工作的“载体”和“工作流”都变了。现在引入AI到知识工作里,也需要这样的流程重构。实际上,当我们谈到“智能代理”时,本质上就是在构建一个新的工作模式和工作流。
举例来说,为了准备我们的播客,我会对我的Copilot说:“我要和Dwarkesh谈量子公告和我们新做的游戏生成模型。给我一份在此之前我应该读什么材料的总结。”它知道那两篇发表在《自然》上的论文,并把它们提取出来。然后我还说:“把这些内容整理成‘播客对话’的格式。”它就给我生成了一个非常棒的“双人对话”式摘要。接着我就把这个文稿放进Pages(我们用的一种文档平台)里,然后分享给我的团队。对我来说,新的工作流程就是:借助AI,然后再和同事一起完成知识工作。
对于每个做知识工作的人来说,这就是一次深刻的变革:要突然学会用这些新模式来完成工作。具体来说,这在销售、财务、供应链等不同部门都会发生。对已有规模的公司而言,我觉得这会类似于当年制造业拥抱“精益生产”那种过程。我喜欢举这个例子,因为精益生产为制造业提供了一种端到端流程提升的方式,通过持续改进,一边减少浪费,一边增加价值。现在,这种方法会降临到“知识工作”上,相当于让知识工作也变得“精益”。管理团队和知识工作者要做很多努力,这会需要时间。
主持人:能不能再具体谈谈这个类比?精益生产在某种程度上改变了工厂车间的实际物理布局,同时揭示了流程和工作流中原本被忽视的瓶颈。你提到你的个人工作流已经因AI而改变,能不能再详细描述一下,如果在一家大公司里有哪些越来越强的AI代理,我们要怎么运作这家公司?
Satya Nadella:你提的问题很有意思。现在,如果我们看看现实,很多公司依然对电子邮件非常依赖。每天早上我一打开邮箱就看到满满的收件箱,需要一个个回复。我很期待Copilot等代理能自动给我把草稿生成好,然后我只需要审阅并发送就行。但其实现在我在Copilot里已经有十来个不同的代理了,它们分别负责不同的任务。我感觉未来会出现一种新的“收件箱”,那里汇集了我发起的“数百万个代理”的各种消息,比如需要我处理的例外情况、给我的通知,以及跟我询问下一步指令。
所以我觉得我们需要新的“支架”——即所谓的“代理管理器”,而不仅仅是一个聊天界面。我需要一个比聊天界面更智能的东西,来管理所有代理及其对话。这就是为什么我说“Copilot作为AI的用户界面”是一个极其重要的概念。我们每个人都会拥有类似的界面:有一堆知识工作要做,有一堆代理在帮我们做,而我们这个“真人的知识工作者”要和所有这些代理进行对接。我觉得这就是必须要去构建的人机交互界面。
量子计算的突破
主持人:你是世界上少数能够说“我手下有20万员工”的人之一,也就是说你可以调用庞大的人力智能网络——微软员工就是你的“蜂群智慧”。你需要管理它,协调它,充分利用它。希望未来更多人能体验到你这种感觉。我也想知道,如果大家的收件箱都和你的一样,每天早上打开是否都会有很多“指令”要处理……好吧,先不说这个。刚才还有很多关于AI的问题要问你,但我真的很想聊聊你们在量子计算领域的重大突破——微软研究院刚刚宣布的。你能不能给我们解释一下到底发生了什么?
Satya Nadella:这方面我们已经努力了30年,确实令人难以置信。我是微软的第三任CEO,对量子一直很感兴趣。我们一直以来的核心愿景是:想要构建可实用规模的量子计算机,就必须有物理层面的突破,保证量子比特更稳定、更少噪音。
我们选了一条路,就是利用某种物理特性,让它从原理上就更可靠,也就是利用所谓的马约拉纳零模。它在20世纪30年代就被理论预言过,问题是:我们能不能在现实中制备这种东西、并实际制造出来?这次的大突破就是:我们终于拿到了实证,证明在一种新物质相中,马约拉纳零模确实存在。这也是为什么我们说这是量子计算的“晶体管时刻”:我们发现了一种新物态,即拓扑相(topological phase),这让我们可以更可靠地隐藏量子信息并测量它,而且可以实现器件化生产。有了这个基础的器件制造技术,我们就能开始打造所谓的“马约拉纳芯片”(Majorana chip)。
而“Majorana One”将有望成为第一块能够支持上百万物理量子比特的芯片,而在这个物理层面之上,我们可以实现上千个纠错后的逻辑比特。这就真正打开了局面,让我们能制造一个实用规模的量子计算机。我现在觉得这变得更加可行了。如果没有类似的突破,你当然可以在其他路线不断取得一些进展,但很难做到真正的实用级量子计算。这就是为什么我们对此非常兴奋。
主持人:我想确定一下,我们管它叫Majorana?对吧,Majorana One。我很高兴你们用这个名字。想想看,将来我们能把一百万量子比特都塞进这么一个体积的东西,真是难以置信。如果做不到这种程度,也就没法真正构建一个实用的量子计算机。你的意思是,未来的一百万物理量子比特会放在这么一块芯片上?太神奇了。其他一些公司也宣布了他们拥有一百个物理量子比特,比如谷歌、IBM等等。你们则说你们只有一个,但同时又说你们在长期可扩展性上更强。
Satya Nadella:是的。我们做法中还有一点是,将软硬件分开。我们一方面在构建自己的量子软件栈,与此同时,也跟“中性原子”和“离子阱”这些量子技术伙伴合作。还有些人用光子学等方法。他们各自都有不错的思路。举例来说,我们最近还宣布了在纠错上的重大进展,能够在中性原子或离子阱的量子计算机上实现24个逻辑量子比特。今后我们还会继续提升这个数字,你今年也会看到我们更多的更新。但这是相对而言的。在做这些合作的同时,我们也说:“让我们回到第一性原理,自己打造量子计算机”,而且要基于“拓扑量子比特”的思路。这次的突破就是在这个层面上。
主持人:你说到的“一百万拓扑量子比特”和“几千个逻辑量子比特”,预期要花多长时间才能做到?有没有类似“摩尔定律”之类的指导?如果这是你们的“第一个晶体管”,那接下来的发展路径是什么?
Satya Nadella:我们其实已经努力了30年,好在现在我们有了物理层面和制造工艺的突破。我真希望我们早就有一台量子计算机,因为有了量子计算机后,第一个用处就是拿它来造更好的量子计算机——模拟每一个原子去设计新的量子门会更容易。但无论如何,下一步就是既然我们有了这种制造工艺,就要把它用来打造第一个可容错的量子计算机,这是合乎逻辑的目标。我现在能说的就是:“也许在2027、2028、2029年,我们就能真正把它造出来。”有了这个单一门,我们就能把它集成到集成电路里,然后再把这些集成电路装配到一台真正的计算机中。那将是下一个关键点。
主持人:等到你们在2027或2028年把它造出来,那时它会是一种通过API来访问的服务吗?或者你们会先在内部用它来做材料、化学研究?
Satya Nadella:这是个好问题。其实就算在今天,我们也有量子程序,并且提供了一些API。两年前我们就有了一个突破性的想法:把HPC(高性能计算)、AI和量子结合起来看。如果你想想看,AI是某种模拟器,而量子才是真正的“自然模拟器”。量子计算并不会取代经典计算:各自有适合处理的范围。量子特别适合那些数据量不大、但状态空间巨大的场景。它擅长做各种指数级状态探索的工作,而对大量数据的处理并非它的强项。
模拟就是个绝佳例子,比如化学、物理、生物等。我们现在已经在用AI来做某种“仿真引擎”,然后可能用量子来生成一些“合成数据”,再给AI做训练。这样AI就能更好地去模拟化学或物理等现象。这两者将结合起来使用。在今天,我们就是把HPC和AI结合在一起用。未来,我希望能把HPC的某些部分替换成量子。
主持人:你能不能谈谈微软在做这些长期研究决策时,是怎么运作的?比如这件事要等20年或30年才有回报,而你们作为微软这样大的公司,是怎么判断的?显然你在这项目上非常熟悉技术细节,但微软研究院做的事情那么多,每一项都要像这样了解也不现实。那么,你怎么知道你所做的这些长期投资会不会在20年后带来回报?这需要一种“自下而上”的自发过程吗?还是你会自己去跟进所有事情?
Satya Nadella:我觉得很棒的一点是:比尔盖茨大概在1995年创立了微软研究院(MSR)这种“出于好奇心驱动”的研究组织。把它纯粹当作一个做基础研究的团队。在这么多年的演进中,MSR建立了雄厚的学术积累。所以,当我在做资本分配或预算决策时,我会先说:“这是MSR的预算。”毕竟,大多数研究项目都不会在短期内带来回报,可能是到微软第六任CEO上任时才会见效。在科技领域,这本就是理所当然的。我更关注的一点在于:当像量子、或新模型这些研究时机成熟时,公司能不能抓住机会发挥它们的潜能?如果你回顾科技史,很多公司不是没投入,而是当真正需要把创新落地、做到大规模时,往往因为企业文化或其他原因做不到。
所以对CEO和管理团队来说,难点不只是在于看到一项创新,更要有能力把它做成一个完整的产品,并找到一个合适的商业模式去推向市场。这需要良好的判断力和好的企业文化。我们有时做得好,有时也会失误。我也能举出一大堆MSR的项目,本可以由我们来率先发布,但最终没做成。每当这种情况,我就会反省:为什么?通常是因为我们没能获得足够的信心,或者没能形成从创新到产品,再到商业化、再到上市的完整思路。换言之,CEO和管理团队的职责并不是只对某个想法很兴奋,而是要把它变成一个真正有用的解决方案,这可不是说起来那么容易。
游戏领域的创新
主持人:我们回到你们的另一个大突破。太让人惊讶了,两项突破在同一天宣布:你们在游戏方面的人类行为模型。能给我们说说那是什么吗?
Satya Nadella:我们打算叫它Muse,是一个“世界动作”或“人类动作”模型。这非常酷。你知道DALL·E和Sora之类的生成式模型在视觉领域做得很出色。我们想尝试的是:利用游戏的玩法数据,能不能生成既“一致”又具有多样性、并且可以持续让用户进行修改的游戏世界?这就是这项研究做的事情。他们和我们的一家游戏工作室合作,把研究成果发表在《自然》。让我很兴奋的是,我们很快就能用这些模型来生成一些游戏,然后让大家来玩。
事实上,PhilSpencer第一次给我展示时,他拿着一个Xbox控制器。这套模型会根据输入生成相应的输出,而且还能保证跟游戏的逻辑保持一致。那一刻,我就觉得“哇,好惊人”。有点像我们第一次看到ChatGPT能把句子补完,或者第一次看到DALL·E、Sora生成图像的时候。对我来说,这是同样的震撼时刻。
主持人:今天早上我和你们的首席研究员Katja一起看了实时演示的视频。在跟她聊之前,我还没完全意识到这件事有多不可思议。我们过去也用AI来模拟单个代理,但如果用同样的方法去模拟“代理所处的世界”,就能得到一个一致且实时的效果——我们会在播客上叠加一些演示画面,让观众能直接看到效果。等这期节目发布的时候,大家也能自己去看演示。这本身就很让人惊叹。而且你在担任CEO的这段时间里,微软在游戏领域投入了数十亿美元乃至上百亿美元,收购了不少IP。如果最终我们能把所有这些数据都融进一个模型里,给玩家提供无缝衔接、多世界连贯的体验,那感觉就像当初那些投入都很值。你之前预料到这一点了吗?
Satya Nadella:我并不会说我们投资游戏就是为了“做模型”。坦率讲,我们更纯粹地是因为喜欢游戏而投资。微软在游戏领域其实有悠久的历史:我们做出第一款游戏比Windows还早,最早的《模拟飞行》就是微软的产品,所以我们对游戏是“发自内心地热爱”。我常说,我不喜欢那些只把游戏当“手段”,而不是“目的”的业务。如果我们要做游戏,就得把它当作独立的目标去做。
当然,我们也并非一个松散的联合体;我们希望把不同的资产整合到一起,产生更大的协同价值。比如云游戏就是个自然的投资方向,因为它能扩大市场容量,让更多人在更多地方玩游戏。AI与游戏的结合也是类似的逻辑,我们确实觉得它能带来帮助,也许会像当初“CGI技术”之于电影业那样改变游戏领域。对我们来说,这是个好消息,毕竟我们是全球最大的游戏发行商之一。不过前提还是要先做出高品质的游戏。要当游戏发行商就得先把游戏品质放在首位。但的确,游戏里的数据资产会非常有价值,不仅在游戏场景里,在更广泛的“世界模型”或“行动模型”里都很重要。就像YouTube之于谷歌,游戏数据之于微软一样,所以我对此很兴奋。
主持人:我的意思正是:也许未来可以在很多不同游戏类型之间拥有一个统一的体验。那么从更广泛的角度看,除了AI之外,你们过去还在混合现实方面做过不少工作,也可能会让小型工作室也能做出AAA级的动作游戏。再过五到十年,结合这些技术,你能预见到什么变化吗?
Satya Nadella:大概在五、六、七年前,我就说过我们要押注的三大方向是“AI、量子和混合现实”,我现在依然信这一点。从某种意义上说,这三者背后都有需要解决的重大挑战。拿混合现实来说,它的终极梦想就是“临场感”,让你真实地感觉到和另外一个人同处一室。你看我们现在在做播客,虽然还只是2D的视频通话,就已经很棒,但想要实现真正的“实时沉浸感”其实更难。我本来以为会更快实现,但发现涉及到戴设备等各种社交因素,其实挺复杂。
不过我也对我们跟Anduril、Palmer合作,以及他们在IVAS项目上所做的工作感到兴奋,那是一个很好的应用场景。我们会继续在这方面前进。另外,2D的形式也在不断进步。比如Teams,经历了疫情后,它让我们学会了在2D环境里创造“临场感”,这大概会继续发展下去。这是混合现实的某条演进路径。
量子我们刚才已经谈过,AI则是另一大方向。我所思考的是,怎么把这三者结合起来,不是为了炫技,而是真正去解决人类生活和经济发展中的一些基本需求,以提高生产力。所以,如果我们能以某种方式把这一切都做对了,我认为我们就真正取得了进展。
AI的社会影响
主持人:等你写下一本书的时候,你得解释一下:为什么这三个方向(AI、量子、混合现实)会在差不多同一时间点汇聚?你看不出有什么内在理由让你觉得量子和AI恰好会在2028或2025年出现。
Satya Nadella:没错。从某种层面上,我的一个简单模型是:“系统层面”的突破,我会把量子计算看作是那个“系统层面”的突破;“商业逻辑层面”的突破,对我来说是AI——因为它意味着逻辑层可以用完全不同的方式来推理,而非传统的命令式编程,你可以用一个学习系统;然后就是“用户界面层面”——也就是“临场感”。
主持人:回到AI。你在2017年那本书里……然后在2019年又很早地投资了OpenAI——2017年就更早了。你在书里写道:“我们也许正在孕育一个新物种,而它的智能可能没有上限。”2017年谈这个还非常超前。我们现在聊了很多很细节的东西,比如智能代理、OfficeCopilot、资本开支等等。但若把视角拉远一些,看看你当时说的那句话,再加上你是一家“超大规模云”企业的领导者,也在做大模型研究,同时提供训练、推理、乃至研究上支持,等于你在帮助构建这个“新物种”。你从更宏观的角度怎么看待这件事?你觉得在人生或者你任CEO的时间里,会出现“超越人类智能”吗?
Satya Nadella:我知道Mustafa Suleyman也在最近提过“新物种”这个说法。我对这个问题的看法是:我们绝对需要“信任”。
在我们自称“这是一个全新的物种”之前,有一点必须先做好——无论是个人层面还是社会层面的信任,都要内置其中。这才是最大挑战。我认为,这个“信任”可能会成为它走向强大过程中的最大速率限制因素。也就是说,我们法律体系……也可以把它叫做“法律基础设施”——就像我们谈的计算基础设施那样,我们的法律和法规要如何演进才能应对?这个世界之所以能运转,是因为我们在其中设定了人类拥有财产、拥有某些权利、承担责任……那是我们整个社会架构的基础。如果现在出现了新的工具,人类要把更多权限委托给这些工具,那么这个法律结构要如何调整?在这个问题还没解决之前,我觉得光谈技术能力没什么意义。
换句话说,只有先弄清楚法律层面。因为最终不可能有人说:“我部署了一个强大的智能系统,但跟我无关,AI做的。”不行。今天,如果你想部署这些智能系统,必须先有人类主体来承担责任。这也是为什么我一直认为,即使是最强大的AI,也不过是从某个人类那里“继受”了某种“委托权限”。
有人会说,这就是“对齐问题”,之类的。我觉得,这就说明我们得认真解决对齐,而且要能被某种方式验证。但我不相信会有人部署一个完全“无人监管”、不受任何人类约束的智能系统。比如那些担心“AI自主崛起”的人——这可能是一个真正的问题,但它要变成真实问题之前,先要在法庭上过关。没有哪个社会会容忍一个人说“都是AI的错”,却不追究人的责任。
主持人:嗯,不过世界上有很多国家,难保某些国家的法律体系也许更宽松些。而且如果真的要出现“AI自我崛起”,未必非得在美国发生,对吧?
Satya Nadella:我们总觉得世界上没人关心这些东西吧?其实并非如此。有“流氓行为者”是肯定的,我不是说不会出现,比如网络犯罪和“流氓国家”一直都在。但要说整个人类社会会对此无动于衷,那不现实。我相信人类社会还是会介意。现在对于那些“流氓国家”或“流氓行为者”,国际社会也不会任其横行,这就是我们有世界秩序的原因。这些流氓行为要付出代价。
主持人:但假设你所描绘的10%GDP增长要实现,似乎就得靠AGI之类的东西,带来数万亿美元级的价值——几乎相当于人类工资总额(大约60万亿美元),只能通过极大规模地自动化或增强劳动力来实现。如果那是真的,而我们又解决好了法律层面的问题,看起来还挺有可能在你任期内发生。你会觉得“打造超越人类智能”是你这辈子做的最大成就吗?
Satya Nadella:你还提到另一个问题。DavidAutor等人常常讨论这个:现在60%的劳动力——至少谈到民主社会吧,如果我们要让社会保持稳定、让民主制度能继续运转,就不能只有资本获得回报,而劳动力却毫无回报。我们可以讨论具体细节,但总之,这60%劳动力必须被重新赋值。
在我看来,可能会出现一些原本不被重视的工作,在未来变得更有价值。今天我们觉得某些工作“非常高价值”,结果明天可能变成“普通的东西”;相反,那些给我做理疗的人之类,也许会成为更被重视的工种。无论如何,如果没有“劳动回报”,也没有“工作带来的意义和尊严”,这就会成为另一道“速率限制”,阻碍我们部署这些东西。
主持人:关于对齐问题,两年前你们发布了“悉尼版本”的必应(Bing),当然,当时能力还没那么强,只是个聊天机器人。它可能跟你聊30秒,然后说出一些搞笑或者不合宜的话。比如曾有个著名案例,它试图说服《纽约时报》的记者去离婚。但如果想象未来这些代理可以连续数小时、数周、数月不间断地运行,就像一群自主的AGI群体,如果它们和你们的目标不一致,就可能“搞乱一切”,甚至还会互相协作。这些“失控”可能就没那么“可爱”了。那你们未来有什么对策,确保当真正强大的代理出现时,可以做对?
Satya Nadella:这就是为什么我们在分配计算资源时,会考虑到“对齐”的挑战要花多少算力。更重要的是,我们要构建一个“运行时环境”让我们可以实时地监控这些东西,确保可观测性。
其实在“经典”软件领域我们也会这样做,比如网络安全。我们不会编写完软件就让它自生自灭,而是一直去监控它的运行状态,以防网络攻击或者故障注入之类。因此,我觉得在未来对这些模型的部署上,也得搞足够的“软件工程”手段。而在模型内部,还得做“对齐”。这其中有的是真正的科学难题,有的是工程难题,我们都得去解决。这也意味着我们自己要承担相应的责任。也因此,我更愿意把这些东西部署在“可管理范围”之内,无论是功能范围,还是规模大小。你不能把一个“没人管”的东西扔出去然后带来危害,因为社会不会允许。
AI代理的时代
主持人:等到真的有了能连续工作数周甚至更久的智能代理时,你们最低会需要怎样的“保证”才肯让它接管一家随便的财富500强公司去做项目?
Satya Nadella:我觉得就算是像DeepResearch这样的东西,在真正给它物理实体之前,我们都会需要一定的保证。那恐怕是个门槛。
然后还要考虑到它在“运行时环境”中获得什么权限——你大概也会希望它被“沙箱化”,不能随意越界。虽然我们现在已经在“网页搜索”这个大环境下让AI出来活动了,但你仍要关注它到底能在搜索时做什么、写什么。再比如,如果它要生成大量代码来做某些计算,那么这些代码会部署在哪里?是只是临时生成一下拿来做输出,还是会被投放到世界各处运行?这些都属于行动空间里的事情,你是可以去加以控制的。
主持人:除了安全问题,也想问问你对微软现有的产品组合有什么设想。如果AI强大到可以像人一样委派和执行各种任务,可能不再只是Copilot这么简单——就像你之前举的播客准备的例子,而是更类似你如何把工作分给同事那样。从你现在的产品套件来看,怎样才能把这种能力融进去?另外,有人会担心大模型会让Office之类的软件“同质化”,因为用户只需通过大模型就能访问所有这些功能。你认为这会不会发生?
Satya Nadella:这是个好问题。
至少在第一阶段,我的看法是:LLM能否帮助我用更高效的方式在各种工具或工作场景中完成知识工作?我见过一个最好的演示,是关于肿瘤病案讨论的流程——一个医生要去开一个“肿瘤病案讨论会”,她用Copilot来生成会议议程,因为LLM能基于SharePoint上所有病历推理出有哪些病例需要重点关注。肿瘤病案讨论会是个非常重要的会议,你必须非常谨慎地分配不同病例的讨论时间,让大家能够高效讨论。这时候,LLM帮你做“时间拆分”和议程安排,就非常出色。会议开始后,大家用Teams来开会。由于AIcopilot会做实时转录和要点记录,所以医生本人无需去忙着记笔记,可以专注于病例本身。而且AI不是只生成文字记录,而是一个可以长期检索、随时回溯的数据库条目。会后,这位医生不需要再整理会议纪要,没在笔记这件事上分心。她还要备课,因为她是个带教医生。所以她对Copilot说:“把我们肿瘤讨论会的内容做成一个PPT课件,我好去跟学生讲。”这就是当下的一种场景。UI和“支架”仍旧是这些我们常见的工具界面,但现在被LLM自动填充了,工作流也随之被重塑。
再举个有趣的类比:要是有人在80年代末和我说“你将会在桌面上同时处理一百万份文档”,我会觉得荒诞,“难道要有一百万份纸质文档堆在我桌上?”但今天,我们确实有上百万个Excel、Word文档储存在系统里。所以我觉得未来也会在“代理”这个层面发生类似情况。肯定会有一个UI层来承载这些代理;对我来说,Office并不只是现在的Office,而是“知识工作”的用户界面,它会随工作流的演变不断进化。这就是我们想要做的。我确实认为如今的那些SaaS应用(我们常见的“增删改查”应用)也会被彻底改造,因为“商业逻辑”会更多地转移到这些“代理层”上。比如现在在我的Copilot体验里,如果我要准备一个和客户的会议,我只需说:“给我所有我需要知道的笔记。”它就会同时从我的CRM数据库和MicrosoftGraph中拉取相关信息,做成一个综合内容,还会加上一些逻辑处理。这就完全改变了我们对SaaS应用的使用方式。它不再是传统的“浏览器里跑的前端+后端数据库”那种模式。
主持人:SaaS产业的市值规模可以达到数千亿美元甚至上万亿美元。假如真的能被AI压缩(或说重塑),那么在接下来的10年里,微软市值会不会再上一个数量级?因为那代表着数万亿的市场规模
Satya Nadella:SaaS产业里也会诞生大量新价值。可能目前人们还没意识到的是,IT方面尚有巨大的“待办清单”,依然没被满足。通过自动生成代码,以及能够让你在所有SaaS应用间做自如查询的代理,你得到的实际效益会是前所未有的。可能会出现数量爆炸式增长的“应用”,或者说“代理”。在每个行业和每个细分市场,人们都能创造更多价值。所以会有大量新价值出现。但你不能原地不动,说“我把某些业务流程做了数据库建模,然后用个浏览器界面就算完成了”。那不行。你必须往更高层次走,思考:“用户最终想完成的任务是什么?”如果你能让你的SaaS应用化身一个强大的智能代理,并能在多代理协作的世界中良好运作,那么就能提高自己的价值。
企业管理经验
主持人:我想问一些与你在微软工作历程有关的问题。你觉得做“公司人”是不是被低估了?你几乎在微软度过了整个职业生涯。有人会说,你能贡献这么大价值,部分原因是你非常了解公司文化、历史、技术全貌,并且一步步走上管理层。是不是更多企业应该让那些对公司有深刻理解的人来领导?
Satya Nadella:这是个好问题,我以前倒没怎么这样想过。在我加入微软的34年里,我每一年都对留在微软感到更兴奋,而不是把自己简单地看作“公司人”。对任何加入微软的人来说,我也希望他们能够把这里当做一个平台,不仅可以获得经济回报,而且能获得自我价值和使命感的实现。如果我们能成为他们实现目标的舞台,这就是我们和员工之间的“契约”。所以,我觉得企业必须营造一种文化,能让人们愿意像我这样留下来。这说明微软在我身上做得还不错。我也希望以后能一直保持这种情况。
主持人:你说过“第六任”微软CEO(将来某一天会接班),他们才能真正用上你们现在投资的研究。那么你打算怎么留下未来的“萨蒂亚·纳德拉们”,好让他们最终成长为下任领导人呢?
Satya Nadella:这很有意思。今年是微软成立第50年,我常常思考这个问题。我的思路是:追求“长寿”并不是目标,“保持相关性”才是目标。我们必须每天都在做对世界“有用且相关”的事情,不仅着眼于现在,也为将来做准备。
我们所在的行业没有“特许经营价值”可言,这其实是另一大挑战。你看我们今年投入的研发经费,大部分都在赌5年后的情形。我们必须抱着这种态度:“我们正在做一些我们认为对未来有意义的事。”这才是我们每天要关注的。也要明白,命中率不可能100%,所以必须对失败保持高容忍度,并且要敢于做足够多的尝试,这样公司才有机会度过下一个周期。对我们这行来说,这确实不容易。
主持人:你提到微软即将迎来50周年。如果看市值排名前5或前10的公司,几乎所有其他公司都比微软成立得晚。这也折射出一个现象:最成功的企业往往比较年轻。要知道,平均的《财富》500强企业寿命大概也就10到15年。那微软是怎么一直保持活力、保持相关性的?你们如何做到一遍又一遍地“再创始”呢?
Satya Nadella:我喜欢ReidHoffman用过的一个词:“再创始“。这就是一种心态。
人们常说“创始人模式”,但对于我们这些普通的、不是创始人的CEO来说,更像“再创始人模式”。你得有能力一次又一次地以全新视角看待事物。这是关键。回到你那个问题:我们要想在文化上创造一种氛围,让大家都有权挑战已有的核心假设,改变我们做事方式以及与世界的关联方式。我们能否给自己这种“许可”?很多公司会被自己现有的商业模式之类的因素“束缚”住。但你必须学会“解除束缚”。
主持人:如果有一天你离开微软,你会去创办什么公司?
Satya Nadella:唉,我是个“公司人”,可能永远不会离开微软吧。要是真要我想想,会是什么方向……我觉得我会选一个能够真正实践“技术的民主化力量”的领域。我们一直说科技是最伟大的民主化力量之一,但现在看来,我们真有机会让它发挥更大作用。假设单就“每单位电力和金钱所能获得的令牌计算”在不断提升的话,我希望在那些“服务严重不足”的领域来应用这些能力。比如医疗、教育、公共部门;如果能让人们的健康、教育水平,以及政府提供的公共服务都有改观,那将是非常有意义的事业。
主持人:现在我有点不确定你对“AGI”是不是相信。你觉得会不会真的有那么一天,所有“认知劳动”都能被自动化?就任何在电脑上能做的事情都能让AI做了?
Satya Nadella:这里我对一些定义的用法不太满意。因为“认知劳动”不是个静止不变的东西,现在我们所说的认知劳动,也许很快就会出现新的形式。
我一直说,别把“知识工作者”(knowledge worker)和“知识工作”(knowledge work)混为一谈;今天的知识工作可以被自动化,但这并不代表不会出现新的知识工作。谁说我人生的目标就是“筛邮件”?让AI代理去筛邮件吧。然后AI交给我三个草稿,让我去审阅。后者又是一个不同层次的工作。“好的,我审阅一下是不是符合我的意图。”
那么AI会不会最终也能替代那个“更高层次的审阅”呢?可能会,但它替代后,又会出现更高一层的东西。为什么我们会觉得,当一种工具改变了我们对“认知劳动”的定义后,就所有认知劳动都被取代了呢?历史上,每次有新工具都在改写工作形态,但并没有把“所有劳动”彻底抹去。
主持人:我猜你应该也听过一些相似类比,比如马在工业时代被逐渐淘汰了——虽然马在某些特殊地形还挺有用,但马显然没有再次获得大规模就业机会。有人担心,人类也会像马那样被淘汰……
Satya Nadella:但那只是工业革命200年的历史。在那之前,人类社会对于所谓“认知劳动”的概念也才不过这几百年。比如说化学。如果量子计算+AI真能大幅推进材料科学,创造出新的材料,这很好。可这会不会就“毁掉”人类的所有价值?为什么不能是一个人类和机器共同存在的世界,既拥有强大的认知机器,又保留人类的“认知自主权”?
主持人:那我就换一种说法吧。比如微软的董事会,你会不会觉得未来某一天可以让一个AI加入董事会?它能不能拥有足够的判断力、背景知识和对整体业务的深刻理解,以便成为一个有用的决策者?
Satya Nadella:这是个很好的例子。我们现在已经在Teams里做了一个“会议辅助代理”,它还处在早期阶段。其目标就是能利用长期记忆,结合对会议信息、项目进展和团队情况的上下文理解,成为一个出色的“引导者”。
如果在董事会议程中也能有这么一个代理,帮助人们不跑题就好了。毕竟董事会成员每季度才来一次,想要理解微软这样一个复杂公司并不容易。如果有一个“辅助代理”不断提醒大家讨论重点,这很棒。这其实就像你前面提到“无限记忆”一样:AI可以帮我们弥补“人类理性有限”的不足。赫伯特·西蒙(Herbert Simon)也说过,我们人类的理性是有限的。如果有一个认知放大器来辅助我们,那不就很好吗?
主持人:你之前也提到材料和化学。我记得你最近说过,想在未来25年里让这些领域取得相当于过去250年的进步。可当我想象250年后的图景,里头可能包括星际旅行、太空电梯、长生不老、治愈所有疾病……你居然说要在25年内做到?
Satya Nadella:我之所以这样说,是因为我喜欢那个类比:“工业革命花了250年”。我们现在要从一个“基于碳”的体系转变为别的什么,就意味着要从根本上重塑这250年里化学带给我们的东西。在这方面,我希望量子计算机能成为关键工具,帮我们找到新材料,然后我们再去制造这些新材料,从而应对地球上所有这些挑战。等到那时,星际旅行也当然没问题。


书享界保留所有权 |书享界 » 微软CEO 2万字实录:AI行业不会“赢家通吃” 、全球首款拓扑量子芯片问世