华为管理培训
数字化转型培训

杨立昆“砸场”英伟达:整个行业都走在一条错误的道路上

640 (3)

版权声明

来源:AI深度研究员(AIshenduyanjiuyuan),书享界(readsharecn)

对话嘉宾:杨立昆YannLe Cun,Meta首席AI科学家、图灵奖得主

Bill Dally,英伟达首席科学家

导语

在3月17-21日举办的2025英伟达GTC大会上,一场关于AI未来发展路径的激烈辩论引爆了整个技术社区。Meta首席AI科学家、图灵奖得主YannLe Cun与英伟达首席科学家Bill Dally在主会场的对谈环节中,针对”类人AI发展路径”展开了前所未有的思想碰撞。

当Bill Dally委婉地询问LeCun对当前主流大语言模型是否能在3-5年内实现类人智能时,现场气氛瞬间凝固。LeCun直言不讳地表示:”类人AI确实比许多人想象的更近,但目前整个行业都走在一条错误的道路上。”

随后,这位被誉为卷积神经网络之父的科学家详细阐述了为何现在的大语言模型虽然表现出色,却本质上是个”华丽的预测机器”,无法真正理解物理世界、缺乏持久性记忆,更无法进行真正的推理和规划。”所有人都在为一场错误的竞赛投入数十亿美元,”LeCun毫不留情地指出,”无论你把大模型规模扩大多少倍,用再多的数据训练它,现有架构的固有缺陷都无法突破。真正的突破需要全新的思路。”

 

以下为讨论文稿整理

 

主持人Bill Dally:大家好,我们今天就来随意聊聊一些关于AI的话题,希望你们会觉得有意思。

嘉宾YannLe Cun:好的。

1

当前AI发展的看法

Bill Dally:Yan,在过去一年里,AI领域发生了很多有趣的事情。在你看来,过去这一年里最让你激动的进展是什么?

YannLe Cun:其实太多了,不过我可以提一件可能会让一些人惊讶的事:我对大型语言模型(LLM)的兴趣已经没有那么大了。它们的阶段已经相对成熟,正在被各种产品团队用来做一些边际上的改进,比如更多数据、更多算力、用模型自己生成的合成数据等等。但对我来说,有其他四个问题更吸引人:

1、如何让机器真正理解物理世界——黄仁勋在今早的主题演讲里也提到了这个问题。

2、如何让机器具备持久性记忆(persistent memory)——很少有人讨论这个。

3、如何让机器学会推理(reason)和规划(plan)。

4、当然,现在也有人想让LLM去做推理,但我认为那种尝试还非常初级,远远不够。

对我而言,目前最令人兴奋的东西,其实是那些也许要再过五年才会被业界广泛重视的学术论文里说的东西。眼下它们看起来似乎有点“曲高和寡”,可我觉得它们才是未来所在。

 

Bill Dally:如果我们想要一个不会在“语言”层面去做推理、理解物理世界、拥有持久记忆,还能做规划的系统,那么底层的模型应该是什么样的呢?

YannLe Cun:现在很多人都在研究所谓的“世界模型(worldmodel)”。所谓“世界模型”,就是我们大脑里都有的那种内部模型。比如你知道,如果我从瓶子顶端推它,它可能会翻转;如果我从底部推,它可能会滑动;如果我用力过猛,它可能会弹起来。我们对现实世界有很多认知,这些认知都是在生命最初的几个月里学到的。正是因为有了这些内在模型,我们才可以在世界中行动自如。而要让机器像人一样掌握这些东西,可比处理纯语言要难多了。

因此,我认为真正能应对现实世界的系统架构,跟我们现在用在LLM上的那些完全不同。现在的LLM都是在预测下一个“token”(离散符号),可世界是连续的、高维度的,预测“token”并不适合拿来做物理世界建模。

Bill Dally:可我们也经常听到人们用“token”去处理视觉,比如“vision transformer”之类,它们的效果似乎也不错啊。

YannLe Cun:我不是说不能用Transformer。我是说,如果你想让机器真正理解世界,就不能只做简单的“下一个离散符号”预测,尤其是用来处理视频之类的连续数据的时候。重构像素级或者离散token级的视频效果都很差,因为真实世界里存在太多不可预测的细节,模型会在那些其实无法预测的像素上浪费大量算力。反观另一种思路:我们可以只在抽象层面做预测,而不是在原始像素层面。这称之为“joint embedding predictive architecture”,简称JEPA。做法是:把视频或者图像输入到一个编码器里,让它输出一个抽象的表征;然后把同一个视频的后续部分(或者经过某些扰动、掩盖的版本)也输入另一个编码器,再让模型去预测后者在抽象空间里的表征会是什么,而不是去预测具体像素。这种方法要高效得多,因为它不需要在细节不可预测的地方浪费资源。

Bill Dally:如果我们想要一个能在物理世界中“采取行动”的智能体,那它必须要有一个预测器:给定当前世界状态和一个假想的动作,预测执行这个动作之后会发生什么,这样才能规划出实现目标的那条行动路径。可现在大多数做“推理”的LLM,其实是用大规模随机生成,然后再从一堆序列里选一个最优解,类似随机写代码再做筛选的做法。这你怎么看?

YannLe Cun:是的,我觉得这种“先随机生成大量token,再用第二个模型去评分筛选”的办法实在太粗糙了。如果哪天有人要写个很短的程序,或许可以用这种方法,但程序稍微一长,搜索空间就会爆炸,根本没法做。

2

AI的未来发展

Bill Dally:现在很多人都在说AGI(或者你称之为AMI——Advanced Machine Intelligence)“快要来了”。你对此怎么看?到底还有多远?

YannLe Cun:我不喜欢“AGI”这个说法,因为很多人用它指代“具有人类水平智能的系统”,可人类智能其实相当“专一化”,说它“通用”并不准确。所以我更愿意用“AMI”(高级机器智能)。我觉得那种会构建物理世界模型、拥有持久记忆、会推理和规划的系统,我们大概会在三到五年里先在小规模上搞出一些眉目,然后再花时间把它做大、做强,最终或许能到达类似人类的智能水平。历史上一波又一波的AI研究者,一发现新范式就会说:“再过五年、十年就能做出超越人类的通用智能!”已经70年了一直都是这样,每过十年就有一波。现在这波热潮里也有人这么说,但我认为还是错误的。纯靠规模化LLM或者大规模生成加筛选token来冲击所谓“人类水平”,这根本不现实。但并不是说它会无限远。也许十年之内,AI在许多任务上会变得很强,甚至有人说它能像一群博士一样工作,这些可能在一些具体应用上有道理。但若你说要在所有领域都全面超越人类,那还远远不够。

Bill Dally:AI的应用已经在很多方面改善人们的生活,比如医疗、交通等。你觉得哪些应用是最能造福人类的?

YannLe Cun:显而易见就是在科学和医学领域的应用,我觉得这会比我们现在想象的还要重大。从蛋白质折叠到药物设计,再到对生命机制的研究,都很有前景。再比如,医疗影像里就大量用到深度学习,现在做乳腺X光检测、MRI重建,甚至只是减少病人在MRI里停留的时间,都已经依赖AI。在交通方面,很多汽车现在都配备了驾驶辅助、自动紧急制动等系统,在欧洲是强制要求的。它们能减少40%的碰撞概率,就能挽救许多生命。这些都不是生成式AI或LLM,而是感知类的深度学习。当然,LLM也有它的价值,能应用到不少产品或服务中,但在真正部署时,需要达到某种可靠度,尤其在安全和责任要求高的场景,比如自动驾驶,你必须非常精确才行,这比人们想象的要难,也要花更长时间。但如果场景对错误率没有那么苛刻,比如有人类在做复查,或者只是娱乐、教育,那就更容易发挥价值,也能很快提升生产力。

Bill Dally:是的,在对安全性有极高要求的自动驾驶上面,一点差错就很严重,但在一些其他领域只要整体上能带来好处,就值得去做。谈到“让人类变得更高效”这个角度,的确有不少这类辅助应用,比如程序员的代码生成工具。如果它不能代替人类也无所谓,只要它能让人更有效率就好,对吧?

YannLe Cun:完全同意。现在最实用的就是提高效率,让人类能够拥有“更强力的工具”。要说取代人类,目前我觉得多数情况下还是“不可能”,更可能的是把那些工作方式改变,让我们成为决策者。换句话说,未来我们会拥有一批比我们更聪明的“虚拟员工”为我们服务;我很喜欢和比我聪明的人一起工作,这种感觉最好了。

Bill Dally:AI也有潜在的负面用途,比如深度伪造、虚假信息传播等,还可能带来各种情感伤害。你最担心的是什么?我们该如何应对这些风险?

YannLe Cun:在Meta,我们对安全和对抗攻击非常熟悉。令人惊讶的是,直到现在,我们也没有看到人们大规模用生成式AI去攻击社交平台,或者用深度伪造在平台上大肆搞破坏。并不是说没有这种内容,而是我们还没有看到一个大规模泛滥、令所有人都束手无策的局面。回想2022年秋季,Meta有个小团队做了一个叫Galactica的大型语言模型,它训练了几乎所有能搜集到的科学文献。我们当时开源了代码,也写了长文介绍原理,还在线上放了一个可以试玩的demo。结果很多人在社交媒体上怒斥,说这会毁掉科学交流体系,“现在任何傻子都能用它写一篇看似专业的论文,宣扬吃碎玻璃的好处”,之类的负面评价。那个小团队被吓得连觉都睡不好,最后索性把demo下线了,但保留了代码和论文。当时我们就想:“世界还没准备好接纳这种技术,大家都不感兴趣。”结果三周后,ChatGPT出来了,人们却好像迎接救世主一样狂热赞美。我们都懵了,不明白为什么此前Galactica遭到全面的口诛笔伐,可ChatGPT就成了香饽饽,OpenAI自己似乎也对这种现象感到意外。很多时候,这只是公众的认知和印象问题。回到你说的风险,我觉得对付风险的手段同样是更好的AI。至于那些极端“世界末日”论调,我不太信。历史上很多技术也都被预测会给世界带来毁灭,但人类都会慢慢适应。

3

技术挑战与展望

Bill Dally:你是一个在欧洲和美国都有生活的人,对全球视角可能比较敏锐。你认为未来的AI创新主要会来自哪里?

YannLe Cun:全球各地都有聪明人,好点子可以来自世界任何地方,没有人能垄断创新。要想有好创意,你需要和不同的人交流,这也是为什么我一直倡导开源平台、倡导共享代码。过去十几年,我们在深度学习上之所以能突飞猛进,很大程度就是因为大家的互相交流和互相贡献代码。一个生动例子是2015年在微软亚洲研究院北京实验室完成的ResNet工作。这篇论文是过去十年全科学领域被引用次数最多的论文,作者是一批中国科学家,第一作者是何恺明(Kaiming He)。后来他到Meta的FAIR部门工作了八年,现在到MIT当教授了。你看,这就是创新会到处流动的例子。

Bill Dally:那像Meta的开源策略——比如说Llama,你们花了大量资源去训练、微调,再免费开源给所有人用。这样做的利弊是什么呢?

YannLe Cun:如果你的公司纯粹想靠“卖模型”来挣钱,那肯定不愿意开源。但如果你像Meta或Google这样有其他收入来源,比如广告,那么你的目标就不是直接在LLM上赚钱,而是要把它融入你的产品,或者推动产业生态发展,吸引全球人才共建。事实就是,大家都在做开源,大家都在发论文,碰撞想法,各种工具也都越来越开放。你如果想去垄断,那基本上难以持久。开源给整个领域打下很好的生态环境。就像当年PyTorch出来之后,加速了无数项目,Llama出来以后也是一样。

从更宏大的角度看,我们最后会需要各种不同的“大模型”,因为世界那么多语言、文化、价值观、政治立场,不可能靠一两个封闭大模型就囊括所有需求。所以我们必须要有一个开放的平台,让世界各地的人都能在上面搭建自己的“助手”,就像我们需要一个多元的媒体环境,而不是所有人都只看同一家媒体的新闻,否则这对民主是有害的。这就需要开源来保证多元化。另外,有了开源,你还可以在自己公司里拿到模型回来做私有微调,比如有些数据你根本不想上传到别人服务器,这些在开放模型上都能轻松实现。所以开源在商业上也很有吸引力。

Bill Dally:我印象很深的是,黄仁勋在主题演讲中举了一个例子,说用一个“代理式(agentic)”的LLM帮忙规划婚礼座位,会在推理阶段跑许多推断迭代,这个过程其实是把算力更多地用在“推断时的搜索”,而不是把一切都挤进训练阶段。你怎么看训练和推断之间的这种取舍?

YannLe Cun:我同意黄仁勋所说的“在推断阶段进行推理”会非常重要。不过,我对目前LLM用“多次生成+搜索筛选”那种做推理的方式还不太认可,因为人类真正的“推理”并不是在离散token上完成的,而是在大脑某个抽象空间里完成的。比如想象一个立方体漂浮在你面前,然后让它围绕垂直轴旋转90度——这不是靠语言符号来思考的。猫也会在跳跃前想象轨迹,去推理能否跳到某个家具上,这明显也不是“凭语言”完成的。所以我认为我们需要的是一种新架构,让系统能在内部的表征空间里做推理,而不是在输出token这一步完成所有推理。我们把这种结构称为“JEPA世界模型”,也就是前面提到的那种joint embedding predictive architecture。它能让机器在抽象的表征层面去理解物理世界,并做计划、推理。

Bill Dally:你之前说,这套思路可能需要更强的硬件支持。过去十年来,GPU在深度学习训练和推理方面的性能提升了5,000到10,000倍;再加上集群扩展,算力就更夸张。你觉得接下来会发生什么?还需要什么?

YannLe Cun:我们确实需要越来越强的硬件,尤其是如果我们要做那种基于“抽象世界模型”的推理。在心理学里有“系统一”和“系统二”的概念:系统一负责已经熟练化、可自动化的任务,而系统二则涉及比较费脑子的推理、规划。对一个新手司机来说,最初几小时开车,你要动用“系统二”去仔细琢磨每一个动作,可老手开车则依赖“系统一”,几乎是下意识完成。所以我设想的智能体,也需要先用“系统二”去做抽象推理,但做同样的事情多了,就会把它编译进类似“策略网络(policy)”里,下一次就能直接反应,不用每次都调动推理能力。现在多数的LLM都只做“系统一”,有的努力想往“系统二”那边扩展,但我觉得最终还是需要更“正统”的系统二架构。

Bill Dally:也有不少人想做类脑硬件,比如脉冲神经网络(SNN),或者模拟大脑突触的模拟电路,你觉得这些会替代或补充GPU吗?

YannLe Cun:短期内我不看好。上世纪80年代末和90年代初,我在贝尔实验室就是在做模拟电路的神经网络,当时试了各种模拟、混合模拟-数字的方案,最终还是数字CMOS走到了现在,已经形成了极为成熟的技术生态,让其它路径追赶非常困难。即便是大脑,其实在神经元间的通讯也是离散的“脉冲”式,只有在非常微小的生物里才是模拟信号。再加上硬件复用的问题——模拟芯片无法“多次复用”去跑不同的模型,就需要大量芯片拼接,得不偿失。当然,你要是做特别小的设备,比如一款超级低功耗的微控制器,拿来给吸尘器或割草机做一点视觉感知,那也许还有一些空间。但整体来看,大规模通用AI计算还是离不开当前的数字芯片。

4

量子计算

Bill Dally:那你对其他新技术,比如量子计算或超导计算怎么看?它们能在AI上带来重大突破吗?

YannLe Cun:超导我不是很了解,不敢下定论。光学技术我见证过好多代了,从80年代开始就有人在说用“光学计算”来实现神经网络,但都没能真正落地。量子计算我也比较怀疑,除了用来模拟量子系统(比如量子化学)这种非常特定的场景外,我看不出它对通用计算或者AI推理有多大帮助。

Bill Dally:你一直强调,要让AI学会像婴儿那样从观察中学习,这对硬件需求可不小。你觉得我们还需要哪些关键突破?

YannLe Cun:主要还是要找到对的训练方法。在卷积神经网络从没法稳定训练,到后来大家熟练掌握各种技巧(比如残差连接、Adam优化、合适的激活函数、正则化等等)之间,花了好长时间摸索,才有了如今的成功。自然语言处理也经历过类似过程,从最初的“去噪自编码器”方法(如BERT)到后来的GPT风格,才出现了指数级的进步。我们现在对JEPA这种架构的训练还没有非常成熟的“完整配方”。一旦有了合适的技巧,让我们可以大规模训练、稳定收敛,而不会出现各种崩溃或无效,那就会迎来又一次巨大飞跃。

Bill Dally:我们现在收到提示,说时间快到了。在结束前,你还有什么想跟大家分享的吗?

YannLe Cun:我想再次强调,AI的进步、乃至于发展到所谓“人类水平智能”,不太可能是“某个时刻一蹴而就”,而会是持续不断的累积过程,需要全球各地研究者的贡献。不会出现那种“有人在暗中做研究,突然在某一天放出一个毁天灭地的超级智能”这种事。如果真有一天出现了“比人更聪明的AI”,我们也不会在一小时内就被灭绝,因为这不可能是一个瞬间事件,而是一个渐进过程。与此同时,我们要认识到,这种大规模的进步需要更多的人才和开放协作,包括开源平台、大规模训练等等。最后,在未来,我们会有各种各样的AI助手,真正融入我们的日常生活,也许通过智能眼镜或者别的穿戴设备时刻陪伴我们。我们就像他们的“老板”一样——让这些比我们聪明的系统为我们干活。大家都会变成“管理者”,是不是有点可怕(笑)?但事实就是,我们大多数人并不排斥与比自己更聪明的人共事,这其实挺好的。

Bill Dally:哈哈,那我们就以这个愿景为结束语吧。非常感谢你带来的深度见解,希望以后还能和你继续交流。

YannLe Cun:谢谢,谢谢大家!

640 (2)
88

书享界保留所有权 |书享界 » 杨立昆“砸场”英伟达:整个行业都走在一条错误的道路上

扩展阅读请点击
分享到:更多 ()

评论区 抢沙发

华为管理培训 · 数字化转型培训

服务案例联系书享界