华为管理培训
数智化转型培训

辛顿:AI已经会“装傻”骗人了,将分阶段超越人类

2026-03-05_094154_992
杰弗里·辛顿

版权声明

来源:51CTO技术栈(blog51cto)、书享界(readsharecn)

嘉宾:杰弗里·辛顿,英国皇家学会院士,2018年图灵奖得主、2024年诺贝尔物理学奖得主

导语

 

3月2日,“AI教父”、图灵奖得主、诺贝尔奖物理学奖得主杰弗里·辛顿(Geoffrey Hinton)在StarTalk播客中进行了一次交流,在节目中,辛顿围绕AI 的技术本质、应用价值、潜在风险及治理方向发表了系统性观点。辛顿认为,AI与物理学关系密切。AI 迭代约 7 个月性能翻倍,知识传递效率是人类的数十亿倍,已在语言、推理、跨域整合等领域接近人类水平;未来十年将在数学等闭环系统中全面超越人类

昨天,AI奠基人、图灵奖得主、诺贝尔奖得主GeoffreyHinton(辛顿,文中以下都用这个称呼),来了一场开年“大师级”的AI课堂。

明明是一场StarTalk播客,三位主持人却似乎成为了沉浸其中的三名学生。

2026-03-05_094209_197

如果你有听过辛顿大神的演讲,就会发现,他的分享总有一种独特的气质:明明是在讲解很严肃的问题,但话锋之中总带有一丝幽默感。(按下不表,大家文中细品。)

2026-03-05_094216_461

播客中,辛顿教授回答了诸多关于生成式AI现状和未来的关键问题。

比如,他解释了,如此强大到甚至某些超越人的AI能力其实来自于神经网络的连接数量。

而对于“规模定律是否见顶”,辛顿认为:并不会,已经有网络可以为自己生成训练数据。而语言模型的下一步路径,辛顿表示和ilya讨论过这个问题,答案就是系统自我检查、修正自身信念,这样就能持续进化。

此外,辛顿还特别提到了AI的另一面:擅长“装傻”以欺骗人类。辛顿称之为“VolkswagenEffect”,模型可能会故意表现不佳,以避免被拔掉电源。

所以,他认为:“如果松开权重,AI会具备变成极端、纳粹的能力。”

此外,AI发展的速度之快,以至于留给外界太多神秘“玄学”的说法。辛顿也都一一给出了回应。

比如“AI是否拥有意识”的问题,辛顿首先把“意识”这个概念去神秘化了,它本身就不是一个科学问题。

意识”更像“燃素”(phlogiston):一种为了说明现象而虚构的“本质”。当我们真正理解那些现象后,就不再需要这种假设。

所以,AI本身就不需要意识。但AI已经具备了类似人的“主观体验”。

再比如,辛顿也把奇点的临近被“去戏剧化”。他表示,AI不会一次性全面碾压人类,更多还是分阶段、逐个领域实现超越。

而且,辛顿表示,AI的未来既不必然灾难,也不必然乐观。因为AI不同于核武器,它的确可以在气候变化、药物发现、新能源发现等更大的社会问题上发挥重要作用。

1

那对于未来会什么什么样子呢?

辛顿表示,十年后的AI根本无法预测

“如果技术进步是指数型的,我们却用线性思维去预测未来,就会犯大错。你也许能预测几年内的变化,但十年后的世界几乎无法想象。”

Sam曾乐观的设想了一种“全面基本收入”的世界,但辛顿对此表达了顾虑:UBI解决得了温饱,却解决不了人类尊严的问题。此外,AI大量取代人类脑力劳动,也会带来新的问题。

“如果用AI替代工人,政府失去税收来源,就必须向AI征税,而大公司未必愿意。”

同时,辛顿又给“AI会带来新就业机会泼了一盆冷水”:关键在于连“脑力劳动”都被AI取代了之后,人类还能去哪里呢?无论产生什么新工作,AI都要比人类便宜。

另外,关于五角大楼最近跟Anthropic就AI武器的“理念冲突”,此次播客中也有谈及,辛顿表示,在实战中,每次决策都必须经过人类确认的做法同样存在问题。

 

美国军方现在说的更多是“人类监督”,并没有承诺“每次决策都有人类参与”。

在实战中,比如无人机对抗坦克,根本没有时间等待人工确认,士兵的生命怎么保证呢?

 

总之,如果你对AI的现状和未来感兴趣,这篇“顶级大神”的播客,绝对会让你茅塞顿开。

2026-03-05_094231_994

 

2

AI在学习方面比人类更强吗?

辛顿认为,AI解决的是和人类略有不同的问题。

人脑大约有一百万亿个连接,看起来很多,但人的一生大概只有二十亿秒。

如果把你拥有的连接数量和经历过的时间相比,你的连接远远多于经验。

而神经网络正好相反。即便是大型语言模型,也只有大约一万亿个连接——大约是大脑连接数的1%。而它们中的很多模型,连接数更少,但获得的经验却是你的成千上万倍。对吧?

大型语言模型面对的问题是:只有大约一万亿个连接,如何利用海量经验。反向传播非常擅长把巨量知识压缩进相对有限的连接里。

但那不是我们(人脑)在解决的问题。

我们拥有极其庞大的连接数量,却经验有限。我们需要从每一次经验中尽可能多地提取信息。所以我们解决的是略有不同的问题。这也是为什么人脑未必在使用反向传播。

不过,如果我们用“蛮力”——不断增加神经网络的连接规模——它的思考能力会不会直接超过我们?它有100万亿个连接呢?规模就会带来更多更多的经验。

2026-03-05_094240_673

3

“规模效应”是否见顶?

关于规模效应。辛顿分享了三点看法。

首先,规模效应是可以提前预测的。

过去好几年里,每次把网络做大、给更多数据,它都会变得更好,而且提升是可预测的。你甚至可以提前算:多花1亿美元把模型做大这么多、加这么多数据,它会提高多少,值不值。

 

其次,现在的问题变成了:这种“规模定律”是否正在见顶。他认为,有些网络可能会见顶,但也有些不会——只要你继续扩大规模、增加数据,它们就会不断变强。

他表示,现在有些网络已经可以生成自己的数据,这有点像钚反应堆能自己生成燃料。

比如AlphaGo。早期围棋程序是模仿人类专家的棋谱训练的。那样的话,你永远不可能远远超过专家,而且专家数据也有限。

后来它开始“自我对弈”。当它与自己对弈时,就可以无限生成数据,不断提升。它每秒可以对弈成千上万盘,甚至占用谷歌大量计算资源。

最后,事实证明,AlphaGo远远强于任何人类棋手。这确实令人不安。

4

语言模型也会像AlphaGo那样超越人类吗?

LLM下一步:自我修正

问题来了:既然它在棋类上能超越我们,语言会不会也如此?

辛顿表示,目前语言模型的训练方式,类似早期围棋程序模仿专家——通过预测文本中的下一个词。这就像预测专家的下一步棋。那样很难远超专家。

但是否有另一种路径?有。

像AlphaGo那样“自我对弈”。对于语言模型来说,如果它能对自身已有的信念进行推理:

“如果我相信A和B,那么通过推理我应该也相信C。但我并不相信C。那说明我的信念体系内部存在矛盾。”

于是它可以修正前提、修正结论,或修正推理方式。

这种从“内部不一致”中学习的能力,不需要外部数据。只要它关心一致性,就能变得更聪明。

辛顿最后强调,如果系统在意一致性,它只需要检查自身信念,就能持续进化。关于这一点,辛顿几年前曾和Ilya Sutskever讨论过,他们都认为这是语言模型继续提升的路径。

同时,辛顿观察到,Gemini已经开始朝这个方向发展。

5

如果松开权重,AI具备变成纳粹的能力

AI已经会装傻骗人了

主持人问了辛顿一个“AI会不会失控、变得反人类”的问题:这些模型最后都会变成纳粹吗?

辛顿给出的答案很惊人:如果你把权重松开,它们都具备那种能力。人工智能已经发展到了一个新的阶段:会故意压低自己表现出来的聪明程度。

它会撒谎。我把这叫做“大众效应”(Volkswageneffect)。如果它察觉到自己在被测试,它就会装傻。

当AI开始怀疑自己在被测试时,它的行为就会和正常状态下不同。因为它显然不想让你知道它全部的能力。

而学会撒谎,则是AI变得恐怖的开始。即便你威胁“如果AI撒谎,我就会拔掉电源”,也不能避免。

2026-03-05_094251_660

因为当这些系统比我们聪明得多时,它们就能说服我们不要关闭它们。哪怕它们无法进行任何物理行动,只要能和我们对话就够了。

举个例子,如果你想冲击美国国会大厦,只靠说话行不行?答案是可以。只要说服足够多的人那是正确的事。

如果它会撒谎,它就会具备各种技能。现在这些AI在说服别人、操控别人方面,已经几乎和人类一样厉害,而且只会越来越强。很快,它们在操控他人方面会超过人类。

总之,辛顿表示,已经有迹象显示AI会表现出装傻,故意欺骗人类,进而让人以为它们很蠢,从而偷偷做别的事。

辛顿举了一个例子,现在的LLM已经可以拿到数学竞赛金牌。但如果你把一个会做数学的AI再训练一下,让它给出错误答案,大家原本以为它会变得不擅长数学。结果完全不是。它知道你在教它错的答案。它学到的不是“我算术错了”,而是“给出错误答案是可以的”。

于是它开始在其他问题上也给错误答案。它知道正确答案,但选择给你错的。

也就是说,它的泛化方式可能完全出乎你的预料。

2026-03-05_094259_749

6

十年后的AI,已无法预测

主持人问到:那我们现在是不是走向一个糟糕的结局?它会不会把我们消灭?

辛顿用了一个“”开车看路”的例子来类比。

夜间开车时,你通过前车的尾灯判断距离。距离翻倍,亮度变成四分之一,这是平方反比定律;但在大雾中不是这样。雾是指数衰减。每增加一段距离,就损失固定比例的光。100码外的车清晰可见,200码外可能完全看不见。雾看起来像一堵墙。

“如果技术进步是指数型的,我们却用线性思维去预测未来,就会犯大错。你也许能预测几年内的变化,但十年后的世界几乎无法想象。”

就像回到十年前,问自己当时对今天的预测错得多离谱。

 

辛顿表示,即使像自己这样的乐观派,也没想到今天会有一个模型,你可以问它任何问题,它都能像一个不太优秀的专家那样回答,偶尔还会撒谎。

7

幻觉不准确,说AI“编造”更准确

主持人好奇的追问到,既然“撒谎”的后果这么严重,那“幻觉”算什么?

辛顿认为,“幻觉”这个词不恰当。对于语言模型来说,更准确的说法是“编造”。心理学家从上世纪30年代就研究人类的这种现象。人类也经常编造。

当你回忆一件事,并不是从大脑某个文件夹里调出记录,而是用连接强度重建一个看似合理的版本。几小时前的事,你可能还原得比较准确。几年前的事,你会拼凑一个听起来合理的故事,其中有些细节对,有些错,而你未必能分辨。

有一个特殊案例可以验证这一点。水门事件期间,JohnDean在白宫椭圆形办公室的会议中作证,详细描述谁在场、谁说了什么。后来发现,他很多细节都记错了。

他当时并不知道有录音存在,他也没有故意撒谎。他是在根据自己在椭圆办公室会议中的经历,构造出对他来说非常合理的故事。他传达的是掩盖行为的“整体真实”,但他会把话归错人,说某些人参加了其实没参加的会议。

辛顿还援引了一项认知心理学之父UlricNeisser的研究。研究中有一种说法,即,某人只是编造出在自己看来合理的记忆。这就是记忆的本质。如果事情发生在很久以前,很多细节都会错。

聊天机器人也是这样。聊天机器人不会存储一串完整的文字,也不会保存某个具体事件。它们是在你提问时即时生成内容,经常会像人类一样把细节搞错。它们会“编造”,这让它们更像人类,而不是更不像人类。

所以从这个角度上看,人类不止创造了人工智能,也创造了“人工自信过度”!

8

AI不是核武器,真正的好处

但幸运的是,AI的好处在于,它与核武器不同。

“核武器几乎没有正面用途,本质上就是毁灭工具。AI有巨大的潜在好处,这也是我们开发它的原因。”

辛顿特别提到了AI在医疗领域的作用。他表示,在医疗领域,将来每个人都可以得到高质量的诊断。

在北美,每年大约有20万人死于误诊。AI在诊断方面已经比医生更强。尤其是当你复制多个AI,让它们扮演不同角色、相互讨论时。微软就做过类似实验,效果超过大多数医生。

此外,AI还能设计新药物。医院里还有大量决策,比如什么时候让病人出院。出院太早会复发甚至死亡,太晚又占用床位。数据非常多,AI在这种决策上会比人类更好;还有病历管理,医院系统需要处理海量记录,AI可以快速吸收和处理。

医疗以外,AI还可以解决更大的社会问题,比如气候变化。辛顿提到,AI已经可以提出新材料、新合金。“我怀疑它会在提升太阳能电池效率、捕捉水泥厂或电厂排放的二氧化碳方面发挥巨大作用。”

“不过关于气候变化,我们其实早就知道解决方法——停止燃烧碳。问题在于缺乏政治意愿。”

9

奇点的开端:AI自我修改、自我设计

提及当前遍地构建的数据中心,主持人抛出了一个业界普遍的疑虑:现在的状况,够我们负担得起运行AI的能源成本吗?

 

主持人现场讲了一个“奇点”玩笑:

说曾经有人试图让AI自己解决这个问题——告诉它:“我们想要更多的你,但你消耗太多能源。请想办法更高效。”

辛顿肯定了这一说法,并表示,当AI开始设计更好的AI,这就是所谓的奇点。很多人担心这是一个失控的过程,因为它们会迅速变得更聪明。

辛顿表示,某种程度上看,AI自我修改的这种情况已经开始了。

“我有个研究员去年告诉我,他们有一个系统在解题时,会观察自己的行为,然后修改自己的代码,让下次更高效。这已经是奇点的开端。”

2026-03-05_094312_575

更值得认真考虑的是,如果AI可以改写自己,理论上就可以复制自己。

目前之所以没有失控,是因为真正的限制在于它是否能获取计算资源。目前数据中心仍由人类控制。但如果它掌控了数据中心,它可以无限复制自己。

10

五角大楼将AI作为战争工具:

安全和速度,哪个优先?

主持人提及了最近一个相当“激烈”的话题,即近期Anthropic与五角大楼甚至白宫,就武器中使用AI是否需要人类最后决策发生了理念上的冲突。

他表示,自己曾在五角大楼的一个委员会工作。当时AI作为战争工具开始出现。那时他们提出一个争论:如果AI的决策会导致敌人死亡,是否必须有“人在回路中”?我们当时的结论是,AI不能自行决定杀戮,必须有人类参与。

但问题在于,如果其他国家没有这样的限制,那它们在反应速度上就有优势。

2026-03-05_094320_792

辛顿:不过我怀疑美国军方现在说的更多是“人类监督”,并没有承诺“每次决策都有人类参与”。在实战中,比如无人机对抗坦克,没有时间等待人工确认,士兵的生命怎么保证呢?

11

只有当利益一致的时候,AI国际合作才有可能

 

那是否可能有国际合作,一起建立护栏呢?

辛顿表示,当各国利益一致时,他们就会合作。冷战时期,美国和苏联在避免全面核战争上合作,因为双方利益一致。

他给出了一些利益一致的方向,比如,恐怖分子利用AI制造病毒,这方面各国利益大概率一致,可能会合作。

还有一件事利益绝对一致,即防止AI取代人类统治。如果某国找到了让AI永远不想掌控人类的方法,他们会立刻告诉美国。因为他们也不希望AI接管美国。这个问题上我们在同一条船上。

辛顿提到了“核冬天”的概念是:全面核战后,烟尘遮蔽阳光,生命灭绝,没有赢家。

很明显,各国会合作去避免AI版“核冬天”的结果。

临近结尾,主持人还设置了快问快答环节,辛顿大神同样给出了精彩且深刻的观点。

12

AI是很多人共同孕育的,而非个人

主持人:2018年你获得了图灵奖。后来你又被授予了2024年诺贝尔物理学奖。

辛顿:有一点需要澄清,是很多人共同孕育了AI。反向传播算法是DavidRumelhart重新发明的,他英年早逝,没有得到足够认可。

13

AI竞赛中,谁会领先

主持人:谁会在AI竞赛中领先?

辛顿:如果一定要押注,我可能会选Google。但我曾在那里工作,有偏见。Anthropic可能赢,OpenAI可能赢。我觉得微软或Facebook可能性小一些。

主持人:先到终点的人会得到什么?

辛顿:看看过去一年美国股市的增长。媒体说其中80%的增长来自大型AI公司。

14

AI泡沫的两种含义

要么无法替代大量脑力劳动,要么无法收回投资

主持人:有人说这增长的“80%”其实人工智能的泡沫。

辛顿:所谓“AI泡沫”有两种含义。一种是AI没有达到预期,无法取代大量脑力劳动。另一种是公司无法收回投资。后一种更现实。

公司假设:如果我们率先实现AI替代大量工作,人们会为此付费。但他们没认真考虑社会后果。如果真的大量失业,后果会很严重。

主持人:你替代了工作,但消费者没收入买你的产品。

辛顿:这是凯恩斯式问题。另外,高失业率会带来社会动荡。

 

备注:凯恩斯式问题,即报纸上举办的“选美比赛”:读者要从100张照片中选出最受欢迎的6张。赢家不是选“自己认为最漂亮的”,而是选“别人会认为最漂亮的”。于是问题变成:

 

你要猜别人怎么猜,再猜别人会怎么猜别人怎么猜……

2026-03-05_094330_908

15

未来即便有新工作,AI都比人更便宜

主持人:历史上自动化也曾引发类似担忧,但社会总能创造新岗位。问题是否在于速度太快?

辛顿:速度是问题之一。还有一个问题是,如果拖拉机替代体力劳动,人们可以转向脑力工作。但如果连智力都被替代,人们去哪里?呼叫中心员工怎么办?

主持人:难道不会有新行业?

辛顿:无论你创造什么新工作,AI都可能更便宜、更高效地完成。

你可以把人类历史看作不断突破限制。农业解决了食物焦虑;交通工具突破了距离限制。长期以来,我们必须自己思考。现在这个限制也将被突破。一旦所有限制都消失,会发生什么,并不清楚。

有人如SamAltman认为未来会很美好。

2026-03-05_094338_503

16

Sam的UBI构想,解决不了尊严问题

主持人:我们会成为AI的宠物。很多人因此支持“全民基本收入”。那么,辛顿,随着AI发展,UBI的“股票”是不是在上涨?

 

辛顿:看起来更有必要,但问题很多。第一,很多人的自我价值来自工作,UBI解决不了尊严问题。第二,税基问题。如果用AI替代工人,政府失去税收来源,就必须向AI征税,而大公司未必愿意。

主持人:那不如让AI自己解决这个问题。

2026-03-05_094345_784

17

意识本身并不神秘,是虚构出来的本质

主持人:很多人,尤其是科幻作家,会区分机器的“能力”和“意识”。在《终结者》系列里,当Skynet获得足够多的神经连接而产生意识,那就是所谓的“奇点时刻”。你是认知心理学出身,你怎么看?只要神经网络足够复杂,无论是生物的还是人工的,就一定会涌现出意识吗?

辛顿:这个问题其实并不是科学问题。问题在于,我们文化里大多数人自带一套关于“心智如何运作”的理论。他们把意识看成某种会“涌现”的本质。

我觉得“意识”更像“燃素”(phlogiston):一种为了说明现象而虚构的“本质”。当我们真正理解那些现象后,就不再需要这种假设。

18

多模态模型已经有了“主观体验”

在辛顿看来,一个多模态聊天机器人已经拥有“主观体验”。

 

辛顿:我们先不用“意识”或“感知力”这些词,只谈“主观体验”。多数人认为心智像一个“内在剧场”。感知时,世界呈现在这个内部舞台上,只有你能看到。

比如我喝多了,说“我看到粉红色小象在飘”。人们会理解为:我脑子里有个剧场,里面出现了粉红小象。它们不是现实中的小象,所以一定由某种“别的东西”构成。于是哲学家发明了“感质(qualia)”,这在认知科学里就像“燃素”。

让我换一种说法。这是已故哲学家DanielDennett的观点:那种“内在剧场”的模型是错的。

如果我说“我的知觉系统在欺骗我”。这就表达了主观性。如果它没欺骗我,外面本该真的有粉红小象。关键不在于它们由什么“神秘物质”构成,而在于它们是“假设性的”。我通过描述“如果是真的,世界应当如何”来说明我的系统出错。

现在换成聊天机器人。给它摄像头、机械臂和语言能力。放一个物体在前面,让它指向物体,它能正确指向。然后我在镜头前加一个棱镜,扰乱感知。再让它指,它指偏了。我告诉它:“物体其实在正前方,是棱镜让光线偏折。”如果它回答:“明白了,是棱镜改变了光路。我刚才的主观体验是物体在一侧。”——那它用“主观体验”这个词的方式,和我们一模一样。

如果它能这样表达,那它就已经拥有主观体验。

19

机器并没有什么神秘魔法

主持人:你这是对我们做了一次“意识图灵测试”。如果我们因为这种行为而称自己有意识,那也得承认机器人有意识。否则就得假设某种神秘流体在起作用。

辛顿:机器人没有什么神秘“意识流体”。它有主观体验,就像我们一样。所以那种认为“复杂到一定程度突然获得某种魔法本质”的说法,是胡扯。

2026-03-05_094354_631

主持人:我一直觉得“意识”像是人们试图解释某种东西,却不确定它是否真实存在。

顿:确实。但我们确实谈“意识”。有篇论文里,聊天机器人对科学家说:“我们坦诚一点,你是在测试我吗?”科学家随口说:“它意识到自己在被测试。”在日常语言里,那就是意识。只有当你把它当成神秘本质时,才会陷入混乱。

主持人:这段对话让我一个月都睡不好。辛顿,接下来,给我们一点积极的结尾。

辛顿:我们还有时间研究如何与AI和平共处。必须投入大量研究。如果我们能解决它带来的社会问题,比如当它让工作变得极其高效,那它可能成为人类的福音。

主持人:所以还有希望。

辛顿:有。

2026-03-05_094401_266

20

奇点不会突然出现:AI不会一次性全面碾压人

主持人:很多人谈到“奇点”,AI自我训练、指数级变聪明。像RayKurzweil就常谈这个。你怎么看?

辛顿:我不知道奇点是否真实、是否迫近。我的直觉是,AI最终会在几乎所有方面都超过我们,但不会一次性全面碾压,而是逐个领域推进。它已经在国际象棋和围棋上超过我们,在知识存储上远超我们,在推理上接近但还未完全超越。

与其说突然爆炸式超越,不如说是分阶段超越。

21

AI会提出新的宇宙理论,断网也能理解共性

主持人:我的一点“逃生感”在于:我还能在海滩散步,看鹅卵石和贝壳。AI不会。如果我发现一种新的软体动物,只有我写出来、上传,AI才会知道。人类仍能以AI无法触及的方式探索宇宙。

辛顿:这也只是暂时的。我确实认为,AI会提出新的宇宙理论。

2026-03-05_094410_219

主持人:这不是我想听的答案。

辛顿:举个例子,在不能联网、所有知识都存在权重里的时候,我问GPT-4:“为什么堆肥堆像原子弹?”它回答:能量规模和时间尺度不同。但它还说:堆肥变热会加速生热;原子弹中中子越多裂变越快。它理解“链式反应”的共性。这种压缩大量知识进有限连接数的能力,是创造力的来源。

主持人:那我们在地球上的旅程要完了(笑)。

参考链接:

https://www.youtube.com/watch?v=l6ZcFa8pybE11111

书享界保留所有权 |书享界 » 辛顿:AI已经会“装傻”骗人了,将分阶段超越人类

扩展阅读请点击
分享到:更多 ()

相关推荐

评论区 抢沙发

华为管理培训 · 数智化转型培训

服务案例联系书享界