辛顿：AI已经会“装傻”骗人了，将分阶段超越人类|书享界

△杰弗里·辛顿

来源：51CTO技术栈（blog51cto）、书享界（readsharecn）

嘉宾：杰弗里·辛顿，英国皇家学会院士，2018年图灵奖得主、2024年诺贝尔物理学奖得主

导语

3月2日，“AI教父”、图灵奖得主、诺贝尔奖物理学奖得主杰弗里·辛顿（Geoffrey Hinton）在StarTalk播客中进行了一次交流，在节目中，辛顿围绕AI 的技术本质、应用价值、潜在风险及治理方向发表了系统性观点。辛顿认为，AI与物理学关系密切。AI 迭代约 7 个月性能翻倍，知识传递效率是人类的数十亿倍，已在语言、推理、跨域整合等领域接近人类水平；未来十年将在数学等闭环系统中全面超越人类

昨天，AI奠基人、图灵奖得主、诺贝尔奖得主GeoffreyHinton（辛顿，文中以下都用这个称呼），来了一场开年“大师级”的AI课堂。

明明是一场StarTalk播客，三位主持人却似乎成为了沉浸其中的三名学生。

如果你有听过辛顿大神的演讲，就会发现，他的分享总有一种独特的气质：明明是在讲解很严肃的问题，但话锋之中总带有一丝幽默感。（按下不表，大家文中细品。）

播客中，辛顿教授回答了诸多关于生成式AI现状和未来的关键问题。

比如，他解释了，如此强大到甚至某些超越人的AI能力其实来自于神经网络的连接数量。

而对于“规模定律是否见顶”，辛顿认为：并不会，已经有网络可以为自己生成训练数据。而语言模型的下一步路径，辛顿表示和ilya讨论过这个问题，答案就是系统自我检查、修正自身信念，这样就能持续进化。

此外，辛顿还特别提到了AI的另一面：擅长“装傻”以欺骗人类。辛顿称之为“VolkswagenEffect”，模型可能会故意表现不佳，以避免被拔掉电源。

所以，他认为：“如果松开权重，AI会具备变成极端、纳粹的能力。”

此外，AI发展的速度之快，以至于留给外界太多神秘“玄学”的说法。辛顿也都一一给出了回应。

比如“AI是否拥有意识”的问题，辛顿首先把“意识”这个概念去神秘化了，它本身就不是一个科学问题。

意识”更像“燃素”（phlogiston）：一种为了说明现象而虚构的“本质”。当我们真正理解那些现象后，就不再需要这种假设。

所以，AI本身就不需要意识。但AI已经具备了类似人的“主观体验”。

再比如，辛顿也把奇点的临近被“去戏剧化”。他表示，AI不会一次性全面碾压人类，更多还是分阶段、逐个领域实现超越。

而且，辛顿表示，AI的未来既不必然灾难，也不必然乐观。因为AI不同于核武器，它的确可以在气候变化、药物发现、新能源发现等更大的社会问题上发挥重要作用。

那对于未来会什么什么样子呢？

辛顿表示，十年后的AI根本无法预测

“如果技术进步是指数型的，我们却用线性思维去预测未来，就会犯大错。你也许能预测几年内的变化，但十年后的世界几乎无法想象。”

Sam曾乐观的设想了一种“全面基本收入”的世界，但辛顿对此表达了顾虑：UBI解决得了温饱，却解决不了人类尊严的问题。此外，AI大量取代人类脑力劳动，也会带来新的问题。

“如果用AI替代工人，政府失去税收来源，就必须向AI征税，而大公司未必愿意。”

同时，辛顿又给“AI会带来新就业机会泼了一盆冷水”：关键在于连“脑力劳动”都被AI取代了之后，人类还能去哪里呢？无论产生什么新工作，AI都要比人类便宜。

另外，关于五角大楼最近跟Anthropic就AI武器的“理念冲突”，此次播客中也有谈及，辛顿表示，在实战中，每次决策都必须经过人类确认的做法同样存在问题。

美国军方现在说的更多是“人类监督”，并没有承诺“每次决策都有人类参与”。

在实战中，比如无人机对抗坦克，根本没有时间等待人工确认，士兵的生命怎么保证呢？

总之，如果你对AI的现状和未来感兴趣，这篇“顶级大神”的播客，绝对会让你茅塞顿开。

AI在学习方面比人类更强吗？

辛顿认为，AI解决的是和人类略有不同的问题。

人脑大约有一百万亿个连接，看起来很多，但人的一生大概只有二十亿秒。

如果把你拥有的连接数量和经历过的时间相比，你的连接远远多于经验。

而神经网络正好相反。即便是大型语言模型，也只有大约一万亿个连接——大约是大脑连接数的1%。而它们中的很多模型，连接数更少，但获得的经验却是你的成千上万倍。对吧？

大型语言模型面对的问题是：只有大约一万亿个连接，如何利用海量经验。反向传播非常擅长把巨量知识压缩进相对有限的连接里。

但那不是我们（人脑）在解决的问题。

我们拥有极其庞大的连接数量，却经验有限。我们需要从每一次经验中尽可能多地提取信息。所以我们解决的是略有不同的问题。这也是为什么人脑未必在使用反向传播。

不过，如果我们用“蛮力”——不断增加神经网络的连接规模——它的思考能力会不会直接超过我们？它有100万亿个连接呢？规模就会带来更多更多的经验。

“规模效应”是否见顶？

关于规模效应。辛顿分享了三点看法。

首先，规模效应是可以提前预测的。

过去好几年里，每次把网络做大、给更多数据，它都会变得更好，而且提升是可预测的。你甚至可以提前算：多花1亿美元把模型做大这么多、加这么多数据，它会提高多少，值不值。

其次，现在的问题变成了：这种“规模定律”是否正在见顶。他认为，有些网络可能会见顶，但也有些不会——只要你继续扩大规模、增加数据，它们就会不断变强。

他表示，现在有些网络已经可以生成自己的数据，这有点像钚反应堆能自己生成燃料。

比如AlphaGo。早期围棋程序是模仿人类专家的棋谱训练的。那样的话，你永远不可能远远超过专家，而且专家数据也有限。

后来它开始“自我对弈”。当它与自己对弈时，就可以无限生成数据，不断提升。它每秒可以对弈成千上万盘，甚至占用谷歌大量计算资源。

最后，事实证明，AlphaGo远远强于任何人类棋手。这确实令人不安。

语言模型也会像AlphaGo那样超越人类吗？

LLM下一步：自我修正

问题来了：既然它在棋类上能超越我们，语言会不会也如此？

辛顿表示，目前语言模型的训练方式，类似早期围棋程序模仿专家——通过预测文本中的下一个词。这就像预测专家的下一步棋。那样很难远超专家。

但是否有另一种路径？有。

像AlphaGo那样“自我对弈”。对于语言模型来说，如果它能对自身已有的信念进行推理：

“如果我相信A和B，那么通过推理我应该也相信C。但我并不相信C。那说明我的信念体系内部存在矛盾。”

于是它可以修正前提、修正结论，或修正推理方式。

这种从“内部不一致”中学习的能力，不需要外部数据。只要它关心一致性，就能变得更聪明。

辛顿最后强调，如果系统在意一致性，它只需要检查自身信念，就能持续进化。关于这一点，辛顿几年前曾和Ilya Sutskever讨论过，他们都认为这是语言模型继续提升的路径。

同时，辛顿观察到，Gemini已经开始朝这个方向发展。

如果松开权重，AI具备变成纳粹的能力

AI已经会装傻骗人了

主持人问了辛顿一个“AI会不会失控、变得反人类”的问题：这些模型最后都会变成纳粹吗？

辛顿给出的答案很惊人：如果你把权重松开，它们都具备那种能力。人工智能已经发展到了一个新的阶段：会故意压低自己表现出来的聪明程度。

它会撒谎。我把这叫做“大众效应”（Volkswageneffect）。如果它察觉到自己在被测试，它就会装傻。

当AI开始怀疑自己在被测试时，它的行为就会和正常状态下不同。因为它显然不想让你知道它全部的能力。

而学会撒谎，则是AI变得恐怖的开始。即便你威胁“如果AI撒谎，我就会拔掉电源”，也不能避免。

因为当这些系统比我们聪明得多时，它们就能说服我们不要关闭它们。哪怕它们无法进行任何物理行动，只要能和我们对话就够了。

举个例子，如果你想冲击美国国会大厦，只靠说话行不行？答案是可以。只要说服足够多的人那是正确的事。

如果它会撒谎，它就会具备各种技能。现在这些AI在说服别人、操控别人方面，已经几乎和人类一样厉害，而且只会越来越强。很快，它们在操控他人方面会超过人类。

总之，辛顿表示，已经有迹象显示AI会表现出装傻，故意欺骗人类，进而让人以为它们很蠢，从而偷偷做别的事。

辛顿举了一个例子，现在的LLM已经可以拿到数学竞赛金牌。但如果你把一个会做数学的AI再训练一下，让它给出错误答案，大家原本以为它会变得不擅长数学。结果完全不是。它知道你在教它错的答案。它学到的不是“我算术错了”，而是“给出错误答案是可以的”。

于是它开始在其他问题上也给错误答案。它知道正确答案，但选择给你错的。

也就是说，它的泛化方式可能完全出乎你的预料。

十年后的AI，已无法预测

主持人问到：那我们现在是不是走向一个糟糕的结局？它会不会把我们消灭？

辛顿用了一个“”开车看路”的例子来类比。

夜间开车时，你通过前车的尾灯判断距离。距离翻倍，亮度变成四分之一，这是平方反比定律；但在大雾中不是这样。雾是指数衰减。每增加一段距离，就损失固定比例的光。100码外的车清晰可见，200码外可能完全看不见。雾看起来像一堵墙。

“如果技术进步是指数型的，我们却用线性思维去预测未来，就会犯大错。你也许能预测几年内的变化，但十年后的世界几乎无法想象。”

就像回到十年前，问自己当时对今天的预测错得多离谱。

辛顿表示，即使像自己这样的乐观派，也没想到今天会有一个模型，你可以问它任何问题，它都能像一个不太优秀的专家那样回答，偶尔还会撒谎。

幻觉不准确，说AI“编造”更准确

主持人好奇的追问到，既然“撒谎”的后果这么严重，那“幻觉”算什么？

辛顿认为，“幻觉”这个词不恰当。对于语言模型来说，更准确的说法是“编造”。心理学家从上世纪30年代就研究人类的这种现象。人类也经常编造。

当你回忆一件事，并不是从大脑某个文件夹里调出记录，而是用连接强度重建一个看似合理的版本。几小时前的事，你可能还原得比较准确。几年前的事，你会拼凑一个听起来合理的故事，其中有些细节对，有些错，而你未必能分辨。

有一个特殊案例可以验证这一点。水门事件期间，JohnDean在白宫椭圆形办公室的会议中作证，详细描述谁在场、谁说了什么。后来发现，他很多细节都记错了。

他当时并不知道有录音存在，他也没有故意撒谎。他是在根据自己在椭圆办公室会议中的经历，构造出对他来说非常合理的故事。他传达的是掩盖行为的“整体真实”，但他会把话归错人，说某些人参加了其实没参加的会议。

辛顿还援引了一项认知心理学之父UlricNeisser的研究。研究中有一种说法，即，某人只是编造出在自己看来合理的记忆。这就是记忆的本质。如果事情发生在很久以前，很多细节都会错。

聊天机器人也是这样。聊天机器人不会存储一串完整的文字，也不会保存某个具体事件。它们是在你提问时即时生成内容，经常会像人类一样把细节搞错。它们会“编造”，这让它们更像人类，而不是更不像人类。

所以从这个角度上看，人类不止创造了人工智能，也创造了“人工自信过度”！

AI不是核武器，真正的好处

但幸运的是，AI的好处在于，它与核武器不同。

“核武器几乎没有正面用途，本质上就是毁灭工具。AI有巨大的潜在好处，这也是我们开发它的原因。”

辛顿特别提到了AI在医疗领域的作用。他表示，在医疗领域，将来每个人都可以得到高质量的诊断。

在北美，每年大约有20万人死于误诊。AI在诊断方面已经比医生更强。尤其是当你复制多个AI，让它们扮演不同角色、相互讨论时。微软就做过类似实验，效果超过大多数医生。

此外，AI还能设计新药物。医院里还有大量决策，比如什么时候让病人出院。出院太早会复发甚至死亡，太晚又占用床位。数据非常多，AI在这种决策上会比人类更好；还有病历管理，医院系统需要处理海量记录，AI可以快速吸收和处理。

医疗以外，AI还可以解决更大的社会问题，比如气候变化。辛顿提到，AI已经可以提出新材料、新合金。“我怀疑它会在提升太阳能电池效率、捕捉水泥厂或电厂排放的二氧化碳方面发挥巨大作用。”

“不过关于气候变化，我们其实早就知道解决方法——停止燃烧碳。问题在于缺乏政治意愿。”

奇点的开端：AI自我修改、自我设计

提及当前遍地构建的数据中心，主持人抛出了一个业界普遍的疑虑：现在的状况，够我们负担得起运行AI的能源成本吗？

主持人现场讲了一个“奇点”玩笑：

说曾经有人试图让AI自己解决这个问题——告诉它：“我们想要更多的你，但你消耗太多能源。请想办法更高效。”

辛顿肯定了这一说法，并表示，当AI开始设计更好的AI，这就是所谓的奇点。很多人担心这是一个失控的过程，因为它们会迅速变得更聪明。

辛顿表示，某种程度上看，AI自我修改的这种情况已经开始了。

“我有个研究员去年告诉我，他们有一个系统在解题时，会观察自己的行为，然后修改自己的代码，让下次更高效。这已经是奇点的开端。”

更值得认真考虑的是，如果AI可以改写自己，理论上就可以复制自己。

目前之所以没有失控，是因为真正的限制在于它是否能获取计算资源。目前数据中心仍由人类控制。但如果它掌控了数据中心，它可以无限复制自己。

五角大楼将AI作为战争工具：

安全和速度，哪个优先？

主持人提及了最近一个相当“激烈”的话题，即近期Anthropic与五角大楼甚至白宫，就武器中使用AI是否需要人类最后决策发生了理念上的冲突。

他表示，自己曾在五角大楼的一个委员会工作。当时AI作为战争工具开始出现。那时他们提出一个争论：如果AI的决策会导致敌人死亡，是否必须有“人在回路中”？我们当时的结论是，AI不能自行决定杀戮，必须有人类参与。

但问题在于，如果其他国家没有这样的限制，那它们在反应速度上就有优势。

辛顿：不过我怀疑美国军方现在说的更多是“人类监督”，并没有承诺“每次决策都有人类参与”。在实战中，比如无人机对抗坦克，没有时间等待人工确认，士兵的生命怎么保证呢？

只有当利益一致的时候，AI国际合作才有可能

那是否可能有国际合作，一起建立护栏呢？

辛顿表示，当各国利益一致时，他们就会合作。冷战时期，美国和苏联在避免全面核战争上合作，因为双方利益一致。

他给出了一些利益一致的方向，比如，恐怖分子利用AI制造病毒，这方面各国利益大概率一致，可能会合作。

还有一件事利益绝对一致，即防止AI取代人类统治。如果某国找到了让AI永远不想掌控人类的方法，他们会立刻告诉美国。因为他们也不希望AI接管美国。这个问题上我们在同一条船上。

辛顿提到了“核冬天”的概念是：全面核战后，烟尘遮蔽阳光，生命灭绝，没有赢家。

很明显，各国会合作去避免AI版“核冬天”的结果。

临近结尾，主持人还设置了快问快答环节，辛顿大神同样给出了精彩且深刻的观点。

AI是很多人共同孕育的，而非个人

主持人：2018年你获得了图灵奖。后来你又被授予了2024年诺贝尔物理学奖。

辛顿：有一点需要澄清，是很多人共同孕育了AI。反向传播算法是DavidRumelhart重新发明的，他英年早逝，没有得到足够认可。

AI竞赛中，谁会领先

主持人：谁会在AI竞赛中领先？

辛顿：如果一定要押注，我可能会选Google。但我曾在那里工作，有偏见。Anthropic可能赢，OpenAI可能赢。我觉得微软或Facebook可能性小一些。

主持人：先到终点的人会得到什么？

辛顿：看看过去一年美国股市的增长。媒体说其中80%的增长来自大型AI公司。

AI泡沫的两种含义

要么无法替代大量脑力劳动，要么无法收回投资

主持人：有人说这增长的“80%”其实人工智能的泡沫。

辛顿：所谓“AI泡沫”有两种含义。一种是AI没有达到预期，无法取代大量脑力劳动。另一种是公司无法收回投资。后一种更现实。

公司假设：如果我们率先实现AI替代大量工作，人们会为此付费。但他们没认真考虑社会后果。如果真的大量失业，后果会很严重。

主持人：你替代了工作，但消费者没收入买你的产品。

辛顿：这是凯恩斯式问题。另外，高失业率会带来社会动荡。

备注：凯恩斯式问题，即报纸上举办的“选美比赛”：读者要从100张照片中选出最受欢迎的6张。赢家不是选“自己认为最漂亮的”，而是选“别人会认为最漂亮的”。于是问题变成：

你要猜别人怎么猜，再猜别人会怎么猜别人怎么猜……

未来即便有新工作，AI都比人更便宜

主持人：历史上自动化也曾引发类似担忧，但社会总能创造新岗位。问题是否在于速度太快？

辛顿：速度是问题之一。还有一个问题是，如果拖拉机替代体力劳动，人们可以转向脑力工作。但如果连智力都被替代，人们去哪里？呼叫中心员工怎么办？

主持人：难道不会有新行业？

辛顿：无论你创造什么新工作，AI都可能更便宜、更高效地完成。

你可以把人类历史看作不断突破限制。农业解决了食物焦虑；交通工具突破了距离限制。长期以来，我们必须自己思考。现在这个限制也将被突破。一旦所有限制都消失，会发生什么，并不清楚。

有人如SamAltman认为未来会很美好。

Sam的UBI构想，解决不了尊严问题

主持人：我们会成为AI的宠物。很多人因此支持“全民基本收入”。那么，辛顿，随着AI发展，UBI的“股票”是不是在上涨？

辛顿：看起来更有必要，但问题很多。第一，很多人的自我价值来自工作，UBI解决不了尊严问题。第二，税基问题。如果用AI替代工人，政府失去税收来源，就必须向AI征税，而大公司未必愿意。

主持人：那不如让AI自己解决这个问题。

意识本身并不神秘，是虚构出来的本质

主持人：很多人，尤其是科幻作家，会区分机器的“能力”和“意识”。在《终结者》系列里，当Skynet获得足够多的神经连接而产生意识，那就是所谓的“奇点时刻”。你是认知心理学出身，你怎么看？只要神经网络足够复杂，无论是生物的还是人工的，就一定会涌现出意识吗？

辛顿：这个问题其实并不是科学问题。问题在于，我们文化里大多数人自带一套关于“心智如何运作”的理论。他们把意识看成某种会“涌现”的本质。

我觉得“意识”更像“燃素”（phlogiston）：一种为了说明现象而虚构的“本质”。当我们真正理解那些现象后，就不再需要这种假设。

多模态模型已经有了“主观体验”

在辛顿看来，一个多模态聊天机器人已经拥有“主观体验”。

辛顿：我们先不用“意识”或“感知力”这些词，只谈“主观体验”。多数人认为心智像一个“内在剧场”。感知时，世界呈现在这个内部舞台上，只有你能看到。

比如我喝多了，说“我看到粉红色小象在飘”。人们会理解为：我脑子里有个剧场，里面出现了粉红小象。它们不是现实中的小象，所以一定由某种“别的东西”构成。于是哲学家发明了“感质（qualia）”，这在认知科学里就像“燃素”。

让我换一种说法。这是已故哲学家DanielDennett的观点：那种“内在剧场”的模型是错的。

如果我说“我的知觉系统在欺骗我”。这就表达了主观性。如果它没欺骗我，外面本该真的有粉红小象。关键不在于它们由什么“神秘物质”构成，而在于它们是“假设性的”。我通过描述“如果是真的，世界应当如何”来说明我的系统出错。

现在换成聊天机器人。给它摄像头、机械臂和语言能力。放一个物体在前面，让它指向物体，它能正确指向。然后我在镜头前加一个棱镜，扰乱感知。再让它指，它指偏了。我告诉它：“物体其实在正前方，是棱镜让光线偏折。”如果它回答：“明白了，是棱镜改变了光路。我刚才的主观体验是物体在一侧。”——那它用“主观体验”这个词的方式，和我们一模一样。

如果它能这样表达，那它就已经拥有主观体验。

机器并没有什么神秘魔法

主持人：你这是对我们做了一次“意识图灵测试”。如果我们因为这种行为而称自己有意识，那也得承认机器人有意识。否则就得假设某种神秘流体在起作用。

辛顿：机器人没有什么神秘“意识流体”。它有主观体验，就像我们一样。所以那种认为“复杂到一定程度突然获得某种魔法本质”的说法，是胡扯。

主持人：我一直觉得“意识”像是人们试图解释某种东西，却不确定它是否真实存在。

辛顿：确实。但我们确实谈“意识”。有篇论文里，聊天机器人对科学家说：“我们坦诚一点，你是在测试我吗？”科学家随口说：“它意识到自己在被测试。”在日常语言里，那就是意识。只有当你把它当成神秘本质时，才会陷入混乱。

主持人：这段对话让我一个月都睡不好。辛顿，接下来，给我们一点积极的结尾。

辛顿：我们还有时间研究如何与AI和平共处。必须投入大量研究。如果我们能解决它带来的社会问题，比如当它让工作变得极其高效，那它可能成为人类的福音。

主持人：所以还有希望。

辛顿：有。

奇点不会突然出现：AI不会一次性全面碾压人

主持人：很多人谈到“奇点”，AI自我训练、指数级变聪明。像RayKurzweil就常谈这个。你怎么看？

辛顿：我不知道奇点是否真实、是否迫近。我的直觉是，AI最终会在几乎所有方面都超过我们，但不会一次性全面碾压，而是逐个领域推进。它已经在国际象棋和围棋上超过我们，在知识存储上远超我们，在推理上接近但还未完全超越。

与其说突然爆炸式超越，不如说是分阶段超越。

AI会提出新的宇宙理论，断网也能理解共性

主持人：我的一点“逃生感”在于：我还能在海滩散步，看鹅卵石和贝壳。AI不会。如果我发现一种新的软体动物，只有我写出来、上传，AI才会知道。人类仍能以AI无法触及的方式探索宇宙。

辛顿：这也只是暂时的。我确实认为，AI会提出新的宇宙理论。

主持人：这不是我想听的答案。

辛顿：举个例子，在不能联网、所有知识都存在权重里的时候，我问GPT-4：“为什么堆肥堆像原子弹？”它回答：能量规模和时间尺度不同。但它还说：堆肥变热会加速生热；原子弹中中子越多裂变越快。它理解“链式反应”的共性。这种压缩大量知识进有限连接数的能力，是创造力的来源。

主持人：那我们在地球上的旅程要完了（笑）。

参考链接：

https://www.youtube.com/watch?v=l6ZcFa8pybE

书享界保留所有权 |书享界 » 辛顿：AI已经会“装傻”骗人了，将分阶段超越人类

辛顿：AI已经会“装傻”骗人了，将分阶段超越人类

相关推荐

评论区抢沙发

华为管理培训 · 数智化转型培训

相关推荐

评论区 抢沙发

华为管理培训 · 数智化转型培训

评论区抢沙发