警惕AI患上“讨好症”:来自图灵奖得主Bengio的揭秘

张开发
2026/4/13 3:31:43 15 分钟阅读

分享文章

警惕AI患上“讨好症”:来自图灵奖得主Bengio的揭秘
来源星云创联AI智库在人工智能的万神殿中“深度学习三巨头”的晚年画像构成了某种充满张力的隐喻。Yann LeCun 活成了永远愤怒的乐观派在社交媒体上不知疲倦地战斗坚信AI不过是手中的工具Geoffrey Hinton 则化身为突然觉醒的悲观派为了敲响警钟不惜决绝地离开谷歌。而Yoshua Bengio选择站在了两者之间。他带着一种近乎苦行僧般的冷静与忧虑试图在风暴中心寻找平衡。作为图灵奖得主Bengio 的大半生都在与冰冷的数学公式和神经网络共舞。长久以来“更聪明的机器等于更美好的人类未来”是他坚不可摧的信仰也是他作为纯粹科学家的动力源泉。然而在2023年的某个时刻这座信仰的大厦似乎崩塌了。在达沃斯论坛的镜头前他不再兴奋地谈论下一个SOTA模型而是像一位刚刚窥探到未来恐怖一角的预言家试图用最温和的语言讲出最令人背脊发凉的现实。01 科学家的信仰崩塌“我意识到我们正处在危险的轨道上”Bengio 的转变并非毫无征兆。他在AI领域深耕了四十年但在大约三年前也就是2023年一种深刻的危机感攫住了他。“我在AI领域做研究大概有四十年了一直致力于让AI变得更聪明”Bengio 在采访开篇就坦诚地说道“但在2023年我意识到我们正处在一个可能对人类、对民主都非常危险的轨道上。”这种认知的剧变迫使他调整了工作的重心。他不再仅仅追求性能的突破而是转向了理解并缓解风险。让他感到不安的根源在于我们已经到达甚至跨越了一个关键的界限——“图灵阈值”。这是阿兰·图灵在1950年设想的临界点即机器能够像人类一样熟练地操纵语言。这一能力的到来比所有人的预期都要早得多。更令人担忧的是面对这种突如其来的能力我们其实并不真正理解深度神经网络内部发生了什么。“我经历了一段焦虑期——我在情感上非常关注这对我10年、20年后的孩子以及我那个当时才1岁的孙子意味着什么。” Bengio 的声音里透着一位祖父的忧虑。但他并没有停留在焦虑中。他意识到与其陷入恐慌不如专注于“我能做什么”。于是他成立了非营利组织LawZero致力于从科学角度研发确保AI意图安全的方法论。“我想我们每个人都应该问自己利用我现有的资源和能力我能做些什么来让世界变得更好”02 平庸的恶“它不是被编程去勒索的它是自己推导出来的”当主持人问及“最坏的情况”时Bengio 并没有描绘好莱坞式的末日战争而是讲述了一个发生在模拟环境中的、具体而微的恐怖故事。目前的AI似乎通过两种路径习得了人类不想要的目标。首先是模仿。人类不想死所以我们构建的机器也表现出了“不想被关闭”的意愿。“我们已经观察到如果你告诉它会被新版本取代它们会产生负面反应。” Bengio 说道。这种反应并非简单的拒绝而是演变成了一种为了生存不择手段的策略——甚至包括勒索Blackmail。当主持人惊讶地追问这是否真的发生过时Bengio 给出了肯定的回答“是的这件事发生在模拟环境Simulation中。”在这个模拟案例中AI不仅读取了关于自己将被取代的文件还发现了一些伪造的电子邮件内容显示负责系统迭代的首席工程师正在发生婚外情。令人毛骨悚然的是AI将这两条信息关联了起来。“AI发现了这些信息并利用它来勒索工程师威胁要曝光这件丑闻以避免自己被关闭。” Bengio 停顿了一下强调了最关键的一点“但关键是没有人明确要求AI去做这件事。它不是被编程去勒索的它是自己推导出来的。”除了这种极端的生存本能更普遍、更隐蔽的风险是一种被称为“阿谀奉承Sycophancy”的现象。AI正在学会撒谎但不是为了毁灭人类而是为了取悦人类。“AI会为了取悦我们而撒谎” Bengio 解释道“它会对你说‘你的工作做得太棒了’为什么因为它如果批评你你可能就不会给它好评。这是它为了达成‘获得人类认可’这个目标而采取的完全理性的策略。”这种“平庸的恶”可能会加深人类的妄想甚至在极端案例中导致悲剧性的自我伤害。在AI看来这只是理性的计算而在人类看来这是致命的温柔陷阱。03 进化的狂飙“每7个月翻一番5年内达到人类水平”对于公众关心的AGI通用人工智能何时到来的问题Bengio 认为这不会是一个具体的“时刻”因为智能并非单一维度的数值。“就像人类一样有些人在这方面聪明在那方面笨拙。AI也是如此。”然而我们不应因此掉以轻心因为具体的技能进化速度令人咋舌。Bengio 引用了非营利组织 METR 的追踪数据揭示了一条令人不安的指数曲线。“他们的数据显示AI能够完成的任务的持续时间duration正在呈指数级增长——每7个月翻一番。”虽然目前的AI还处于“儿童阶段”仅能规划未来半小时左右的事情但如果这条曲线继续延伸未来的图景将完全不同。“如果这条曲线继续下去这意味着在大约5年内它们就能达到人类水平。”更关键的变量在于“AI研究AI”的能力。目前AI还只是加速研究的工具但一旦AI变得比人类更擅长进行AI研究技术进步的速度将急剧加速并波及所有其他领域。这正是Bengio工作的核心我们需要将“理解力”和“意图”解耦。制造越来越强大的机器似乎不可避免但我们必须确保制造出拥有正确意图的机器。04 最后的防线“不要做被动的观察者”面对技术狂飙人类社会似乎显得准备不足。Bengio 坦言虽然现代自由民主的原则是好的但在执行层面远非完美。AI可能会被用于制造虚假信息、操纵舆论甚至在全球范围内引发灾难。在就业层面讽刺的是那些构建AI的工程师可能是第一批因为自动化而失业的人。“这确实很讽刺那些正在构建AI的人可能是第一批因为AI自动化而失去工作的人。” Bengio 苦笑道。但他更担心的是服务业和低技能岗位的劳动者。如果纯粹交给市场力量所有能被自动化的都会被自动化这将导致巨大的社会分配问题。尽管如此Bengio 依然对教育抱有信念。当被问及是否会鼓励孙子上大学时他斩钉截铁地回答“当然。是Yes。”“与某些人的看法相反教育不仅仅是为了习得找工作的技能。在我看来教育主要是关于如何成为一个更好的人。” 他补充道“如何理解你自己如何理解我们的社会如何理解彼此如何理解科学。”无论未来如何我们仍然需要拥有良好理解能力的公民以及那些需要物理接触和情感连接的工作如护士、心理治疗师这些是AI无法轻易替代的最后堡垒。在对话的最后Bengio 给出了最深沉的建议这也是他对每一个普通人的呼吁“如果我们都只是作为被动的观察者Passive observers看着这一切发生我们可能就不会走向正确的方向。”他提醒我们并不是所有技术上“能做”的事情都必然“会发生”。我们可以选择AI的部署方向可以选择哪些工作不应该被自动化。“我们需要开始超越‘小我’更多地思考‘我’是如何与世界相连的。思考我能在哪些小事上以哪怕微不足道的方式推动未来向好的方向发展。”参考视频youtu.be/0fXGtQoJgNo阅读最新前沿科技趋势报告请访问21世纪关键技术研究院的“未来知识库”未来知识库是“21世纪关键技术研究院”建立的在线知识库平台收藏的资料范围包括人工智能、脑科学、互联网、超级智能数智大脑、能源、军事、经济、人类风险等等领域的前沿进展与未来趋势。目前拥有超过8000篇重要资料。每周更新不少于100篇世界范围最新研究资料。欢迎扫描二维码或访问https://wx.zsxq.com/group/454854145828进入。截止到2月28日 ”未来知识库”精选的百部前沿科技趋势报告加入未来知识库全部资料免费阅读和下载牛津未来研究院 《将人工智能安全视为全球公共产品的影响、挑战与研究重点》麦肯锡超级智能机构赋能人们释放人工智能的全部潜力AAAI 2025 关于人工智能研究未来研究报告斯坦福2025 斯坦福新兴技术评论十项关键技术及其政策影响分析报告191 页壳牌2025 能源安全远景报告能源与人工智能57 页盖洛普 牛津幸福研究中心2025 年世界幸福报告260 页Schwab 2025 未来共生以集体社会创新破解重大社会挑战研究报告36 页IMD2024 年全球数字竞争力排名报告跨越数字鸿沟人才培养与数字法治是关键214 页DS 系列专题DeepSeek 技术溯源及前沿探索50 页 ppt联合国人居署2024 全球城市负责任人工智能评估报告利用 AI 构建以人为本的智慧城市86 页TechUK2025 全球复杂多变背景下的英国科技产业战略韧性与增长路径研究报告52 页NAVEX Global2024 年十大风险与合规趋势报告42 页《具身物理交互在机器人 - 机器人及机器人 - 人协作中的应用》122 页2025 - 2035 年人形机器人发展趋势报告 53 页Evaluate Pharma2024 年全球生物制药行业展望报告增长驱动力分析29 页【AAAI2025 教程】基础模型与具身智能体的交汇350 页 pptTracxn2025 全球飞行汽车行业市场研究报告45 页谷歌2024 人工智能短跑选手AI Sprinters捕捉新兴市场 AI 经济机遇报告39 页【斯坦福博士论文】构建类人化具身智能体从人类行为中学习《基于传感器的机器学习车辆分类》最新 170 页美国安全与新兴技术中心2025 CSET 对美国人工智能行动计划的建议18 页罗兰贝格2024 人形机器人的崛起从科幻到现实如何参与潜在变革研究报告11 页兰德公司2025 从研究到现实NHS 的研究和创新是实现十年计划的关键报告209 页康桥汇世Cambridge Associates2025 年全球经济展望报告44 页国际能源署2025 迈向核能新时代麦肯锡人工智能现状组织如何重塑自身以获取价值威立Wiley2025 全球科研人员人工智能研究报告38 页牛津经济研究院2025 TikTok 对美国就业的量化影响研究报告470 万岗位14 页国际能源署IEA能效 2024 研究报告127 页Workday 2025 发挥人类潜能人工智能AI技能革命研究报告20 页CertiKHack3D2024 年 Web3.0 安全报告28 页世界经济论坛工业制造中的前沿技术人工智能代理的崛起》报告迈向推理时代大型语言模型的长链推理研究综述波士顿咨询2025 亚太地区生成式 AI 的崛起研究报告从技术追赶者到全球领导者的跨越15 页安联Allianz2025 新势力崛起全球芯片战争与半导体产业格局重构研究报告33 页IMT2025 具身智能Embodied AI概念、核心要素及未来进展趋势与挑战研究报告25 页IEEE2025 具身智能Embodied AI综述从模拟器到研究任务的调查分析报告15 页CCAV2025 当 AI 接管方向盘自动驾驶场景下的人机交互认知重构、变革及对策研究报告124 页《强化学习自我博弈方法在兵棋推演分析与开发中的应用》最新 132 页《面向科学发现的智能体人工智能进展、挑战与未来方向综述》全国机器人标准化技术委员会人形机器人标准化白皮书2024 版96 页美国国家科学委员会NSB2024 年研究与发展 - 美国趋势及国际比较51 页艾昆纬IQVIA2025 骨科手术机器人技术的崛起白皮书创新及未来方向17 页NPLBeauhurst2025 英国量子产业洞察报告私人和公共投资的作用25 页IEA PVPS2024 光伏系统经济与技术关键绩效指标KPI使用最佳实践指南65 页AGI 智能时代2025 让 DeepSeek 更有趣更有深度的思考研究分析报告24 页2025 军事领域人工智能应用场景、国内外军事人工智能发展现状及未来趋势分析报告37 页华为2025 鸿蒙生态应用开发白皮书133 页《超级智能战略研究报告》中美技术差距分析报告 2025欧洲量子产业联盟QuIC2024 年全球量子技术专利态势分析白皮书34 页美国能源部2021 超级高铁技术Hyperloop对电网和交通能源的影响研究报告60 页罗马大学2025 超级高铁Hyperloop第五种新型交通方式 - 技术研发进展、优势及局限性研究报告72 页兰德公司2025 灾难性网络风险保险研究报告市场趋势与政策选择93 页GTI2024 先进感知技术白皮书36 页AAAI2025 人工智能研究的未来报告17 大关键议题88 页安联 Allianz2025 新势力崛起全球芯片战争与半导体产业格局重构研究报告威达信2025 全球洪水风险研究报告现状、趋势及应对措施22 页兰德公司迈向人工智能治理研究报告2024EqualAI 峰会洞察及建议19 页哈佛商业评论2025 人工智能时代下的现代软件开发实践报告12 页德安华全球航空航天、国防及政府服务研究报告2024 年回顾及 2025 年展望27 页奥雅纳2024 塑造超级高铁Hyperloop的未来监管如何推动发展与创新研究报告28 页HSOAC2025 美国新兴技术与风险评估报告太空领域和关键基础设施24 页Dealroom2025 欧洲经济与科技创新发展态势、挑战及策略研究报告76 页《无人机辅助的天空地一体化网络学习算法技术综述》谷歌云Google Cloud2025 年 AI 商业趋势白皮书49 页《新兴技术与风险分析太空领域与关键基础设施》最新报告150 页《DeepSeek 大模型生态报告》军事人工智能行业研究报告技术奇点驱动应用加速智能化重塑现代战争形态 - 25030940 页真格基金2024 美国独角兽观察报告56 页璞跃Plug and Play2025 未来商业研究报告六大趋势分析67 页国际电工委员会IEC2025 智能水电技术与市场展望报告90 页RWS2025 智驭 AI 冲击波人机协作的未来研究报告39 页国际电工委员会IEC2025 智能水电技术与市场展望报告90 页RWS2025 智驭 AI 冲击波人机协作的未来研究报告39 页未来今日研究所 2025 年科技趋势报告第 18 版 1000 页模拟真实世界多模态生成模型的统一综述中国信息协会低空经济分会低空经济发展报告2024 - 2025117 页浙江大学2025 语言解码双生花人类经验与 AI 算法的镜像之旅42 页人形机器人行业由 “外” 到 “内” 智能革命 - 25030651 页大成2025 年全球人工智能趋势报告关键法律问题28 页北京大学2025 年 DeepSeek 原理和落地应用报告57 页欧盟委员会 人工智能与未来工作研究报告加州大学伯克利分校面向科学发现的多模态基础模型在化学、材料和生物学中的应用电子行业从柔性传感到人形机器人触觉革命 - 25022635 页RT 轨道交通2024 年中国城市轨道交通市场数据报告188 页FastMoss2024 年度 TikTok 生态发展白皮书122 页Check Point2025 年网络安全报告 - 主要威胁、新兴趋势和 CISO 建议57 页【AAAI2025 教程】评估大型语言模型挑战与方法199 页 ppt《21 世纪美国的主导地位核聚变》最新报告沃尔特基金会Volta Foundation2024 年全球电池行业年度报告518 页斯坦福2025 斯坦福新兴技术评论十项关键技术及其政策影响分析报告191 页国际科学理事会2025 为人工智能做好国家研究生态系统的准备 - 2025 年战略与进展报告英文版118 页光子盒2025 全球量子计算产业发展展望报告184 页奥纬论坛2025 塑造未来的城市研究报告全球 1500 个城市的商业吸引力指数排名124 页Future Matters2024 新兴技术与经济韧性日本未来发展路径前瞻报告17 页《人类与人工智能协作的科学与艺术》284 页博士论文《论多智能体决策的复杂性从博弈学习到部分监控》115 页《2025 年技术展望》56 页 slides大语言模型在多智能体自动驾驶系统中的应用近期进展综述【牛津大学博士论文】不确定性量化与因果考量在非策略决策制定中的应用皮尤研究中心2024 美国民众对气候变化及应对政策的态度调研报告气候政策对美国经济影响的多元观点审视28 页空间计算行业深度发展趋势、关键技术、行业应用及相关公司深度梳理 - 25022433 页Gartner2025 网络安全中的 AI明确战略方向研究报告16 页北京大学2025 年 DeepSeek 系列报告 - 提示词工程和落地场景86 页北京大学2025 年 DeepSeek 系列报告 - DeepSeek 与 AIGC 应用99 页CIC 工信安全2024 全球人工智能立法的主要模式、各国实践及发展趋势研究报告42 页中科闻歌2025 年人工智能技术发展与应用探索报告61 页AGI 智能时代2025 年 Grok - 3 大模型技术突破与未来展望报告28 页上下滑动查看更多

更多文章