苹果最新研究挑战 AI 模型是否真正通过问题进行 "推理"

2天前 1观看

今年六月初,苹果研究人员发布了一项研究,表明类似 OpenAI 的 o1 和 o3、DeepSeek-R1 以及 Claude 3.7 Sonnet Thinking 等模拟推理 ( SR ) 模型,在面对需要系统性思考的新颖问题时,其输出与从训练数据中匹配的模式一致。研究人员发现,与美国数学奥林匹克 ( USAMO ) 四月的最新研究结果类似,这些模型在新颖数学证明问题上取得的分数都很低。LK4喜好网-记录每日喜好的科技时尚娱乐生活

这项新研究命名为 "The Illusion of Thinking: Understanding the Strengths and Limitations of Reasoning Models via the Lens of Problem Complexity" ,由 Parshin Shojaee 和 Iman Mirzadeh 领导的苹果团队进行,研究还得到了 Keivan Alizadeh、Maxwell Horton、Samy Bengio 以及 Mehrdad Farajtabar 的贡献。LK4喜好网-记录每日喜好的科技时尚娱乐生活

研究人员调查了他们所称的 "大规模推理模型" ( LRM ),这些模型试图通过生成一种被称为 "chain-of-thought reasoning" 的深思熟虑文本输出来模拟逻辑推理过程,从而表面上逐步解决问题。LK4喜好网-记录每日喜好的科技时尚娱乐生活

为此,他们将这些 AI 模型与四个经典谜题 —— Tower of Hanoi ( moving disks between pegs )、checkers jumping ( eliminating pieces )、river crossing ( transporting items with constraints ) 以及 blocks world ( stacking blocks ) —— 进行对抗,并将难度从微不足道的简单(例如只有一个盘的 Hanoi)扩展到极其复杂(如 20 盘 Hanoi 需超过一百万步)。LK4喜好网-记录每日喜好的科技时尚娱乐生活

研究人员写道: "Current evaluations primarily focus on established mathematical and coding benchmarks, emphasizing final answer accuracy" 。换句话说,如今的测试只关注模型是否能对可能已出现在其训练数据中的数学或编程问题给出正确答案 —— 而并未考察模型是否真正通过推理过程得出答案,还是仅仅从曾见过的例子中进行模式匹配。LK4喜好网-记录每日喜好的科技时尚娱乐生活

最终,研究人员发现结果与上述 USAMO 的研究一致,表明这些模型在新颖数学证明问题上大多仅得分不足 5% ,只有一个模型达到 25% ,在近 200 次尝试中未出现过一个完美证明。两个研究团队均记录了在需要长时间系统推理的问题上性能大幅下降的现象。LK4喜好网-记录每日喜好的科技时尚娱乐生活

知名怀疑者与新证据LK4喜好网-记录每日喜好的科技时尚娱乐生活

长期以来一直认为神经网络在分布外泛化上存在困难的 AI 研究员 Gary Marcus 称苹果的结果对大语言模型来说 "pretty devastating to LLMs" 。尽管 Marcus 多年来一直持有类似观点,并以其对 AI 的怀疑态度著称,但这项新研究为他这一特定批评观点提供了全新的实证支持。LK4喜好网-记录每日喜好的科技时尚娱乐生活

Marcus 写道: "It is truly embarrassing that LLMs cannot reliably solve Hanoi" ,他指出,AI 研究员 Herb Simon 在 1957 年就解决了这一难题,且网上有许多算法解决方案。Marcus 指出,即便当研究人员提供了明确的解决 Tower of Hanoi 的算法时,模型的表现依旧未见改善 —— 这一发现正如该研究联合负责人 Iman Mirzadeh 所言,表明 "their process is not logical and intelligent" 。LK4喜好网-记录每日喜好的科技时尚娱乐生活

苹果团队发现,模拟推理模型与 "标准" 模型(如 GPT-4o)在面对难题难度时表现各异。在简单任务上,例如仅含少量盘片的 Tower of Hanoi,标准模型实际上更占优势,因为推理模型会 "overthink" 并生成冗长的思考链,导致回答错误。在中等难度任务中,SR 模型的条理化方法给了它们一定优势;但在真正困难的任务中,包括具有 10 个或更多盘片的 Tower of Hanoi,两类型模型均完全失败,无论给予多少时间,都无法完成难题。LK4喜好网-记录每日喜好的科技时尚娱乐生活

研究人员还确定了其所谓的 "counterintuitive scaling limit" 。随着问题复杂度的增加,模拟推理模型起初会生成更多的思考 Token,但在超过某一阈值后,其推理投入反而减少,尽管拥有足够的计算资源。LK4喜好网-记录每日喜好的科技时尚娱乐生活

研究还揭示了模型失败方式中的一些令人困惑的不一致性。Claude 3.7 Sonnet 在 Tower of Hanoi 中可执行多达 100 次正确移动,但在一则 river crossing 谜题中仅进行 5 步后便失败 —— 尽管后者所需移动总数较少。这表明,失败可能是任务特定的,而非纯粹的计算问题。LK4喜好网-记录每日喜好的科技时尚娱乐生活

相互竞争的解读出现LK4喜好网-记录每日喜好的科技时尚娱乐生活

然而,并非所有研究人员都同意这些结果证明了基本推理局限的解读。多伦多大学经济学家 Kevin A. Bryan 在 X 上表示,这些观察到的局限可能反映了刻意的训练限制,而非固有的不足。LK4喜好网-记录每日喜好的科技时尚娱乐生活

Bryan 写道: "If you tell me to solve a problem that would take me an hour of pen and paper, but give me five minutes, I'll probably give you an approximate solution or a heuristic. This is exactly what foundation models with thinking are RL'd to do" ,暗示模型是通过强化学习 ( RL ) 专门训练以避免过度计算。LK4喜好网-记录每日喜好的科技时尚娱乐生活

Bryan 认为,未指明的行业基准显示, "performance strictly increases as we increase in tokens used for inference, on ~every problem domain tried" ,但他也指出,部署的模型故意对这一点进行限制,以防止对简单查询进行 "overthinking"。这一观点表明,苹果论文可能是在衡量工程化的限制,而非基本推理局限。LK4喜好网-记录每日喜好的科技时尚娱乐生活

软件工程师 Sean Goedecke 在其博客上对苹果论文提出了类似批评,他指出,当面对需要超过 1,000 步移动的 Tower of Hanoi 时,DeepSeek-R1 "immediately decides 'generating all those moves manually is impossible,' because it would require tracking over a thousand moves. So it spins around trying to find a shortcut and fails" 。Goedecke 认为,这表明模型是在选择不去尝试该任务,而非由于无法完成任务。LK4喜好网-记录每日喜好的科技时尚娱乐生活

其他研究人员也质疑,基于谜题的评估方法是否适合用于大语言模型。独立 AI 研究者 Simon Willison 在接受 Ars Technica 采访时表示,Tower of Hanoi 的方法 "not exactly a sensible way to apply LLMs, with or without reasoning" ,并暗示这些失败可能仅仅反映了在上下文窗口中 tokens 用尽(即 AI 模型所能处理的最大文本量),而非推理缺陷。他将该论文形容为可能被夸大的研究,主要因其关于苹果宣称大语言模型不具备推理能力的 "irresistible headline" 而引起关注。LK4喜好网-记录每日喜好的科技时尚娱乐生活

苹果研究人员自己也提醒不要过度外推其研究结果,他们在局限性部分承认,"puzzle environments represent a narrow slice of reasoning tasks and may not capture the diversity of real-world or knowledge-intensive reasoning problems" 。论文还指出,推理模型在 "medium complexity" 范围内表现出改进,并且在部分现实应用中依然展现出实用价值。LK4喜好网-记录每日喜好的科技时尚娱乐生活

争议依旧存在LK4喜好网-记录每日喜好的科技时尚娱乐生活

这两项研究是否彻底摧毁了关于 AI 推理模型可信度的说法?未必如此。LK4喜好网-记录每日喜好的科技时尚娱乐生活

这些研究可能表明,SR 模型所使用的那种扩展上下文推理技巧,可能并非通向通用智能(general intelligence)的途径,就像一些人所期待的那样。如此一来,实现更稳健推理能力的发展路径,可能需要根本不同的方法,而不仅仅是对现有方法的优化。LK4喜好网-记录每日喜好的科技时尚娱乐生活

正如 Willison 前述,苹果研究结果迄今在 AI 社群中引起轩然大波。生成式 AI 是一个颇具争议的话题,在关于模型通用效用的持续意识形态斗争中,许多人倾向于采取极端立场。许多生成式 AI 的支持者对苹果结果提出质疑,而批评者则将该研究视为对大语言模型可信度的一记决定性重击。LK4喜好网-记录每日喜好的科技时尚娱乐生活

苹果的结果,加上 USAMO 的发现,似乎进一步支持了 Marcus 等批评者的论点,即这些系统依赖于复杂的模式匹配,而非其宣传所暗示的系统性推理。公平地说,生成式 AI 的许多领域仍处于初期阶段,即便其发明者也尚未完全理解这些技术为何以及如何发挥作用。在此期间,AI 公司或许可以通过适当缓和有关推理和智能突破的某些说法来建立信任。LK4喜好网-记录每日喜好的科技时尚娱乐生活

然而,这并不意味着这些 AI 模型毫无价值。即便是复杂的模式匹配机器,只要了解其局限性和可能的捏造,在执行节省劳动的任务上仍然可以为用户带来帮助。正如 Marcus 所承认,"At least for the next decade, LLMs (with and without inference time 'reasoning') will continue have their uses, especially for coding and brainstorming and writing" 。LK4喜好网-记录每日喜好的科技时尚娱乐生活

本文链接:http://www.xihao.site/showinfo-1-77770.html苹果最新研究挑战 AI 模型是否真正通过问题进行 "推理"

声明:本网页内容旨在传播知识,若有侵权等问题请及时与本网联系,我们将在第一时间删除处理。邮件:2376512515@qq.com。天上从来不会掉馅饼,请大家时刻谨防诈骗