大语言模型(LLM)正通过 “推理时扩展” 技术展现出日益强大的复杂推理能力,这是一系列在推理阶段分配更多计算资源以生成答案的技术。然而,来自 Microsoft Research 的一项新研究显示,这些扩展方法的有效性并不是普遍存在的。不同模型、任务以及问题复杂度之间的性能提升存在显著差异。
核心研究发现是:在推理阶段简单地投入更多的计算资源,并不能保证获得更好或更高效的结果。这些发现可以帮助企业在将先进 AI 推理技术集成到应用中时,更好地理解成本波动性和模型可靠性。
测试扩展方法
Microsoft Research 团队对九个最先进的基础模型进行了广泛的实证分析。这些模型既包括像 GPT-4o、Claude 3.5 Sonnet、Gemini 2.0 Pro 和 Llama 3.1 405B 等 “常规” 模型,也包括专门通过推理时扩展进行微调以增强推理能力的模型。这其中包括 OpenAI 的 o1 和 o3-mini,Anthropic 的 Claude 3.7 Sonnet,Google 的 Gemini 2 Flash Thinking,以及 DeepSeek R1。
他们采用三种不同的推理时扩展方法对这些模型进行了评估:
标准链式思维 (CoT) : 该基本方法要求模型一步步地给出答案。
并行扩展: 模型针对同一个问题生成多个独立答案,并通过聚合器(例如多数投票或选择得分最高的答案)来得出最终结果。
顺序扩展: 模型迭代生成答案,并利用来自批评者(可能来源于模型自身)的反馈,在后续尝试中对答案进行改进。
这些方法在八个具有挑战性的基准数据集上进行了测试,这些数据集涵盖了许多依赖逐步问题解决的任务:数学和 STEM 推理 ( AIME, Omni-MATH, GPQA )、日历规划 ( BA-Calendar )、NP 难问题 ( 3SAT, TSP )、导航 ( Maze ) 以及空间推理 ( SpatialMap )。
一些基准测试中包含了难度各异的问题,这使得我们能够更细致地理解在问题难度增加时扩展方法的表现。
研究人员在详细说明其研究发现的论文中写道:“Omni-MATH、TSP、3SAT 以及 BA-Calendar 提供的难度标签使我们能够分析推理时扩展中准确率和 Token 使用量如何随着难度的增加而变化,而这一视角仍未得到充分探讨。”
研究人员通过同时分析准确率和计算成本(即生成的 Token 数量),评估了大语言模型推理的帕累托前沿,这有助于识别模型实现结果的效率。
他们还引入了 “常规与推理 gap” 指标,该指标将常规模型在使用理想化 “best-of-N” 选择下能够达到的最佳性能与推理模型的平均性能进行比较,从而估计通过更好的训练或验证技术所能实现的潜在提升。
更多计算资源并不总是答案
这项研究提供了几个关键见解,挑战了关于推理时扩展的普遍假设:
收益存在显著差异: 尽管经过推理调优的模型通常在这些任务上优于常规模型,但改进幅度因具体领域和任务而异。随着问题复杂度的增加,收益往往会减少。例如,在数学问题上观察到的性能提升并不总能同等转化为科学推理或规划任务中的提升。
Token 效率低下普遍存在: 研究人员观察到,即使在精度相似的模型之间,Token 消耗也存在很大差异。例如,在 AIME 2025 数学基准测试中,DeepSeek-R1 所使用的 Token 数量超过 Claude 3.7 Sonnet 的五倍以上,而两者的平均准确率大致相当。
更多 Token 并不等同于更高准确率: 与直观认为更长的推理链意味着更好推理的观点相反,研究发现情况并非总是如此。论文指出:“令人惊讶的是,我们还观察到,相对于同一模型来说,生成更长的结果有时反而表明模型处于挣扎状态,而非展示了更优的反思。同样,在比较不同的推理模型时,更高的 Token 使用量也不总是与更高的准确率相关联。这些发现激发了对更加有目的且高成本效益扩展方法的需求。”
成本不确定性: 对企业用户来说,最令人担忧的可能是对同一模型反复查询同一问题会导致 Token 使用量产生巨大波动。这意味着执行一次查询的成本可能会大幅波动,即使模型始终能够提供正确答案。
验证机制的潜力: 当采用 “完美验证器”(使用 best-of-N 结果)进行模拟时,所有模型和基准测试中的扩展性能均得到了持续提升。
常规模型有时能与推理模型匹配: 通过大幅增加推理调用次数(在某些实验中高达 50 倍),像 GPT-4o 这样的常规模型有时能接近专门推理模型的性能水平,特别是在较低复杂度的任务上。然而,在高度复杂的情境中,这些收益迅速减少,表明蛮力扩展是有其极限的。
对企业的启示
这些发现对于大语言模型的开发者和企业用户来说具有重要意义。尤其是“成本不确定性”问题非常突出,使得预算制定变得困难。正如研究人员所指出的,“理想情况下,开发者和用户会倾向于选择每个实例中 Token 使用标准差较低,从而具有成本预测优势的模型。”
Microsoft Research 高级首席研究经理 Besmira Nushi 在接受 VentureBeat 采访时表示:“我们在研究中进行的分析可以作为一个工具,帮助开发者选择在相同提示或不同提示下波动性较小的模型。理想情况下,人们希望选择一种对正确输入具有较低标准差的模型。”
该研究还对模型准确率与响应长度之间的相关性提供了深入洞见。例如,下图显示,对于超过约 11,000 Token 长度的数学查询,其正确率极低,因此这些生成结果应当在此阶段被终止,或者通过某种顺序反馈进行重新生成。然而,Nushi 指出,允许进行这些事后修正的模型在正确样本与错误样本之间也表现出更干净的分离。
Nushi 表示:“归根结底,模型构建者也有责任考虑如何降低准确率和成本的不确定性,我们预计随着方法的成熟,这方面会有大量改进。除了成本不确定性外,准确率的不确定性也同样存在。”
另一个重要发现是在采用完美验证器时性能的一致提升,这突显了未来工作的一个关键领域——构建健壮且广泛适用的验证机制。
Nushi 表示:“更强大的验证器能够带来多种不同类型的影响,例如改进推理的基础训练方法。如果高效使用,它们还可以缩短推理过程。”
强大的验证器也可能成为企业自主 AI 解决方案的核心部分。许多企业利益相关者已经部署了此类验证器,可能需要将它们改造用于更自主的解决方案,例如 SAT 求解器、逻辑有效性检查器等。
Nushi 表示:“未来需要探讨的问题是如何将现有技术与 AI 驱动的接口结合,以及如何建立连接两者的语言。之所以有必要将二者连接,是因为用户不会总以正式方式提出查询,他们希望使用自然语言界面,并期望以类似格式获得解决方案,或者以最终行动(例如提出会议邀请)的形式呈现。”
本文链接:http://www.xihao.site/showinfo-1-73685.html当 AI 推理出错:Microsoft Research 显示更多 Token 可能带来更多问题