跳转至

3. 实验与结果

ToT 在 3 个任务上做了完整实验。关键 takeaway:在结构化、需要规划的任务上 ToT 大幅超越 CoT;在开放生成任务上 ToT 也胜出但优势变小。

3.1 实验设置概览

  • 底层模型:GPT-4(Chat Completion 模式),temperature 0.7
  • 采样:每个 prompt 默认采 5 次(除特别说明)
  • 实验时间:2023 年 5 月 5-16 日(重要!GPT-4 在不同时间会有差异)

3.2 任务 1:Game of 24

任务:给定 4 个数,用 + - * / 和括号组合成 24,每个数恰用一次。

4 9 10 13(10 - 4) * (13 - 9) = 24

ToT 设置: - \(k=8\) 个 propose 候选 / 步 - 评估器:3 次采样投票(sure × 20 + likely × 1 + impossible × 0.001) - BFS,\(b=5\),深度 \(T=3\) - 数据:4nums.com 的 100 个测试题(按难度排序,取 #901-1000,硬题)

3.2.1 主结果

来自论文 Table 2

Table 1: Game of 24 成功率对比

Method Success ↑
IO prompt 7.3%
CoT prompt 4.0%
CoT-SC (k=100) 9.0%
ToT (ours) b=1 45%
ToT (ours) b=5 74%
IO + Refine (k=10) 27%
IO (best of 100) 33%
CoT (best of 100) 49%

说明: - ToT (b=5) 是 CoT 的 18.5 倍,CoT-SC 的 8.2 倍 - 注意 CoT 比 IO 更差(4.0% vs 7.3%)—— CoT 让模型说"先算 4+9=13"反而把自己锁死 - ToT (b=1) 已经 45%,说明评估器本身就贡献了大头,b 增大主要是边际改进

Figure 2: ToT 在 Game of 24 的工作流程

解读:图 2 展示一次 ToT 推理的具体过程。左侧是 propose prompt 让 LLM 生成所有可能的"下一步算术",右侧是 value prompt 让 LLM 判断每个中间状态能不能继续凑到 24。

3.2.2 规模分析(重要)

Figure 3a: 节点访问数 vs 成功率

解读:把 ToT 不同 \(b\) 设置的节点访问数(即 LLM 调用数)作为横轴,IO 和 CoT 的 best-of-\(k\) 也按访问数对齐。ToT 曲线全程在 IO/CoT 之上——说明 ToT 不只是"花更多算力",而是算力的边际效益更高

💡 个人见解

观察:CoT best-of-100 (49%) 已经跟 ToT b=5 (74%) 在同一量级,差 25 个百分点。这意味着——如果你愿意烧 100× 算力,CoT 也能逼近 ToT。

判断:ToT 的优势是算力效率(同 \(k\) 下成绩好),不是"绝对天花板"。论文不强调这点,但实战意义重大——有钱多采样的人,CoT 也凑合预算紧的人才真正需要 ToT 的结构化探索。

延伸:实际部署时,先看你的"sample budget"。如果一次能采 100 次,CoT-SC 简单可靠;如果只能采 5-10 次,ToT 性价比碾压。

3.2.3 错误分析

Figure 3b: 哪一步开始失败

解读:横轴是"在第几步首次进入死胡同"。结果显示——

  • CoT 约 60% 的失败发生在 step 1(即生成前 3 个 token 就已经走错路)
  • ToT 因为有评估器,能在 step 1 就剪掉死分支,错误集中到 step 2-3(更深的位置)

这是 ToT 价值的本质证据:左到右生成的核心问题就是"无法早期回头"。

3.3 任务 2:Creative Writing

任务:给 4 句话,写一段 4 段落散文,每段必须以给定的一句话结尾。开放性强,没有 ground truth。

ToT 设置: - thought:先写一个写作 plan - generator:Sample \(k=5\)(plan 多样化更有意义) - evaluator:Vote(让 LLM 比较 5 个 plan,选最连贯的) - BFS,\(b=1\)\(T=2\)(先选 plan,再选 passage)

Figure 4: Creative Writing 中的 deliberate search 步骤

解读:图 4 是一个真实样例。给定 4 个奇怪的句子(如"她开始用手语避免不必要的关注"),模型先生成 5 个候选 plan,然后用 vote prompt 让自己挑出最连贯的一个(Plan 2),再基于这个 plan 写 5 段,再 vote 出最好的最终输出。

3.3.1 结果

Table 2: Creative Writing — GPT-4 自动评分 + 人工偏好

评估方式 IO CoT ToT IO+Refine ToT+Refine
GPT-4 平均分 (1-10) 6.19 6.93 7.56 7.67 7.91
人类偏好 (100 对) CoT 胜 21 ToT 胜 41

说明: - ToT 比 CoT 提升约 0.6 分(GPT-4 评判) - 人类偏好上 ToT 胜出比 ≈ 2:1(41 vs 21;剩余 38 对"差不多") - +Refine 在两者上都有用——这暗示 Refine 是个正交的优化,与 ToT 可以叠加

Figure 5: Creative Writing 详细结果

解读:箱线图展示 GPT-4 评分的分布。ToT 的中位数明显高,且分布更紧(方差小)。

Figure 5b: 人类偏好对比

💡 个人见解

观察:Creative Writing 的人工偏好 41 vs 21 看起来好,但38% "差不多" 是个大数字。

判断:ToT 在创意任务上的实质胜利比数字看起来弱。原因:vote prompt 本质是让 GPT-4 评判 GPT-4,评估器和生成器是同一个模型,存在显著的偏好同源问题。让 Claude 或人类评估再做一次对比,差距可能会缩小。

延伸:用 ToT 做开放生成,评估器的多样性(用不同模型 / 不同 temperature / 用 reward model)是值得探索的方向。

3.4 任务 3:Mini Crosswords (5×5)

任务:5×5 字谜,5 条横向 clue + 5 条纵向 clue,填出 25 个字母。

ToT 设置: - thought:给某个 clue 填一个单词 - generator:Propose(候选单词) - evaluator:Value over remaining clues(每个剩余 clue 都问"还能填吗") - DFS + 剪枝 + 回溯(深度可达 10)

Figure 6: Crosswords 的 thought 提议和评估

解读:图 6(a) 显示如何把当前状态翻译成"剩余 clue 的字母约束"(如 "v1.To heap: tm_s_"),让 LLM 提议候选词。(b) 则展示如果某个剩余 clue 被判为 impossible,整个子树就被剪枝并 DFS 回退。

3.4.1 结果

Table 3: Mini Crosswords 结果(成功率 %)

Method Letter ↑ Word ↑ Game ↑
IO 38.7 14 0
CoT 40.6 15.6 1
ToT (ours) 78 60 20
+best state (oracle) 82.4 67.5 35
−prune (ablation) 65.4 41.5 5
−backtrack (ablation) 54.6 20 5

说明(这张表信息量最大):

  • ToT 把"游戏级正确率"从 ~0% 拉到 20%,字母级从 ~40% 拉到 78%
  • +best state(oracle 选择最好的状态而非启发式)说明 ToT 的"输出选择策略"还有 15 个百分点的提升空间
  • -prune(去掉剪枝):letter 78 → 65.4,剪枝贡献 12.6 分
  • -backtrack(不回溯):letter 78 → 54.6,回溯贡献 23.4 分

3.4.2 消融的核心信息

回溯(backtrack)是 Crosswords 任务上 ToT 最重要的组件——比剪枝重要 2 倍。

这就是为什么 Crosswords 用 DFS 而不是 BFS:BFS 没有"回头"概念,每层全保留,无法从死胡同退出。DFS + backtrack = 真正的搜索语义。

💡 个人见解

观察:消融实验显示 -backtrack 让性能下跌一半(字母 78 → 54.6,词 60 → 20)。

判断:这是这篇论文最 underrated 的发现——它从经验上证明了"LLM 推理需要回溯能力"。在 ToT 之前,几乎所有 LLM 推理工作都是"前向一遍式"的(CoT、Self-Refine、Self-Consistency)。ToT 是第一次清楚展示回溯这个经典搜索概念在 LLM 上的实际价值。

延伸:2024 年起的工作(如 LATS, RAP, ToolFormer 的 reflection)开始把 backtrack 当一等公民设计——这条线的源头就是这张消融表。

3.5 跨任务总结

任务 主要提升 关键组件 \(b\)/\(T\)
Game of 24 4% → 74% (18×) State Evaluator (value w/ sure/likely/impossible) \(b=5, T=3\)
Creative Writing 6.93 → 7.56 Vote(评估多样化 plan) \(b=1, T=2\)
Crosswords 0% → 20% (game-level) DFS + Backtrack(消融 -23.4) DFS, 100 steps

每个任务真正的胜负手不同:G24 靠精准评估,Creative Writing 靠 plan 多样化,Crosswords 靠回溯。这也是 ToT 框架"4 个钩子"设计的合理性证明——单一组件不够,需要根据任务配置

3.6 成本与效率(附录 B.3)

论文附录给的 GPT-4 API 成本:

Method tokens / task (Game24) 相对成本
IO ~700
CoT ~1000 1.4×
CoT-SC (k=100) ~100,000 142×
ToT (b=5) ~70,000 100×

:ToT 的成本与 CoT-SC 同量级,不是"免费提升"

💡 个人见解

观察:100× token 成本对应74% vs 4%(vs CoT)—— 算下来每多花 1 美元,把成功率从 0.04 提升到 0.74,单位钱效益约 7×

判断:但vs CoT-SC(49% best of 100)只多 25 个百分点,成本基本同量级。所以工程决策点是: - 单题成本 $1 以下:用 CoT - 单题成本 $10 量级、容忍长延迟:用 CoT-SC(best-of-100)或 ToT - 需要可解释的中间步骤、需要回溯:ToT 是唯一选择

延伸:把 ToT 用到 GPT-3.5 几乎不亮(附录 B.2),所以它实际上是一个 "GPT-4 / Claude 级模型才值得用" 的方法。

下一章 → 源码分析