3. 实验与结果¶
ToT 在 3 个任务上做了完整实验。关键 takeaway:在结构化、需要规划的任务上 ToT 大幅超越 CoT;在开放生成任务上 ToT 也胜出但优势变小。
3.1 实验设置概览¶
- 底层模型:GPT-4(Chat Completion 模式),temperature
0.7 - 采样:每个 prompt 默认采 5 次(除特别说明)
- 实验时间:2023 年 5 月 5-16 日(重要!GPT-4 在不同时间会有差异)
3.2 任务 1:Game of 24¶
任务:给定 4 个数,用 + - * / 和括号组合成 24,每个数恰用一次。
例:4 9 10 13 → (10 - 4) * (13 - 9) = 24
ToT 设置:
- \(k=8\) 个 propose 候选 / 步
- 评估器:3 次采样投票(sure × 20 + likely × 1 + impossible × 0.001)
- BFS,\(b=5\),深度 \(T=3\)
- 数据:4nums.com 的 100 个测试题(按难度排序,取 #901-1000,硬题)
3.2.1 主结果¶
来自论文 Table 2:
Table 1: Game of 24 成功率对比¶
| Method | Success ↑ |
|---|---|
| IO prompt | 7.3% |
| CoT prompt | 4.0% |
| CoT-SC (k=100) | 9.0% |
| ToT (ours) b=1 | 45% |
| ToT (ours) b=5 | 74% |
| IO + Refine (k=10) | 27% |
| IO (best of 100) | 33% |
| CoT (best of 100) | 49% |
说明: - ToT (b=5) 是 CoT 的 18.5 倍,CoT-SC 的 8.2 倍 - 注意 CoT 比 IO 更差(4.0% vs 7.3%)—— CoT 让模型说"先算 4+9=13"反而把自己锁死 - ToT (b=1) 已经 45%,说明评估器本身就贡献了大头,b 增大主要是边际改进

解读:图 2 展示一次 ToT 推理的具体过程。左侧是 propose prompt 让 LLM 生成所有可能的"下一步算术",右侧是 value prompt 让 LLM 判断每个中间状态能不能继续凑到 24。
3.2.2 规模分析(重要)¶

解读:把 ToT 不同 \(b\) 设置的节点访问数(即 LLM 调用数)作为横轴,IO 和 CoT 的 best-of-\(k\) 也按访问数对齐。ToT 曲线全程在 IO/CoT 之上——说明 ToT 不只是"花更多算力",而是算力的边际效益更高。
💡 个人见解:
观察:CoT best-of-100 (49%) 已经跟 ToT b=5 (74%) 在同一量级,差 25 个百分点。这意味着——如果你愿意烧 100× 算力,CoT 也能逼近 ToT。
判断:ToT 的优势是算力效率(同 \(k\) 下成绩好),不是"绝对天花板"。论文不强调这点,但实战意义重大——有钱多采样的人,CoT 也凑合;预算紧的人才真正需要 ToT 的结构化探索。
延伸:实际部署时,先看你的"sample budget"。如果一次能采 100 次,CoT-SC 简单可靠;如果只能采 5-10 次,ToT 性价比碾压。
3.2.3 错误分析¶

解读:横轴是"在第几步首次进入死胡同"。结果显示——
- CoT 约 60% 的失败发生在 step 1(即生成前 3 个 token 就已经走错路)
- ToT 因为有评估器,能在 step 1 就剪掉死分支,错误集中到 step 2-3(更深的位置)
这是 ToT 价值的本质证据:左到右生成的核心问题就是"无法早期回头"。
3.3 任务 2:Creative Writing¶
任务:给 4 句话,写一段 4 段落散文,每段必须以给定的一句话结尾。开放性强,没有 ground truth。
ToT 设置: - thought:先写一个写作 plan - generator:Sample \(k=5\)(plan 多样化更有意义) - evaluator:Vote(让 LLM 比较 5 个 plan,选最连贯的) - BFS,\(b=1\),\(T=2\)(先选 plan,再选 passage)

解读:图 4 是一个真实样例。给定 4 个奇怪的句子(如"她开始用手语避免不必要的关注"),模型先生成 5 个候选 plan,然后用 vote prompt 让自己挑出最连贯的一个(Plan 2),再基于这个 plan 写 5 段,再 vote 出最好的最终输出。
3.3.1 结果¶
Table 2: Creative Writing — GPT-4 自动评分 + 人工偏好¶
| 评估方式 | IO | CoT | ToT | IO+Refine | ToT+Refine |
|---|---|---|---|---|---|
| GPT-4 平均分 (1-10) | 6.19 | 6.93 | 7.56 | 7.67 | 7.91 |
| 人类偏好 (100 对) | — | CoT 胜 21 | ToT 胜 41 | — | — |
说明: - ToT 比 CoT 提升约 0.6 分(GPT-4 评判) - 人类偏好上 ToT 胜出比 ≈ 2:1(41 vs 21;剩余 38 对"差不多") - +Refine 在两者上都有用——这暗示 Refine 是个正交的优化,与 ToT 可以叠加

解读:箱线图展示 GPT-4 评分的分布。ToT 的中位数明显高,且分布更紧(方差小)。

💡 个人见解:
观察:Creative Writing 的人工偏好 41 vs 21 看起来好,但38% "差不多" 是个大数字。
判断:ToT 在创意任务上的实质胜利比数字看起来弱。原因:vote prompt 本质是让 GPT-4 评判 GPT-4,评估器和生成器是同一个模型,存在显著的偏好同源问题。让 Claude 或人类评估再做一次对比,差距可能会缩小。
延伸:用 ToT 做开放生成,评估器的多样性(用不同模型 / 不同 temperature / 用 reward model)是值得探索的方向。
3.4 任务 3:Mini Crosswords (5×5)¶
任务:5×5 字谜,5 条横向 clue + 5 条纵向 clue,填出 25 个字母。
ToT 设置: - thought:给某个 clue 填一个单词 - generator:Propose(候选单词) - evaluator:Value over remaining clues(每个剩余 clue 都问"还能填吗") - DFS + 剪枝 + 回溯(深度可达 10)

解读:图 6(a) 显示如何把当前状态翻译成"剩余 clue 的字母约束"(如 "v1.To heap: tm_s_"),让 LLM 提议候选词。(b) 则展示如果某个剩余 clue 被判为 impossible,整个子树就被剪枝并 DFS 回退。
3.4.1 结果¶
Table 3: Mini Crosswords 结果(成功率 %)¶
| Method | Letter ↑ | Word ↑ | Game ↑ |
|---|---|---|---|
| IO | 38.7 | 14 | 0 |
| CoT | 40.6 | 15.6 | 1 |
| ToT (ours) | 78 | 60 | 20 |
| +best state (oracle) | 82.4 | 67.5 | 35 |
| −prune (ablation) | 65.4 | 41.5 | 5 |
| −backtrack (ablation) | 54.6 | 20 | 5 |
说明(这张表信息量最大):
- ToT 把"游戏级正确率"从 ~0% 拉到 20%,字母级从 ~40% 拉到 78%
- +best state(oracle 选择最好的状态而非启发式)说明 ToT 的"输出选择策略"还有 15 个百分点的提升空间
- -prune(去掉剪枝):letter 78 → 65.4,剪枝贡献 12.6 分
- -backtrack(不回溯):letter 78 → 54.6,回溯贡献 23.4 分 ⭐
3.4.2 消融的核心信息¶
回溯(backtrack)是 Crosswords 任务上 ToT 最重要的组件——比剪枝重要 2 倍。
这就是为什么 Crosswords 用 DFS 而不是 BFS:BFS 没有"回头"概念,每层全保留,无法从死胡同退出。DFS + backtrack = 真正的搜索语义。
💡 个人见解:
观察:消融实验显示 -backtrack 让性能下跌一半(字母 78 → 54.6,词 60 → 20)。
判断:这是这篇论文最 underrated 的发现——它从经验上证明了"LLM 推理需要回溯能力"。在 ToT 之前,几乎所有 LLM 推理工作都是"前向一遍式"的(CoT、Self-Refine、Self-Consistency)。ToT 是第一次清楚展示回溯这个经典搜索概念在 LLM 上的实际价值。
延伸:2024 年起的工作(如 LATS, RAP, ToolFormer 的 reflection)开始把 backtrack 当一等公民设计——这条线的源头就是这张消融表。
3.5 跨任务总结¶
| 任务 | 主要提升 | 关键组件 | \(b\)/\(T\) |
|---|---|---|---|
| Game of 24 | 4% → 74% (18×) | State Evaluator (value w/ sure/likely/impossible) | \(b=5, T=3\) |
| Creative Writing | 6.93 → 7.56 | Vote(评估多样化 plan) | \(b=1, T=2\) |
| Crosswords | 0% → 20% (game-level) | DFS + Backtrack(消融 -23.4) | DFS, 100 steps |
每个任务真正的胜负手不同:G24 靠精准评估,Creative Writing 靠 plan 多样化,Crosswords 靠回溯。这也是 ToT 框架"4 个钩子"设计的合理性证明——单一组件不够,需要根据任务配置。
3.6 成本与效率(附录 B.3)¶
论文附录给的 GPT-4 API 成本:
| Method | tokens / task (Game24) | 相对成本 |
|---|---|---|
| IO | ~700 | 1× |
| CoT | ~1000 | 1.4× |
| CoT-SC (k=100) | ~100,000 | 142× |
| ToT (b=5) | ~70,000 | 100× |
注:ToT 的成本与 CoT-SC 同量级,不是"免费提升"。
💡 个人见解:
观察:100× token 成本对应74% vs 4%(vs CoT)—— 算下来每多花 1 美元,把成功率从 0.04 提升到 0.74,单位钱效益约 7×。
判断:但vs CoT-SC(49% best of 100)只多 25 个百分点,成本基本同量级。所以工程决策点是: - 单题成本 $1 以下:用 CoT - 单题成本 $10 量级、容忍长延迟:用 CoT-SC(best-of-100)或 ToT - 需要可解释的中间步骤、需要回溯:ToT 是唯一选择
延伸:把 ToT 用到 GPT-3.5 几乎不亮(附录 B.2),所以它实际上是一个 "GPT-4 / Claude 级模型才值得用" 的方法。
下一章 → 源码分析