3. 实验与结果¶

ToT 在 3 个任务上做了完整实验。关键 takeaway：在结构化、需要规划的任务上 ToT 大幅超越 CoT；在开放生成任务上 ToT 也胜出但优势变小。

3.1 实验设置概览¶

底层模型：GPT-4（Chat Completion 模式），temperature 0.7
采样：每个 prompt 默认采 5 次（除特别说明）
实验时间：2023 年 5 月 5-16 日（重要！GPT-4 在不同时间会有差异）

3.2 任务 1：Game of 24¶

任务：给定 4 个数，用 + - * / 和括号组合成 24，每个数恰用一次。

例：4 9 10 13 → (10 - 4) * (13 - 9) = 24

ToT 设置： - $k=8$ 个 propose 候选 / 步 - 评估器：3 次采样投票（sure × 20 + likely × 1 + impossible × 0.001） - BFS，$b=5$，深度 $T=3$ - 数据：4nums.com 的 100 个测试题（按难度排序，取 #901-1000，硬题）

3.2.1 主结果¶

来自论文 Table 2：

Table 1: Game of 24 成功率对比¶

Method	Success ↑
IO prompt	7.3%
CoT prompt	4.0%
CoT-SC (k=100)	9.0%
ToT (ours) b=1	45%
ToT (ours) b=5	74%
IO + Refine (k=10)	27%
IO (best of 100)	33%
CoT (best of 100)	49%

说明： - ToT (b=5) 是 CoT 的 18.5 倍，CoT-SC 的 8.2 倍 - 注意 CoT 比 IO 更差（4.0% vs 7.3%）—— CoT 让模型说"先算 4+9=13"反而把自己锁死 - ToT (b=1) 已经 45%，说明评估器本身就贡献了大头，b 增大主要是边际改进

Figure 2: ToT 在 Game of 24 的工作流程

解读：图 2 展示一次 ToT 推理的具体过程。左侧是 propose prompt 让 LLM 生成所有可能的"下一步算术"，右侧是 value prompt 让 LLM 判断每个中间状态能不能继续凑到 24。

3.2.2 规模分析（重要）¶

Figure 3a: 节点访问数 vs 成功率

解读：把 ToT 不同 $b$ 设置的节点访问数（即 LLM 调用数）作为横轴，IO 和 CoT 的 best-of-$k$ 也按访问数对齐。ToT 曲线全程在 IO/CoT 之上——说明 ToT 不只是"花更多算力"，而是算力的边际效益更高。

💡 个人见解：

观察：CoT best-of-100 (49%) 已经跟 ToT b=5 (74%) 在同一量级，差 25 个百分点。这意味着——如果你愿意烧 100× 算力，CoT 也能逼近 ToT。

判断：ToT 的优势是算力效率（同 $k$ 下成绩好），不是"绝对天花板"。论文不强调这点，但实战意义重大——有钱多采样的人，CoT 也凑合；预算紧的人才真正需要 ToT 的结构化探索。

延伸：实际部署时，先看你的"sample budget"。如果一次能采 100 次，CoT-SC 简单可靠；如果只能采 5-10 次，ToT 性价比碾压。

3.2.3 错误分析¶

Figure 3b: 哪一步开始失败

解读：横轴是"在第几步首次进入死胡同"。结果显示——

CoT 约 60% 的失败发生在 step 1（即生成前 3 个 token 就已经走错路）
ToT 因为有评估器，能在 step 1 就剪掉死分支，错误集中到 step 2-3（更深的位置）

这是 ToT 价值的本质证据：左到右生成的核心问题就是"无法早期回头"。

3.3 任务 2：Creative Writing¶

任务：给 4 句话，写一段 4 段落散文，每段必须以给定的一句话结尾。开放性强，没有 ground truth。

ToT 设置： - thought：先写一个写作 plan - generator：Sample $k=5$（plan 多样化更有意义） - evaluator：Vote（让 LLM 比较 5 个 plan，选最连贯的） - BFS，$b=1$，$T=2$（先选 plan，再选 passage）

Figure 4: Creative Writing 中的 deliberate search 步骤

解读：图 4 是一个真实样例。给定 4 个奇怪的句子（如"她开始用手语避免不必要的关注"），模型先生成 5 个候选 plan，然后用 vote prompt 让自己挑出最连贯的一个（Plan 2），再基于这个 plan 写 5 段，再 vote 出最好的最终输出。

3.3.1 结果¶

Table 2: Creative Writing — GPT-4 自动评分 + 人工偏好¶

评估方式	IO	CoT	ToT	IO+Refine	ToT+Refine
GPT-4 平均分 (1-10)	6.19	6.93	7.56	7.67	7.91
人类偏好 (100 对)	—	CoT 胜 21	ToT 胜 41	—	—

说明： - ToT 比 CoT 提升约 0.6 分（GPT-4 评判） - 人类偏好上 ToT 胜出比 ≈ 2:1（41 vs 21；剩余 38 对"差不多"） - +Refine 在两者上都有用——这暗示 Refine 是个正交的优化，与 ToT 可以叠加

Figure 5: Creative Writing 详细结果

解读：箱线图展示 GPT-4 评分的分布。ToT 的中位数明显高，且分布更紧（方差小）。

Figure 5b: 人类偏好对比

💡 个人见解：

观察：Creative Writing 的人工偏好 41 vs 21 看起来好，但38% "差不多" 是个大数字。

判断：ToT 在创意任务上的实质胜利比数字看起来弱。原因：vote prompt 本质是让 GPT-4 评判 GPT-4，评估器和生成器是同一个模型，存在显著的偏好同源问题。让 Claude 或人类评估再做一次对比，差距可能会缩小。

延伸：用 ToT 做开放生成，评估器的多样性（用不同模型 / 不同 temperature / 用 reward model）是值得探索的方向。

3.4 任务 3：Mini Crosswords (5×5)¶

任务：5×5 字谜，5 条横向 clue + 5 条纵向 clue，填出 25 个字母。

ToT 设置： - thought：给某个 clue 填一个单词 - generator：Propose（候选单词） - evaluator：Value over remaining clues（每个剩余 clue 都问"还能填吗"） - DFS + 剪枝 + 回溯（深度可达 10）

Figure 6: Crosswords 的 thought 提议和评估

解读：图 6(a) 显示如何把当前状态翻译成"剩余 clue 的字母约束"（如 "v1.To heap: tm_s_"），让 LLM 提议候选词。(b) 则展示如果某个剩余 clue 被判为 impossible，整个子树就被剪枝并 DFS 回退。

3.4.1 结果¶

Table 3: Mini Crosswords 结果（成功率 %）¶

Method	Letter ↑	Word ↑	Game ↑
IO	38.7	14	0
CoT	40.6	15.6	1
ToT (ours)	78	60	20
+best state (oracle)	82.4	67.5	35
−prune (ablation)	65.4	41.5	5
−backtrack (ablation)	54.6	20	5

说明（这张表信息量最大）：

ToT 把"游戏级正确率"从 ~0% 拉到 20%，字母级从 ~40% 拉到 78%
+best state（oracle 选择最好的状态而非启发式）说明 ToT 的"输出选择策略"还有 15 个百分点的提升空间
-prune（去掉剪枝）：letter 78 → 65.4，剪枝贡献 12.6 分
-backtrack（不回溯）：letter 78 → 54.6，回溯贡献 23.4 分 ⭐

3.4.2 消融的核心信息¶

回溯（backtrack）是 Crosswords 任务上 ToT 最重要的组件——比剪枝重要 2 倍。

这就是为什么 Crosswords 用 DFS 而不是 BFS：BFS 没有"回头"概念，每层全保留，无法从死胡同退出。DFS + backtrack = 真正的搜索语义。

💡 个人见解：

观察：消融实验显示 -backtrack 让性能下跌一半（字母 78 → 54.6，词 60 → 20）。

判断：这是这篇论文最 underrated 的发现——它从经验上证明了"LLM 推理需要回溯能力"。在 ToT 之前，几乎所有 LLM 推理工作都是"前向一遍式"的（CoT、Self-Refine、Self-Consistency）。ToT 是第一次清楚展示回溯这个经典搜索概念在 LLM 上的实际价值。

延伸：2024 年起的工作（如 LATS, RAP, ToolFormer 的 reflection）开始把 backtrack 当一等公民设计——这条线的源头就是这张消融表。

3.5 跨任务总结¶

任务	主要提升	关键组件	$b$/$T$
Game of 24	4% → 74% (18×)	State Evaluator (value w/ sure/likely/impossible)	$b=5, T=3$
Creative Writing	6.93 → 7.56	Vote（评估多样化 plan）	$b=1, T=2$
Crosswords	0% → 20% (game-level)	DFS + Backtrack（消融 -23.4）	DFS, 100 steps

每个任务真正的胜负手不同：G24 靠精准评估，Creative Writing 靠 plan 多样化，Crosswords 靠回溯。这也是 ToT 框架"4 个钩子"设计的合理性证明——单一组件不够，需要根据任务配置。

3.6 成本与效率（附录 B.3）¶

论文附录给的 GPT-4 API 成本：

Method	tokens / task (Game24)	相对成本
IO	~700	1×
CoT	~1000	1.4×
CoT-SC (k=100)	~100,000	142×
ToT (b=5)	~70,000	100×

注：ToT 的成本与 CoT-SC 同量级，不是"免费提升"。

💡 个人见解：

观察：100× token 成本对应74% vs 4%（vs CoT）—— 算下来每多花 1 美元，把成功率从 0.04 提升到 0.74，单位钱效益约 7×。

判断：但vs CoT-SC（49% best of 100）只多 25 个百分点，成本基本同量级。所以工程决策点是： - 单题成本 $1 以下：用 CoT - 单题成本 $10 量级、容忍长延迟：用 CoT-SC（best-of-100）或 ToT - 需要可解释的中间步骤、需要回溯：ToT 是唯一选择

延伸：把 ToT 用到 GPT-3.5 几乎不亮（附录 B.2），所以它实际上是一个 "GPT-4 / Claude 级模型才值得用" 的方法。

下一章 → 源码分析