← 返回 Dashboard

📄 ReAct: Synergizing Reasoning and Acting in Language Models

📅 2022 📎 arXiv: 2210.03629 🏛️ ICLR 2023
👤 Shunyu Yao, Jeffrey Zhao, Dian Yu, Nan Du, Izhak Shafran, Karthik Narasimhan, Yuan Cao
agent reasoning acting prompting few-shot grounding
一句话总结: 提出 ReAct —— 一种让 LLM 交替生成推理轨迹(Thought)和任务动作(Action)的范式,将动作空间从 A 扩展为 A ∪ L(语言空间),实现"推理引导行动、行动反哺推理"的协同闭环,在知识密集型 QA 和交互式决策两大类任务上均超越纯推理(CoT)或纯行动基线。

💡 核心洞察:Reasoning ↔ Acting 协同

方法推理行动问题
CoT(纯推理)✅ 内部思维链❌ 无外部交互56% 幻觉率(HotpotQA);黑箱推理无法验证
Act(纯行动)❌ 无推理✅ 搜索/查找无法综合信息、生成最终答案困难
ReAct(推理+行动)✅ Thought traces✅ Task actions推理错误47%(但幻觉降至0%)

人类认知类比:做菜时在动作间穿插「内心独白」— 追踪进度、处理异常、决定搜索菜谱 — 这正是 ReAct 的设计灵感来源(Vygotsky 内语理论)。

🏆 核心贡献

  1. Augmented Action Space — 将语言空间 L 融入动作空间:Â = A ∪ L,思维动作不影响环境但更新上下文
  2. Thought-Action-Observation 循环 — 交替生成推理轨迹和任务动作,构建可解释的问题求解路径
  3. ReAct + CoT-SC 混合策略 — 结合内部知识(CoT)和外部知识(ReAct),达到最优性能
  4. Few-shot 泛化 — 仅需 1-6 个标注样例,即超越训练 10³-10⁵ 样例的 IL/RL 方法
  5. Human-in-the-loop 可编辑 — 人类可直接编辑 Thought 来纠正 Agent 行为

🔬 形式化定义

标准 Agent 框架

时间步 t: 观测 oₜ ∈ O → 动作 aₜ ∈ A, 按策略 π(aₜ | cₜ)
上下文 cₜ = (o₁, a₁, ..., oₜ₋₁, aₜ₋₁, oₜ)

ReAct 扩展

扩展动作空间: Â = A ∪ L (L = 语言/思维空间)
思维动作 âₜ ∈ L: 不影响环境(无 observation 反馈),但更新上下文 cₜ₊₁ = (cₜ, âₜ)

Thought 的用途:
· 分解目标 → 生成行动计划
· 注入常识知识
· 提取观测中的关键信息
· 追踪进度 / 调整计划
· 处理异常和错误恢复

🛠️ 动作空间设计

知识密集型任务(HotpotQA / FEVER)

动作功能说明
search[entity]搜索 Wikipedia返回实体页面前5句;不存在则建议 top-5 相似实体
lookup[string]页内查找返回包含 string 的下一句,模拟 Ctrl+F
finish[answer]提交答案终止当前任务

设计意图:故意使用弱检索器(非 SOTA),迫使模型通过显式推理来引导检索。

决策任务(ALFWorld / WebShop)

📝 Prompting 设计

策略构造方式Thought 密度
ReAct (QA)6 个人工标注的 T-A-O 轨迹Dense(每步都有 Thought)
ReAct (FEVER)3 个人工标注轨迹Dense
ReAct (ALFWorld)每种任务 3 个标注,使用排列组合取最佳Sparse(仅关键位置)
ReAct (WebShop)1 个标注轨迹Sparse

特点:无需特殊格式设计、无 thought 模板、无样本筛选 — 标注者只需在动作旁写下自然语言思考。

📊 实验结果

知识密集型 QA

方法HotpotQA (EM)FEVER (Acc)
Standard28.757.1
CoT29.456.3
CoT-SC (21 samples)33.460.4
Act25.758.9
ReAct27.460.9
CoT-SC → ReAct34.264.6
ReAct → CoT-SC35.162.0
Supervised SoTA67.589.5

交互式决策

方法ALFWorld (成功率%)WebShop (成功率%)
BUTLER (IL, 10⁵ 样例)37
IL + RL28.7
Act (best of 6)4530.1
ReAct (best of 6)7140.0
Human Expert59.6

错误模式分析(HotpotQA 200 样本人工标注)

类别ReActCoT核心差异
✅ 真正确94%86%ReAct 更 factual,更少幻觉
⚠️ 假正确(幻觉成功)6%14%CoT 幻觉率高 2.3×
❌ 推理错误47%16%ReAct 结构约束限制推理灵活性
❌ 搜索失败23%非信息性搜索结果导致推理偏轨
❌ 幻觉失败0%56%ReAct 核心优势:零幻觉

🔧 Finetuning 实验

💪 优势

⚠️ 局限性

🔗 与其他论文的关联

连接到关系说明
Chain-of-Thought (CoT)extendsReAct 在 CoT 的推理轨迹基础上增加了外部行动和观测
Inner MonologueimprovesIM 只有密集外部反馈,ReAct 有灵活内部推理(71% vs 53%)
LLM Agent Architecture (Survey)is_instance_ofReAct 是 Agent 架构中 Planning Module 的经典实例
Planning Modulerelates_toThought 轨迹 = 目标分解 + 子目标追踪 + 计划调整
Memory Modulerelates_toObservation 累积在上下文中形成 working memory
MemGPTrelatedMemGPT 的 Inner Thoughts 机制与 ReAct 的 Thought 同源
Generative Agentsrelated两者都是 Agent 使用自然语言推理的早期代表作

🕸️ 知识图谱录入

类型新增示例
Method7ReAct, TAO Loop, CoT, CoT-SC, ReAct+CoT-SC Hybrid, Inner Monologue, Bootstrapped Finetuning
Concept3Augmented Action Space, Hallucination in Reasoning, Few-Shot In-Context Learning
Dataset4HotpotQA, FEVER, ALFWorld, WebShop
Tool2Wikipedia API Action Space, PaLM-540B
Author3Shunyu Yao, Karthik Narasimhan, Yuan Cao
跨论文连接3→ LLM Agent Architecture, → Planning Module, → Memory Module

图谱增长: 95→115 节点, 118→140 关系 | 查看交互式图谱