← 返回 Dashboard
📄 A Survey on Large Language Model based Autonomous Agents
📅 2023
🏛️ Frontiers of Computer Science 2024
📎 arXiv: 2308.11432
👤 Lei Wang, Chen Ma, Xueyang Feng, Xu Chen, Yankai Lin, Wayne Xin Zhao 等
agent
LLM
survey
planning
memory
multi-agent
一句话总结:
系统性综述 LLM-based 自主 Agent 的构建(Architecture)、应用(Application)和评估(Evaluation)三大维度,提出 Profile + Memory + Planning + Action 四模块统一架构框架。
🏆 核心贡献
- 统一架构框架 — 提出 Profile + Memory + Planning + Action 四模块 Agent 架构分类法
- 能力获取分类 — 将 Agent 能力获取归纳为 Prompt Engineering / Fine-tuning / Mechanism Engineering
- 应用全景图 — 覆盖社会科学(社交仿真)、自然科学、工程(代码生成)三大领域
- 评估体系 — 主观 / 客观 / Benchmark 三层评估框架
- 42 页综述 — 引用 200+ 篇论文,涵盖 2023 年 Agent 研究全貌
🏗️ Agent 架构设计(重点)
论文提出了一个统一的 LLM-based Agent 架构框架,以 LLM 为核心控制器,周围环绕四个功能模块:
👤 Profiling Module
功能:定义 Agent 角色/人设,写入 prompt 影响 LLM 行为
三种构建方式:
- Handcrafting — 手动设定角色描述
- LLM-Generation — 让 LLM 自动生成角色
- Dataset Alignment — 用真实数据对齐人设
Profile 包含:年龄/性别/职业 + 心理特征 + 社会关系信息
🧠 Memory Module
功能:存储环境感知信息,辅助未来决策
双层结构:
- Short-term — LLM 上下文窗口(受限于 context length)
- Long-term — 外部向量数据库(持久存储,via 检索访问)
三种操作:Read(检索)/ Write(写入)/ Reflect(总结压缩)
典型实现:Generative Agents 的 Memory Stream + Retrieval (recency × relevance × importance)
📋 Planning Module
功能:将复杂任务分解为可执行子任务
两种范式:
| 无反馈 | 有反馈 |
CoT — 逐步推理
ToT — 树状探索 + 回溯
GoT — 图结构推理
LLM+P — PDDL + 经典规划器
|
ReAct — 思考-行动-观察循环
Reflexion — 失败反思改进
Inner Monologue — 内部独白
Multi-Agent Debate — 多Agent讨论
|
关键洞察:有反馈的规划能力显著强于无反馈,但成本更高(多轮 LLM 调用)
⚡ Action Module
功能:将决策转化为具体行动,直接与环境交互
三个维度:
- Action Goal — 任务完成 / 沟通协作 / 环境探索
- Action Production — 记忆回调 / 计划跟随 / 混合
- Action Space — 外部工具 / LLM 内部知识 / 人类交互
工具使用是 Action Module 的核心扩展能力(API调用、代码执行等)
📚 Agent 能力获取策略
| 策略 | 方法 | 优势 | 局限 |
| Prompt Engineering | Zero-shot / Few-shot / Role prompt | 零训练成本,灵活切换 | 受限于 LLM 基础能力 |
| Agent Fine-tuning | 在 Agent 轨迹数据上微调 LLM | 内化 Agent 行为模式 | 需要大量标注轨迹 |
| Mechanism Engineering | Trial-and-error / 经验积累 / 众包 | 持续自我进化 | 收敛速度不确定 |
🌍 应用领域全景
社会科学
- 社交仿真 — Generative Agents, Social Simulacra
- 心理学实验 — Agent 模拟人类行为
- 经济学模拟 — 市场 Agent 博弈
工程
- 软件开发 — ChatDev, MetaGPT
- 网页浏览 — WebAgent, Mind2Web
- 机器人控制 — SayCan, VoxPoser
自然科学
- 科学发现 — ChemCrow (化学), 药物发现
- 实验设计 — Agent 自动生成和执行实验方案
📊 评估体系
| 层级 | 方法 | 说明 |
| 主观评估 | 人类标注 | 捕捉细微偏好,但成本高、不可复现 |
| 客观评估 | Success Rate / Reward / F1 | 自动化可复现,但可能遗漏细节 |
| Benchmark | ALFWorld / WebShop / AgentBench / MINT | 标准化环境,跨模型可比 |
💪 综述的价值
- 四模块架构框架(Profile + Memory + Planning + Action)成为后续研究的标准分析框架
- 覆盖面极广:42 页 / 200+ 引用,是 2023 年 Agent 领域最全面的综述之一
- 分类法清晰:每个模块都有二级分类(如 Planning = 有反馈 vs 无反馈)
- 跨领域视角:同时覆盖社科/自然科学/工程三大应用方向
⚠️ 局限性
- 综述截止 2023 年中,缺少后续重要工作(如 OpenAI Function Calling、Claude Tool Use、GPT-4V Agent)
- 对 multi-agent 协作的分析较浅,缺少对通信/协调协议的深入讨论
- 缺少对 Agent 安全性和对齐问题的系统性讨论
🔗 与我的研究的关联
这篇综述是理解 Agent 架构设计模式 的核心参考。四模块框架直接指导了 ScholarMind 的设计:
- Profiling → ScholarMind 的 USER.md (研究方向/偏好)
- Memory → ScholarMind 的 MEMORY.md + Knowledge Graph
- Planning → Workflow 系统 (paper-analysis, knowledge-build)
- Action → MCP Tools + Paper Registry + Report Generator
🕸️ 知识图谱录入
| 类型 | 新增 | 示例 |
| Method | 12 | LLM-based Agent Architecture, Profiling/Memory/Planning/Action Module, CoT, ToT, Reflexion... |
| Concept | 10 | Short/Long-term Memory, Memory Retrieval/Reflection, Social Simulation, Multi-Agent Collaboration... |
| Author | 6 | Lei Wang, Chen Ma, Xu Chen, Yankai Lin... |
| 跨论文连接 | 2 | LLM Agent Architecture → Transformer, → Self-Attention |
图谱增长: 30→59 节点, 35→69 关系 | 查看交互式图谱