📄 A Survey on Large Language Model based Autonomous Agents

📅 2023 🏛️ Frontiers of Computer Science 2024 📎 arXiv: 2308.11432
👤 Lei Wang, Chen Ma, Xueyang Feng, Xu Chen, Yankai Lin, Wayne Xin Zhao 等
agent LLM survey planning memory multi-agent

一句话总结： 系统性综述 LLM-based 自主 Agent 的构建（Architecture）、应用（Application）和评估（Evaluation）三大维度，提出 Profile + Memory + Planning + Action 四模块统一架构框架。

🏆 核心贡献

统一架构框架 — 提出 Profile + Memory + Planning + Action 四模块 Agent 架构分类法
能力获取分类 — 将 Agent 能力获取归纳为 Prompt Engineering / Fine-tuning / Mechanism Engineering
应用全景图 — 覆盖社会科学（社交仿真）、自然科学、工程（代码生成）三大领域
评估体系 — 主观 / 客观 / Benchmark 三层评估框架
42 页综述 — 引用 200+ 篇论文，涵盖 2023 年 Agent 研究全貌

🏗️ Agent 架构设计（重点）

论文提出了一个统一的 LLM-based Agent 架构框架，以 LLM 为核心控制器，周围环绕四个功能模块：

👤 Profiling Module

功能：定义 Agent 角色/人设，写入 prompt 影响 LLM 行为

三种构建方式：

Handcrafting — 手动设定角色描述
LLM-Generation — 让 LLM 自动生成角色
Dataset Alignment — 用真实数据对齐人设

Profile 包含：年龄/性别/职业 + 心理特征 + 社会关系信息

🧠 Memory Module

功能：存储环境感知信息，辅助未来决策

双层结构：

Short-term — LLM 上下文窗口（受限于 context length）
Long-term — 外部向量数据库（持久存储，via 检索访问）

三种操作：Read（检索）/ Write（写入）/ Reflect（总结压缩）

典型实现：Generative Agents 的 Memory Stream + Retrieval (recency × relevance × importance)

📋 Planning Module

功能：将复杂任务分解为可执行子任务

两种范式：

无反馈	有反馈
CoT — 逐步推理 ToT — 树状探索 + 回溯 GoT — 图结构推理 LLM+P — PDDL + 经典规划器	ReAct — 思考-行动-观察循环 Reflexion — 失败反思改进 Inner Monologue — 内部独白 Multi-Agent Debate — 多Agent讨论

关键洞察：有反馈的规划能力显著强于无反馈，但成本更高（多轮 LLM 调用）

⚡ Action Module

功能：将决策转化为具体行动，直接与环境交互

三个维度：

Action Goal — 任务完成 / 沟通协作 / 环境探索
Action Production — 记忆回调 / 计划跟随 / 混合
Action Space — 外部工具 / LLM 内部知识 / 人类交互

工具使用是 Action Module 的核心扩展能力（API调用、代码执行等）

📚 Agent 能力获取策略

策略	方法	优势	局限
Prompt Engineering	Zero-shot / Few-shot / Role prompt	零训练成本，灵活切换	受限于 LLM 基础能力
Agent Fine-tuning	在 Agent 轨迹数据上微调 LLM	内化 Agent 行为模式	需要大量标注轨迹
Mechanism Engineering	Trial-and-error / 经验积累 / 众包	持续自我进化	收敛速度不确定

🌍 应用领域全景

社会科学

社交仿真 — Generative Agents, Social Simulacra
心理学实验 — Agent 模拟人类行为
经济学模拟 — 市场 Agent 博弈

工程

软件开发 — ChatDev, MetaGPT
网页浏览 — WebAgent, Mind2Web
机器人控制 — SayCan, VoxPoser

自然科学

科学发现 — ChemCrow (化学), 药物发现
实验设计 — Agent 自动生成和执行实验方案

📊 评估体系

层级	方法	说明
主观评估	人类标注	捕捉细微偏好，但成本高、不可复现
客观评估	Success Rate / Reward / F1	自动化可复现，但可能遗漏细节
Benchmark	ALFWorld / WebShop / AgentBench / MINT	标准化环境，跨模型可比

💪 综述的价值

四模块架构框架（Profile + Memory + Planning + Action）成为后续研究的标准分析框架
覆盖面极广：42 页 / 200+ 引用，是 2023 年 Agent 领域最全面的综述之一
分类法清晰：每个模块都有二级分类（如 Planning = 有反馈 vs 无反馈）
跨领域视角：同时覆盖社科/自然科学/工程三大应用方向

⚠️ 局限性

综述截止 2023 年中，缺少后续重要工作（如 OpenAI Function Calling、Claude Tool Use、GPT-4V Agent）
对 multi-agent 协作的分析较浅，缺少对通信/协调协议的深入讨论
缺少对 Agent 安全性和对齐问题的系统性讨论

🔗 与我的研究的关联

这篇综述是理解 Agent 架构设计模式 的核心参考。四模块框架直接指导了 ScholarMind 的设计：

Profiling → ScholarMind 的 USER.md (研究方向/偏好)
Memory → ScholarMind 的 MEMORY.md + Knowledge Graph
Planning → Workflow 系统 (paper-analysis, knowledge-build)
Action → MCP Tools + Paper Registry + Report Generator

🕸️ 知识图谱录入

类型	新增	示例
Method	12	LLM-based Agent Architecture, Profiling/Memory/Planning/Action Module, CoT, ToT, Reflexion...
Concept	10	Short/Long-term Memory, Memory Retrieval/Reflection, Social Simulation, Multi-Agent Collaboration...
Author	6	Lei Wang, Chen Ma, Xu Chen, Yankai Lin...
跨论文连接	2	LLM Agent Architecture → Transformer, → Self-Attention

图谱增长: 30→59 节点, 35→69 关系 | 查看交互式图谱