← 返回 Dashboard

📄 A Survey on Large Language Model based Autonomous Agents

📅 2023 🏛️ Frontiers of Computer Science 2024 📎 arXiv: 2308.11432
👤 Lei Wang, Chen Ma, Xueyang Feng, Xu Chen, Yankai Lin, Wayne Xin Zhao 等
agent LLM survey planning memory multi-agent
一句话总结: 系统性综述 LLM-based 自主 Agent 的构建(Architecture)应用(Application)评估(Evaluation)三大维度,提出 Profile + Memory + Planning + Action 四模块统一架构框架。

🏆 核心贡献

  1. 统一架构框架 — 提出 Profile + Memory + Planning + Action 四模块 Agent 架构分类法
  2. 能力获取分类 — 将 Agent 能力获取归纳为 Prompt Engineering / Fine-tuning / Mechanism Engineering
  3. 应用全景图 — 覆盖社会科学(社交仿真)、自然科学、工程(代码生成)三大领域
  4. 评估体系 — 主观 / 客观 / Benchmark 三层评估框架
  5. 42 页综述 — 引用 200+ 篇论文,涵盖 2023 年 Agent 研究全貌

🏗️ Agent 架构设计(重点)

论文提出了一个统一的 LLM-based Agent 架构框架,以 LLM 为核心控制器,周围环绕四个功能模块:

👤 Profiling Module

功能:定义 Agent 角色/人设,写入 prompt 影响 LLM 行为

三种构建方式

  • Handcrafting — 手动设定角色描述
  • LLM-Generation — 让 LLM 自动生成角色
  • Dataset Alignment — 用真实数据对齐人设

Profile 包含:年龄/性别/职业 + 心理特征 + 社会关系信息

🧠 Memory Module

功能:存储环境感知信息,辅助未来决策

双层结构

  • Short-term — LLM 上下文窗口(受限于 context length)
  • Long-term — 外部向量数据库(持久存储,via 检索访问)

三种操作:Read(检索)/ Write(写入)/ Reflect(总结压缩)

典型实现:Generative Agents 的 Memory Stream + Retrieval (recency × relevance × importance)

📋 Planning Module

功能:将复杂任务分解为可执行子任务

两种范式

无反馈有反馈
CoT — 逐步推理
ToT — 树状探索 + 回溯
GoT — 图结构推理
LLM+P — PDDL + 经典规划器
ReAct — 思考-行动-观察循环
Reflexion — 失败反思改进
Inner Monologue — 内部独白
Multi-Agent Debate — 多Agent讨论

关键洞察:有反馈的规划能力显著强于无反馈,但成本更高(多轮 LLM 调用)

⚡ Action Module

功能:将决策转化为具体行动,直接与环境交互

三个维度

  • Action Goal — 任务完成 / 沟通协作 / 环境探索
  • Action Production — 记忆回调 / 计划跟随 / 混合
  • Action Space — 外部工具 / LLM 内部知识 / 人类交互

工具使用是 Action Module 的核心扩展能力(API调用、代码执行等)

📚 Agent 能力获取策略

策略方法优势局限
Prompt EngineeringZero-shot / Few-shot / Role prompt零训练成本,灵活切换受限于 LLM 基础能力
Agent Fine-tuning在 Agent 轨迹数据上微调 LLM内化 Agent 行为模式需要大量标注轨迹
Mechanism EngineeringTrial-and-error / 经验积累 / 众包持续自我进化收敛速度不确定

🌍 应用领域全景

社会科学

  • 社交仿真 — Generative Agents, Social Simulacra
  • 心理学实验 — Agent 模拟人类行为
  • 经济学模拟 — 市场 Agent 博弈

工程

  • 软件开发 — ChatDev, MetaGPT
  • 网页浏览 — WebAgent, Mind2Web
  • 机器人控制 — SayCan, VoxPoser

自然科学

📊 评估体系

层级方法说明
主观评估人类标注捕捉细微偏好,但成本高、不可复现
客观评估Success Rate / Reward / F1自动化可复现,但可能遗漏细节
BenchmarkALFWorld / WebShop / AgentBench / MINT标准化环境,跨模型可比

💪 综述的价值

⚠️ 局限性

🔗 与我的研究的关联

这篇综述是理解 Agent 架构设计模式 的核心参考。四模块框架直接指导了 ScholarMind 的设计:

🕸️ 知识图谱录入

类型新增示例
Method12LLM-based Agent Architecture, Profiling/Memory/Planning/Action Module, CoT, ToT, Reflexion...
Concept10Short/Long-term Memory, Memory Retrieval/Reflection, Social Simulation, Multi-Agent Collaboration...
Author6Lei Wang, Chen Ma, Xu Chen, Yankai Lin...
跨论文连接2LLM Agent Architecture → Transformer, → Self-Attention

图谱增长: 30→59 节点, 35→69 关系 | 查看交互式图谱