从 AI Agent 到 Agent 工作流
摘要
AI Agent 本身并无太多实际用途,只有通过赋予其角色、目标和结构——即通过工作流——才能真正发挥作用。本文从 AI Agent 基础概念出发,系统梳理 Agent 工作流的组成、模式、应用场景及优缺点。
一、什么是 AI Agent?
AI 代理是一种结合了 LLM 的推理与决策能力 和 现实世界交互工具 的系统,能够在有限的人类干预下完成复杂任务。代理被赋予特定角色,拥有不同程度的自主性,并具备记忆能力,能从过去的经验中学习。
核心组件
/2cb834bd58ffb6f7a22d19e40d13e1db_MD5.webp)
| 组件 | 作用 |
|---|---|
| LLM | 提供推理能力 |
| 工具(Tools) | 帮助代理完成任务 |
| 记忆(Memory) | 从过去经验中学习,优化长期表现 |
推理(Reasoning)
AI 代理的强大之处在于其迭代推理能力,主要来自底层 LLM,发挥两个核心作用:
- 规划(Planning) — 将复杂问题拆解为更小、更可执行的步骤(任务分解),还能将复杂查询拆解为更简单的子查询(查询分解)
- 反思(Reflecting) — 回顾自身行动结果,基于结果与外部数据进行调整,优化后续决策
工具(Tools)
LLM 仅限于训练时获得的静态参数化知识,需借助外部工具扩展能力:
| 工具类型 | 作用 |
|---|---|
| 互联网搜索 | 获取和总结实时信息 |
| 向量搜索 | 检索和总结外部数据 |
| 代码解释器 | 运行代理生成的代码 |
| API | 访问外部服务、执行特定任务 |
当 LLM 选择工具时会执行函数调用(Function Calling),工具可由用户预先定义或由代理动态决定。
记忆(Memory)
记忆是 Agent 工作流区别于纯 LLM 工作流的重要特征:
- 短期记忆 — 存储最近的交互信息(如对话历史),帮助决定下一步行动
- 长期记忆 — 跨会话学习,实现个性化和持续优化
二、什么是 Agent 工作流?
工作流 指一系列相互关联的步骤,旨在完成特定任务。按智能程度可分为三类:
| 类型 | 特点 |
|---|---|
| 传统非 AI 工作流 | 依赖固定规则,按预设步骤执行,无法适应变化 |
| 非代理型 AI 工作流 | 使用 LLM 执行任务,但不具备动态决策或自主性 |
| 代理型 AI 工作流 | 通过 AI 代理动态执行任务,具备适应性和决策能力 |
核心区别
- AI 工作流 vs 传统工作流:是否依赖 AI 模型
- 代理型 vs 非代理型:是否使用动态 AI 代理进行自主决策
三、Agent 工作流的组成
一个 AI 工作流要成为代理型工作流,至少需要具备三个核心能力:
- 制定计划 — LLM 负责任务分解,将复杂任务拆解为子任务并确定最佳执行路径
- 使用工具执行任务 — 使用预定义工具(API、数据库、搜索引擎等)配合权限管理执行任务
- 反思和迭代 — 在每个步骤评估结果,必要时调整计划并反复执行
Agent 架构 vs Agent 工作流
| 术语 | 关注点 | 定义 |
|---|---|---|
| Agent 工作流 | 任务执行流程 | 代理如何分解任务、使用工具、调整策略 |
| Agent 架构 | 系统设计 | 如何构建包含代理、工具和记忆系统的整体框架 |
四、Agent 工作流模式
1. 规划模式(Planning Pattern)
代理自主将复杂任务拆解为子任务(任务分解),可以:
- 降低 LLM 的认知负荷
- 提升推理能力
- 减少幻觉,提高输出可靠性
示例:修复软件 bug
阅读 bug 报告 → 识别相关代码片段 → 生成可能的错误原因列表 → 选择调试策略 → 运行修复代码 → 若失败则调整方案
适用于目标达成路径不明确且需要灵活适应的场景。
2. 工具使用模式(Tool Use Pattern)
LLM 只能基于训练数据回答,可能产生幻觉。RAG 通过外部数据增强准确性,但仅限于数据检索。工具使用模式则进一步使代理能与外部系统动态交互:
| 工具 | 用途 |
|---|---|
| API | 访问外部服务,执行任务 |
| 信息检索(向量搜索) | 获取外部数据库中的相关信息 |
| Web 浏览器 | 进行网络搜索,获取最新信息 |
| 机器学习模型 | 调用外部 AI 模型,增强能力 |
| 代码解释器 | 运行代码,实现自动化计算 |
3. 反思模式(Reflection Pattern)
代理在采取最终行动前,迭代评估自身输出质量并优化推理过程:
- 纠正错误,减少不准确性
- 持续改进,提高决策质量
- 增强适应性,更好地满足用户需求
示例:代码生成
生成代码 → 在沙盒中运行 → 获取错误信息反馈给 LLM → 迭代优化直到成功
反思结果可编码在代理记忆中,实现当前会话内的高效问题解决和跨会话的个性化改善。
五、应用场景
1. Agentic RAG
在传统 RAG 流程中引入 AI 代理,使检索更加智能和动态:
- 规划阶段 — 将复杂查询拆解为子查询,判断是否需要向用户请求额外信息
- 检索与评估阶段 — 评估数据的相关性和准确性,不满意时重新调整查询方案
2. 代理研究助手(Deep Research)
基于 Agentic RAG,不仅检索信息,还能分析和综合数据:
| 特点 | 传统 RAG | 代理研究助手 |
|---|---|---|
| 信息获取 | 仅检索 | 检索 + 分析 + 综合 |
| 查询适应性 | 固定查询 | 动态调整查询方案 |
| 用户交互 | 只返回结果 | 可主动请求用户澄清需求 |
| 数据整合 | 单一查询结果 | 合并多源数据,发现趋势 |
目前 OpenAI、Perplexity、Google 都已推出各自的深度研究产品。
3. 代理编码助手
在最少的人为干预下完成代码生成、重构、优化和调试:
- 执行与自我改进 — 生成代码并基于错误信息迭代优化
- 代码库管理权限 — 创建 Commits 和 PR(如 Anthropic Claude Code),或执行前征求用户确认(如 Cursor Agent)
- 长期记忆 — 记住错误并自我改进
六、实际案例
Claygent(Clay)
服务于销售团队的 AI 研究代理,用于潜在客户研究和数据丰富化:
- 用户输入名单并指定所需数据字段
- 代理通过 LLM + 网络爬取工具搜索 LinkedIn 提取数据
- 调用另一个 LLM 总结分析数据,生成个性化外联消息
特点:灵活可定制的工作流、预配置提示模板、多代理协作。
ServiceNow AI Agents
自动化 IT、运营、HR 和客户服务领域的重复性任务:
- 用户提交工单触发代理工作流
- 代理调用 RAG 在内部知识库中搜索并分析类似案例
- 生成摘要和行动建议,由 IT 专家审批或拒绝
特点:人机协作、安全可控、结构化工作流。
七、优缺点
优势
- 灵活性与适应性 — 可根据任务难度调整和演化,模块化设计支持迭代升级
- 复杂任务表现改进 — 通过任务分解,显著优于确定性零样本方法
- 自我纠正和持续学习 — 反思模式 + 短期/长期记忆,每次迭代更高效
- 操作效率和可扩展性 — 高精度自动化重复性任务,轻松扩展
局限性
- 简单任务的过度复杂性 — 确定性自动化足够时,引入代理反而低效
- 自主性增加导致可靠性降低 — 概率性质引入不可预测性,需持续维护防护措施
- 伦理和实践考量 — 高风险或敏感领域需谨慎监督
使用前的自我检查
- 任务是否足够复杂,需要适应性决策?
- 简单的 AI 辅助工具(如无代理的 RAG)能否达到相同效果?
- 工作流是否涉及不确定性或多步推理?
- 给予代理自主性带来的风险能否有效降低?