什么是 AI Agent?
本章目标:搞清楚 AI Agent 是什么,它和普通的 AI 助手有什么不同
阅读时间:25 分钟
AI Agent 的定义
先搞懂"Agent"是什么
在计算机科学里,"Agent"指的是一个能够自主行动的实体。它不是被动的工具,而是能自己感知环境、做决策、采取行动。
用一句话概括:Agent = 感知 + 决策 + 行动
AI Agent 是什么
AI Agent 就是基于 AI 技术构建的自主系统。给它一个目标,它能自己想办法完成,而不是被动等待指令。
核心特征:
- 自主性:不需要人一直盯着,自己能跑
- 交互性:能和环境、用户、其他 Agent 打交道
- 响应性:环境变了能及时反应
- 主动性:看到目标会主动去实现
一个简单的定义
Cubeo AI 的博客给了一个很直接的说法:
"AI Agent 就是一个能自主用工具、循环跑的大语言模型。"
这个定义虽然简单,但抓住了本质:
- LLM 提供智能(理解、推理)
- Tools 提供能力(搜索、计算、API)
- Loop 持续运行,直到任务完成
其他定义
Alvarez & Marsal 认为 AI Agent 是"基于 LLM 和其他 AI/ML 模型的自主软件程序,能执行特定任务、做决策,并与用户、系统或其他 Agent 交互以实现目标"。
aiagent.app 的定义也类似,强调 Agent 能"从数据中学习,随时间适应,执行曾经只有人类才能做的决策和行动"。
AI Agent vs 传统 AI 助手
这是理解 Agent 的关键。我们通过对比来看区别。
核心区别
| 特征 | 传统 AI 助手 | AI Agent |
|---|---|---|
| 工作方式 | 你问它答 | 自己规划并执行 |
| 交互次数 | 一次问答 | 多轮循环,直到完成 |
| 工具使用 | 没有 | 能调用外部工具 |
| 任务理解 | 理解问题 | 理解目标并拆解 |
| 自主性 | 低,需要人引导 | 高,自己决策 |
| 记忆能力 | 当前对话 | 可以持久化 |
| 目标 | 回答问题 | 完成任务 |
实例对比
场景:你想了解最新的 AI 发展趋势
传统 AI 助手(如 ChatGPT):
你: "告诉我最新的 AI 发展趋势"
AI: [根据训练数据回答,可能已经过时]问题很明显:
- 没法访问实时信息
- 只能基于训练数据回答
- 一次回答完,没法深入研究
AI Agent:
你: "研究最新的 AI 发展趋势"
Agent 自动执行:
1. 用搜索工具获取最新新闻和论文
2. 阅读并总结关键内容
3. 分析趋势和模式
4. 生成结构化报告
5. 如果需要,再深入研究
最后: 给你一份包含来源、数据、趋势分析的完整报告优势很明显:
- 能获取实时信息
- 能自主规划研究步骤
- 能调用多种工具
- 输出结构化内容
打个比方
传统 AI 助手就像一个超级聪明的顾问:
- 你问问题,他回答
- 知识渊博,但只能"说",不能"做"
AI Agent就像一个超级聪明的执行者:
- 你告诉目标,他自己想办法实现
- 不仅会"说",还能"做"一系列动作
例子:
- AI 助手: "如何预订机票?" → 告诉你步骤
- AI Agent: "帮我订明天去北京的机票" → 直接完成预订
AI Agent 的核心架构
基本组件
一个完整的 AI Agent 通常包含这些模块:
用户输入目标
↓
感知模块 - 理解意图和目标,收集环境信息
↓
规划模块 - 拆解任务,制定执行计划
↓
决策模块 - 选择工具,决定下一步行动
↓
记忆模块 - 短期记忆(当前对话) + 长期记忆(历史经验)
↓
工具模块 - 搜索引擎、API 调用、文件操作、代码执行
↓
行动模块 - 执行操作,获取反馈
↓
循环判断: 目标完成?
否 → 返回规划模块
是 → 返回最终结果工作流程示例
任务: "帮我做一个能追踪 GitHub star 数量的浏览器插件"
一个 AI Agent 的处理流程:
1. 感知:理解用户要浏览器插件,目标是追踪 GitHub star
2. 规划:拆解任务
- 研究浏览器插件开发
- 调用 GitHub API
- 设计 UI
- 编写代码
- 测试功能
3. 决策:选技术栈(MetaV3 + Vanilla JS),确定功能范围
4. 工具调用:
- 搜索插件开发教程
- 调用 GitHub API 文档
- 生成代码
- 测试验证
5. 行动:
- 生成 manifest.json
- 编写 popup.html
- 实现 content.js
- 创建 background.js
6. 反馈与迭代:检查问题,调试修复,优化性能
7. 输出:完整代码 + 安装说明 + 使用指南AI Agent 的三要素
感知 (Perception)
Agent 理解环境和用户需求的能力
包括:
- 文本理解:理解用户输入的自然语言
- 上下文理解:理解对话历史和任务背景
- 环境感知:获取外部信息(搜索、API、文件)
技术基础:大语言模型、提示词工程、上下文学习
决策 (Decision Making)
基于感知信息进行推理和规划的能力
包括:
- 任务拆解:把复杂目标分解成子任务
- 规划:制定执行步骤和策略
- 推理:基于已知信息推导结论
- 选择:选择合适的工具和行动
技术基础:思维链(Chain of Thought)、ReAct 推理、任务规划算法
行动 (Action)
执行具体操作、影响环境的能力
包括:
- 工具调用:使用外部 API 和服务
- 信息检索:搜索网络、查询数据库
- 内容生成:创建文本、代码、图像
- 系统操作:读写文件、执行命令
技术基础:Function Calling、API 集成、执行环境(Sandbox)
AI Agent 的类型
按能力分类
反应式 Agent
- 根据当前状态直接反应
- 没记忆,不考虑历史
- 简单快速
- 例子:简单客服机器人
基于目标的 Agent
- 有明确目标
- 能规划实现路径
- 考虑未来状态
- 例子:导航系统、任务规划 Agent
基于效用的 Agent
- 有效用函数(评估好坏的标准)
- 在不确定性下做最优决策
- 考虑多个目标的权衡
- 例子:金融交易 Agent、资源调度 Agent
学习型 Agent
- 能从经验中学习
- 不断改进性能
- 适应环境变化
- 例子:推荐系统、自动驾驶
按架构分类
单 Agent 系统
- 一个 Agent 完成所有任务
- 简单直接,易于实现
- 能力有限,不适合复杂任务
多 Agent 系统
- 多个 Agent 协作完成复杂任务
架构:
协调器(Orchestrator) - 任务分配、结果整合
↓ ↓ ↓
Agent 1 Agent 2 Agent 3
(搜索) (分析) (总结)优点:分工协作、效率高、专业性强、容错性好 缺点:复杂度高、需要良好的协调机制
例子:AutoGPT、BabyAGI、研究助手 Agent
AI Agent 的应用场景
个人助理
日程管理、邮件回复、信息汇总、任务规划
例子:Motion.ai(日程优化)
内容创作
文章写作、图像生成、视频脚本、音乐创作
例子:Notion AI、Jasper
软件开发
代码生成、Bug 修复、代码审查、测试生成
例子:Cursor、GitHub Copilot、Claude Code
数据分析
数据可视化、趋势分析、报告生成、洞察发现
例子:Julius AI、ChatBI
客服与销售
自动回复、问题解决、订单处理、产品推荐
例子:Intercom Fin、Drift
科研辅助
文献检索、论文阅读、假设生成、实验设计
例子:Elicit、Consensus
经典 Agent 案例
AutoGPT
发布: 2023 年 3 月
核心思想:把 GPT-4"自主化",用户设定目标,Agent 自动规划、执行、迭代
工作流程:
- 接收目标
- 规划任务列表
- 执行子任务
- 反思评估
- 调整计划
- 循环到完成
影响:引发了 Agent 开发热潮,证明了自主 Agent 的可能性
局限:成本高、可能死循环、难以控制
BabyAGI
创造者: Yohei Nakajima
特点:专注于任务管理,自动创建、排序、执行任务
工作流程:
- 接收目标
- 生成任务列表
- 按优先级执行
- 根据结果创建新任务
- 循环到完成
应用场景:项目管理、研究助理、内容创作流水线
Claude Code
发布: 2024 年
特点:命令行集成、代码库理解、多文件编辑、Git 集成
为什么是 Agent:
- 能感知:读取和理解代码库
- 能决策:规划修改方案
- 能行动:编辑文件、运行命令
- 能迭代:根据错误调整
如何体验 AI Agent?
低代码平台
Coze(扣子) - 字节跳动
- 可视化构建 Agent
- 简单易用,国内访问
- https://www.coze.cn
Dify
- 开源 Agent 平台
- 可私有部署,灵活
- https://dify.ai
GPTs
- OpenAI 的 Agent 构建工具
- 与 ChatGPT 深度集成
- https://chat.openai.com/gpts
开发框架
LangChain / LangGraph
- 最流行的 Agent 框架
- Python / JavaScript
- https://www.langchain.com
AutoGen
- 微软开发
- 多 Agent 协作
- https://github.com/microsoft/autogen
CrewAI
- 角色扮演的多 Agent 系统
- https://github.com/joaomdmoura/crewAI
体验建议
初学者:
- 访问 Coze 或 Dify
- 创建一个简单聊天机器人
- 添加工具(搜索、计算等)
- 测试自主执行能力
开发者:
- 学习 LangChain 基础
- 用 ReAct 模式构建第一个 Agent
- 添加自定义工具
- 体验完整工作流程
本章小结
AI Agent 本质上就是能自主感知、决策、行动的 AI 系统。它和传统 AI 助手的核心区别在于:AI 助手被动回答问题,AI Agent 主动完成任务。
核心三要素:
- 感知:理解环境和需求
- 决策:推理和规划
- 行动:执行具体操作
基本工作流程:感知 → 规划 → 决策 → 行动 → 反馈 → 循环
应用场景已经覆盖个人助理、内容创作、软件开发、数据分析等多个领域。
关键术语:
- Agent:能自主行动的实体
- Perception:理解环境的能力
- Reasoning:基于信息的决策过程
- Action:执行具体操作
- Tool Use:调用外部工具和服务
- Multi-Agent System:多个 Agent 协作工作
思考题
基础:用自己的话解释 AI Agent 和传统 AI 助手的区别
进阶:如果要构建一个"旅行规划 Agent",它需要哪些模块?每个模块做什么?
挑战:AI Agent 会带来哪些新的挑战和风险?(失控、隐私、安全等)应该如何应对?
实践探索
初级体验:
- 访问 Coze
- 创建一个"新闻摘要 Agent"
- 添加搜索工具
- 测试自动获取和总结新闻的能力
中级挑战:
- 使用 LangChain 构建简单 Agent
- 实现一个"研究助手"Agent
- 功能:搜索、阅读、总结
- 参考: https://python.langchain.com/docs/modules/agents/
高级项目:
- 构建多 Agent 系统
- 角色分工:搜索者、分析师、总结者
- 实现 Agent 之间的协作
- 优化性能和准确性
扩展阅读
推荐文章:
- What is an AI Agent? - Cubeo AI
- Demystifying AI Agents in 2025 - Alvarez & Marsal
- What are AI agents? - aiagent.app
经典论文:
- "ReAct: Synergizing Reasoning and Acting in Language Models" (2022)
- "Reflexion: Language Agents with Verbal Reinforcement Learning" (2023)
实践框架:
视频资源:
下一章:我们将探讨为什么 AI Agent 被认为是未来的核心,以及它将如何改变工作和生活。