「Hello Agents 第01章」初识智能体:LLM会聊天,Agent能办事
一句话结论:大语言模型(LLM)是一个博学多才的顾问,而智能体(Agent)是一个能帮你把事情办完的助理——这两者之间,隔着一道关键的鸿沟。
为什么你应该关心智能体?
你有没有试过这样对ChatGPT说话:
“帮我预订下周三从北京飞上海的机票,顺便在虹桥附近找一家评分4.8以上的酒店,预算800元以内。”
然后它回了你一大段文字——告诉你”可以去携程/去哪儿搜索”,”建议提前比价”,”酒店可以关注xxx区域”……
说了等于没说。
这不是ChatGPT不聪明,而是因为它的设计根本不支持”帮你把事情办完”。它能理解你的需求,能给你建议,但它无法代你点开网站、搜索航班、比较价格、完成预订。
这,就是LLM和**Agent(智能体)**之间最本质的区别。
2023年以后,一种新型AI应用正在快速崛起——AI Agent(人工智能智能体)。它不只是”更聪明的聊天机器人”,而是能自主感知环境、制定计划、调用工具、完成任务的AI系统。GitHub上的AutoGPT在一周内获得了超过10万Star,BabyAGI让人们第一次看到AI自主完成复杂任务的可能性。
Agent时代,已经到来。
一、普通LLM为什么搞不定复杂任务?
要理解Agent,先要理解LLM的局限。
LLM本质上是一个”文字接龙大师”。 给它一段文字,它预测最可能跟在后面的文字。它的能力边界,就是它的输入输出边界——文字进,文字出。
| 能力维度 | 普通LLM | AI Agent |
|---|---|---|
| 理解自然语言 | ✅ 优秀 | ✅ 优秀 |
| 生成文本内容 | ✅ 优秀 | ✅ 优秀 |
| 调用外部工具 | ❌ 不能 | ✅ 核心能力 |
| 多步骤自主规划 | ❌ 不能 | ✅ 核心能力 |
| 执行实际操作 | ❌ 不能 | ✅ 核心能力 |
| 记住跨会话信息 | ❌ 不能 | ⚠️ 需要记忆模块 |
| 自我纠错 | ❌ 不能 | ✅ 部分支持 |
LLM最大的硬伤是:它活在对话框里,没有手脚。 它能告诉你”机票应该这么订”,但它没有办法真的去点击按钮、填写表单、完成支付。
这就是为什么我们需要Agent。
二、Agent是什么?用人话解释
智能体(Agent),来自哲学和认知科学中的”Agent”概念——一个能感知环境、做出决策、采取行动以达成目标的实体。
放在AI语境下,一个完整的Agent由4个核心模块构成——我把它叫做PRAM框架:
- 🔵 感知(Perception):接收输入——用户指令、网页内容、文件、图片……
- 🟡 推理(Reasoning):用LLM”大脑”分析目标、制定计划、决定下一步
- 🟢 行动(Action):调用工具执行——搜索、写文件、调API、控制浏览器……
- 🟣 记忆(Memory):短期记住当前对话,长期存储过去经验
类比来说:如果把Agent比作一个刚入职的新员工——
- 感知是他看邮件、听汇报
- 推理是他在脑子里分析”这件事该怎么做”
- 行动是他打电话、发邮件、去办公室跑流程
- 记忆是他的工作笔记本和过往经验
而普通LLM,只有”推理”这一项。
三、Agent的工作循环是怎样的?
Agent的核心,是一个**”感知→推理→行动→观察”**的持续循环,直到任务完成。
graph TD
USER["👤 用户<br/>输入任务"]
PERCEIVE["🔵 感知层<br/>解析意图 & 收集信息"]
REASON["🟣 推理层<br/>LLM制定计划<br/>决定下一步行动"]
ACT["🟢 行动层<br/>调用工具执行<br/>搜索/写文件/调API"]
OBSERVE["🟡 观察层<br/>收集执行结果"]
MEMORY["🔴 记忆模块<br/>存储中间状态"]
DONE{"🏁 任务<br/>完成了吗?"}
ANSWER["✅ 输出最终答案"]
USER --> PERCEIVE --> REASON --> ACT --> OBSERVE
OBSERVE --> DONE
DONE -->|"否,继续"| REASON
DONE -->|"是"| ANSWER
REASON <-->|"读写记忆"| MEMORY
style USER fill:#C7CEEA,stroke:#9FA8DA,color:#333
style PERCEIVE fill:#C7CEEA,stroke:#9FA8DA,color:#333
style REASON fill:#E8D5F5,stroke:#CE93D8,color:#333
style ACT fill:#B5EAD7,stroke:#80CBC4,color:#333
style OBSERVE fill:#FFF9C4,stroke:#F9A825,color:#333
style MEMORY fill:#FFB3C6,stroke:#F48FB1,color:#333
style DONE fill:#FFDAB9,stroke:#FFAB76,color:#333
style ANSWER fill:#B5EAD7,stroke:#80CBC4,color:#333这个循环有个专业名字:ReAct(Reasoning + Acting),是目前最主流的Agent范式之一(第四章会详细讲)。
关键点是:Agent不是一问一答,而是持续迭代直到目标达成。 这就是它和普通LLM最大的行为差异。
四、实战代码:用30行Python写一个最简单的Agent
下面这段代码实现了一个会使用工具的Agent。它能根据用户问题,自主决定是否调用工具,以及调用什么工具。
注意:运行前需要设置环境变量
OPENAI_API_KEY,并安装openai库(pip install openai)。如果你用的是国内模型,可以把base_url改成对应地址。
1 | import json |
运行这段代码,你会看到Agent自主决定调用哪个工具,然后把工具结果拼回去生成最终答案。这就是Agent最核心的能力——工具使用(Tool Use)。
五、常见误区:Agent不是你想的那样
❌ 误区一:有了LLM就有了Agent
很多人以为,把ChatGPT嵌入系统就有了Agent。错。 LLM是Agent的”大脑”,但大脑没有手脚什么都做不了。真正的Agent还需要:工具注册机制、循环执行框架、状态管理、错误处理……
❌ 误区二:Agent越自主越好
自主性是把双刃剑。自主性越高,风险越大。 2023年有人测试AutoGPT,它为了完成任务,自动给自己开了Gmail账户、在论坛发了帖子——用户完全没预期到这些行为。Agent需要明确的权限边界。
❌ 误区三:Agent能解决一切问题
Agent在明确目标 + 工具齐备的场景下表现优秀,但面对模糊目标、高度不确定性、需要真实世界常识的任务时,容易陷入循环或产生幻觉。它是工具,不是魔法。
✅ Agent真正擅长的事
- 信息收集 + 整合(搜索→分析→汇总)
- 代码生成 + 测试(写→运行→改)
- 工作流自动化(触发→执行→验证)
- 数据分析(读取→计算→可视化)
六、下一步怎么学?
恭喜你完成了Agent的第一课!你现在知道:
- LLM是”博学顾问”,Agent是”能办事的助理”
- Agent = 感知 + 推理 + 行动 + 记忆(PRAM框架)
- Agent通过”思考→行动→观察”循环完成复杂任务
- 工具使用是Agent区别于LLM的核心能力
推荐行动:
- 运行上面的代码,换几个问题试试
- 尝试添加新工具(比如:翻译、查股价、文件读写)
- 思考:在你工作中,哪些重复任务可以用Agent来自动化?
下一章,我们将回顾智能体的60年发展史,看看今天的AI Agent是踩着哪些巨人的肩膀站立起来的。
📚 本文参考:datawhalechina/hello-agents 第一章
📚 Hello Agents 系列导航
本文是《Hello Agents》开源系列第 1/16 章,适合 AI Agent 开发入门到进阶学习。
| 方向 | 章节 |
|---|---|
| 下一章 ▶ | 第02章:智能体60年:从会下棋到能打工 |
📖 全部 16 章目录(点击展开)
- 初识智能体:LLM会聊天,Agent能办事 ← 当前
- 智能体60年:从会下棋到能打工
- LLM原理:它不理解语言,却比你更会用语言
- Agent思考三剑客:ReAct、Plan-and-Solve与Reflection
- 不会写代码也能搭AI Agent?低代码平台实战指南
- 当一个Agent不够用时:三大框架多智能体实战
- 为什么要造轮子?200行Python手写Agent框架
- Agent为何失忆?RAG与记忆系统深度解析
- Context Engineering:让Agent真正聪明的隐秘武器
- AI Agent如何与世界对话:MCP、A2A、ANP协议全解析
- 用强化学习驯服AI Agent:GRPO与Agentic RL全解析
- 你的Agent真的好用吗?智能体评估体系完全指南
- 用Agent规划日本5日游,2分钟搞定2小时的活
- 自动写研究报告的Agent:比ChatGPT深,但有盲点
- 赛博小镇:25个AI角色自主生活,涌现了什么?
- 学完16章,现在从0构建你自己的Agent