2026-04-01

什么是 AI Agent？从工具调用到自主决策

作者

Xavier

编程语言：熟练使用 Python，Java、SQL，具备良好的数据结构与算法基础。大模型与 Agent：理解 Transformer 与大语言模型推理机制，熟悉 Prompt Engineering、CoT、ReAct、Plan-and-Execute、Reflection、Agentic RAG 等推理范式；熟悉 LangChain、LangGraph、OpenAI SDK。

AI Agent 不只是一个会聊天的模型，它能主动调用工具、规划多步任务、感知环境并作出决策。本文从零解释 Agent 的架构与工作原理。

AgentLLM

Agent 与普通 LLM 的本质区别

一个普通的大语言模型（LLM）是一个无状态的函数：给定输入，产生输出，然后结束。它不会主动获取信息，不会执行代码，不会记住上一次对话。

AI Agent 在此基础上增加了四个核心能力：感知（Perception）、规划（Planning）、行动（Action）、记忆（Memory）。它能够将复杂目标拆解为多个步骤，在每一步选择合适的工具，根据工具返回的结果调整后续计划，直到完成任务。

ReAct：思考与行动的交织

2022 年提出的 ReAct 框架（Reasoning + Acting）是目前最广泛使用的 Agent 范式。它让模型在每一步先进行"思考"（Thought），再决定"行动"（Action），最后观察"结果"（Observation），形成循环：

Thought: 用户想知道今天北京的天气，我需要调用天气 API
Action: search_weather(city="Beijing", date="today")
Observation: {"temp": 22, "weather": "晴", "humidity": 45}
Thought: 已获取结果，可以回答用户了
Answer: 今天北京天气晴，气温 22°C，湿度 45%

这种"思维链"让模型的推理过程变得透明和可调试。

工具调用（Function Calling）

现代 LLM 的工具调用能力是 Agent 的核心基础设施。你可以向模型注册一批工具，模型根据用户意图决定调用哪个工具、传入什么参数：

json

{
  "name": "get_weather",
  "description": "获取指定城市的实时天气",
  "parameters": {
    "type": "object",
    "properties": {
      "city": { "type": "string" },
      "unit": { "type": "string", "enum": ["celsius", "fahrenheit"] }
    }
  }
}

模型不直接执行函数，而是返回结构化的调用请求，由外部代码真正执行，并将结果返回给模型继续推理。

记忆系统：短期 vs 长期

Agent 的记忆分为两类：

短期记忆（Context Window）：当前对话的所有内容在上下文窗口内，随会话结束而消失
长期记忆（External Memory）：通过向量数据库将历史信息嵌入存储，检索时通过语义相似度召回相关片段

RAG（Retrieval-Augmented Generation）本质上就是给 LLM 配备了一个可检索的外部记忆库。

多 Agent 系统

单个 Agent 的能力有限。多 Agent 系统让多个专门化的 Agent 协同工作：一个负责搜索信息，一个负责写代码，一个负责审核质量，一个负责整合输出。AutoGen、LangGraph、CrewAI 等框架都在探索这一方向。

Agent 不是 LLM 的替代品，而是 LLM 的延伸——它让语言模型从一个"知识库"变成了一个"行动者"。

什么是 AI Agent？从工具调用到自主决策

Agent 与普通 LLM 的本质区别

ReAct：思考与行动的交织

工具调用（Function Calling）

记忆系统：短期 vs 长期

多 Agent 系统

评论

什么是 AI Agent？从工具调用到自主决策

Agent 与普通 LLM 的本质区别

ReAct：思考与行动的交织

工具调用（Function Calling）

记忆系统：短期 vs 长期

多 Agent 系统

评论