一个普通的大语言模型(LLM)是一个无状态的函数:给定输入,产生输出,然后结束。它不会主动获取信息,不会执行代码,不会记住上一次对话。
AI Agent 在此基础上增加了四个核心能力:感知(Perception)、规划(Planning)、行动(Action)、记忆(Memory)。它能够将复杂目标拆解为多个步骤,在每一步选择合适的工具,根据工具返回的结果调整后续计划,直到完成任务。
2022 年提出的 ReAct 框架(Reasoning + Acting)是目前最广泛使用的 Agent 范式。它让模型在每一步先进行"思考"(Thought),再决定"行动"(Action),最后观察"结果"(Observation),形成循环:
Thought: 用户想知道今天北京的天气,我需要调用天气 API
Action: search_weather(city="Beijing", date="today")
Observation: {"temp": 22, "weather": "晴", "humidity": 45}
Thought: 已获取结果,可以回答用户了
Answer: 今天北京天气晴,气温 22°C,湿度 45%这种"思维链"让模型的推理过程变得透明和可调试。
现代 LLM 的工具调用能力是 Agent 的核心基础设施。你可以向模型注册一批工具,模型根据用户意图决定调用哪个工具、传入什么参数:
{
"name": "get_weather",
"description": "获取指定城市的实时天气",
"parameters": {
"type": "object",
"properties": {
"city": { "type": "string" },
"unit": { "type": "string", "enum": ["celsius", "fahrenheit"] }
}
}
}模型不直接执行函数,而是返回结构化的调用请求,由外部代码真正执行,并将结果返回给模型继续推理。
Agent 的记忆分为两类:
RAG(Retrieval-Augmented Generation)本质上就是给 LLM 配备了一个可检索的外部记忆库。
单个 Agent 的能力有限。多 Agent 系统让多个专门化的 Agent 协同工作:一个负责搜索信息,一个负责写代码,一个负责审核质量,一个负责整合输出。AutoGen、LangGraph、CrewAI 等框架都在探索这一方向。
Agent 不是 LLM 的替代品,而是 LLM 的延伸——它让语言模型从一个"知识库"变成了一个"行动者"。
作者
Xavier
精通javase,javeWeb,SpringBoot,RabbitMQ,SpringCloud,mybatis,docker,redis,SpringMVC等技术,精通python,js等语言。正在学习Agent的路上。相信技术为本。
AI Agent 不只是一个会聊天的模型,它能主动调用工具、规划多步任务、感知环境并作出决策。本文从零解释 Agent 的架构与工作原理。