Agent 技术科普：开启智能体的新时代

一、引言

人工智能正处于一次范式迁移的节点：从“能说”的大语言模型（LLM）走向“能做”的智能体（Agent）。LLM 带来了通用的语言理解和生成能力，但它仍然是一个
封闭、被动、短期记忆的系统：知识停留在训练时刻，无法直接访问实时世界；只能在用户输入后响应；上下文窗口限制使得记忆易失；输出不含可执行语义，更谈不上与外界系统协作。

Agent 的提出，正是为 LLM 补齐“行动力”：通过工具调用连入 API/数据库/计算环境，通过记忆维持跨会话状态，通过编排
将复杂任务拆解为可控的工作流，必要时引入多 Agent 协作。当这四个维度协同起来，语言就不再是终点，而是驱动系统执行任务的接口。

二、Agent 是什么

我们将 Agent 抽象为：大脑（LLM） + 工具（Tools/Functions） + 记忆（Memory） + 编排（Orchestration）。

大脑：理解意图、推理计划、生成结构化中间表示（思考链/计划/工具参数）。
工具：把自然语言转化为外部动作：HTTP API、数据库查询、代码执行、文件读写，甚至机器人控制。
记忆：短期记忆承载对话上下文与临时事实；长期记忆借助向量数据库/关系库沉淀用户偏好、文档知识与任务状态。
编排：以状态机/DAG表达任务流程，处理条件分支、并行、重试回退、超时与配额，提供可观测性与审计。

换句话说：Agent 是“会说话的操作系统进程”。它既遵循自然语言接口，又遵守工程系统的边界与约束。

三、Agent 能做什么

检索增强生成（RAG）：在回答前检索企业知识库或互联网，降低幻觉，确保时效与可追溯引用。
工具化操作：把“帮我预定会议室/查 Jira/跑报表”翻译为真实 API 调用与数据落库。
任务分解与计划执行：从“调研—起草—审稿—发布”的完整管道，到“数据提取—转换—加载（ETL）”的数据工程链路。
多 Agent 协作：研究员、撰稿员、质检员、执行官等角色并行或串行协同。
持续记忆与个性化：长期学习用户偏好与业务上下文，形成“专属助理”。

这些能力已在客服、法务审查、财务报表、运维巡检、投研分析、政企知识库等场景落地。

四、为什么需要编排

单一 LLM + 工具调用可以跑出 demo，但难以支撑生产。编排让 Agent 系统具备：

任务有序性：复杂流程的前后置依赖、并行合并、条件分支。
可靠性：失败重试、幂等、回退策略、超时与熔断、降级链路。
安全性：提示注入防护、工具白名单、参数校验、沙箱执行、RBAC 与审计。
可观测性：结构化日志、链路追踪（OTEL）、成本与延迟指标、交互回放。

没有编排，就没有“可运营”的 Agent。

五、主流框架详解

下面逐一剖析当前最具代表性的范式与框架：*
ReAct、Plan-and-Execute、LLMCompiler、LangChain、LangGraph、LlamaIndex、CrewAI/AutoGen*。每节都覆盖“背景 → 解决的问题 →
核心机制/特征 → 现状与生态 → 典型应用 → 优缺点 → 示例 → 学习建议”。

5.1 ReAct（Reason + Act）

背景
2022 年提出，动机是让 LLM 的行为可解释：将“思考过程”与“实际动作”分离，便于调试与审计。

要解决的问题

让模型在调用工具前给出思考链（Thought），避免“黑箱行动”。
在“思考—行动—观察”循环中逐步逼近目标。

核心机制
Thought → Action(tool, params) → Observation → Thought → ...

Thought：输出中间推理（可省略给用户，但用于系统决策）。
Action：按 JSON/函数签名触发工具调用。
Observation：工具/环境返回，再进入下一轮推理。

现状与生态
ReAct 已成为各框架默认参考范式，LangChain/AutoGen 等均内置。

典型应用

RAG 问答（先思考应检索哪些关键字→检索→解读→回答）。
金融/运维查询（先枚举数据源→调用行情/监控 API→计算→结论）。

优缺点

优点：透明、易调试、适合逐步探索。
缺点：每步都要调 LLM，延迟与成本上升；需要控制泄露 Thought。

示例（LangChain 简化）

from langchain.agents import initialize_agent, load_tools
from langchain.chat_models import ChatOpenAI

llm = ChatOpenAI(model="gpt-4o-mini")
tools = load_tools(["serpapi", "llm-math"], llm=llm)

agent = initialize_agent(tools, llm, agent="zero-shot-react-description", verbose=True)
agent.run("美元兑日元的即期汇率是多少？100 美元大约换多少日元？")

学习建议
先学 ReAct，再看其他模式；理解“中间思考—外部行动”的边界与安全性。

5.2 Plan-and-Execute

背景
为缓解 ReAct 调用频繁、成本高的问题，提出“先规划再执行”，把 LLM 调用集中到规划阶段。

要解决的问题

降低长任务的 LLM 调用次数与延迟。
提高执行阶段的确定性与可回放性。

核心机制

Planning：LLM 产出任务分解（步骤、依赖、所需工具）。
Execution：流程引擎按计划逐步执行，必要时少量“再规划”。

现状与生态
LangChain 等框架提供内置链路；在复杂长任务中广泛使用。

典型应用

报告/白皮书生成（规划章节→检索资料→写作→审稿）。
数据工程（ETL）与指标计算。

优缺点

优点：成本可控；对工程侧友好。
缺点：对“初始计划质量”依赖高；需要良好的失败恢复策略。

示例（伪代码）

plan = llm("把‘新能源车行业研究’分解为可执行步骤")
for step in plan.steps:
    execute(step)  # 工具/代码/SQL
final = llm(f"根据执行产物撰写摘要：{collect_outputs()}")

学习建议
结合任务编排引擎（如 LangGraph）使用；关注“计划修正”的闭环设计。

5.3 LLMCompiler

背景
源自微软研究，借鉴编译器思想：把自然语言任务编译为可并行执行的DAG，以获得高吞吐。

要解决的问题

将多工具/多数据源任务并行化，避免串行瓶颈。
把“任务—执行图”的关系结构化，便于优化。

核心机制

编译：LLM 将任务语义转成节点与依赖（DAG）。
执行：节点并行运行，统一汇总。

现状与生态
学术与实验为主，工程落地探索中。

典型应用

多网站并行爬取与聚合分析。
多 API 并行获取数据后统一建模。

优缺点

优点：吞吐高、结构清晰。
缺点：实现复杂；缺少成熟的标准化工具链。

示例（伪代码）

dag = compile_to_dag("对‘政策/销量/技术’三方面做新能源车行业分析")
dag.execute_parallel()
summary = llm("汇总 DAG 结果并给出结论")

学习建议
理解 DAG/并行执行与幂等性；适合系统工程背景的团队。

5.4 LangChain

背景
2022 年开源，首个“把 LLM 嵌入应用”的通用开发框架。

要解决的问题

统一抽象 Prompt/LLM/Memory/Tools/Chains/Agents。
快速搭建原型与 PoC，降低入门门槛。

核心特征/架构

LLM Wrappers：适配主流云模型与本地模型。
PromptTemplates：可参数化提示词。
Memory：会话/长期记忆，支持自定义后端。
Tools：声明式工具定义与参数校验。
Chains/Agents：组装工作流或启用工具化智能体。

现状与生态

社区最大、教程与示例最全；大量第三方集成。
复杂生产系统往往与LangGraph/自研编排结合使用。

典型应用

文档问答（RAG Agent）。
智能客服/助手。
代码/数据处理助手。

优缺点

优点：生态全、迭代快、原型成本低。
缺点：组件众多、耦合度易升高；需谨慎裁剪。

示例（RAG QA 极简）

from langchain.chains import RetrievalQA
from langchain.chat_models import ChatOpenAI

llm = ChatOpenAI(model="gpt-4o-mini")
qa = RetrievalQA.from_chain_type(llm, retriever=vectorstore.as_retriever())
print(qa.run("总结这份合同的关键风险"))

学习建议
用它“站起来”，但不要把它当全部；与观测/编排/缓存协同设计。

5.5 LangGraph（含 LangGraph Platform）

背景
LangChain 的链式范式难以表达循环、回退、并行与长时状态。LangGraph 将 Agent 视为显式状态机/DAG，并与观测平台集成。

要解决的问题

复杂工作流的可控性与可观测性。
长运行任务的状态持久化与弹性伸缩。

核心特征/架构

状态图（StateGraph）：定义节点（函数/Agent）与边（条件/并行/回路）。
人机协作：在关键节点注入“人工审核/纠偏”。
与 LangSmith/OTEL 联动：日志、追踪、成本面板。
Platform：受管端点、持久队列、版本化与回放。

现状与生态
企业采用度上升；Platform 侧提供“从开发到部署”的一体化体验。

典型应用

合规审查流水线：抽取 → 规则/LLM 检查 → 复核 → 报告。
企业知识库问答：检索 → 生成 → 评估不合格回退。

优缺点

优点：工程化最佳平衡点；对复杂任务友好。
缺点：学习成本较高；图的演进需要治理。

示例（检索→生成→评估→回退）

from langgraph.graph import StateGraph


def retrieve(state): ...


def generate(state): ...


def evaluate(state): ...  # 返回 pass/fail


g = StateGraph()
g.add_node("retrieve", retrieve)
g.add_node("generate", generate)
g.add_node("evaluate", evaluate)

g.set_entry_point("retrieve")
g.add_edge("retrieve", "generate")
g.add_edge("generate", "evaluate")
g.add_conditional_edges("evaluate", {"pass": "END", "fail": "generate"})

学习建议
把“业务流程图”翻译成“状态图”，自下而上替换节点：先用伪实现跑通，再替换为真实工具/服务。

5.6 LlamaIndex

背景
（原 GPT Index）从“让 LLM 使用外部数据”出发，沉淀为数据接入与检索增强平台。

要解决的问题

把文档/表格/数据库接入到 LLM。
提供多索引与混合检索以提高召回与可控性。

核心特征/架构

数据连接器：FS、S3、GDrive、Notion、数据库等。
索引：向量索引、关键词索引、图索引等。
检索：BM25 + 向量 + 重排（可插拔）。
与 LangChain/LangGraph 兼容，可作为检索层。

现状与生态
在知识库/文档问答领域最常用；正扩展到多模态。

典型应用

合同与政策问答；内部 Wiki 助手；会议纪要问答。

优缺点

优点：数据侧强、接入快、检索策略丰富。
缺点：编排弱；需要配合工作流框架。

示例（向量索引）

from llama_index import GPTVectorStoreIndex, SimpleDirectoryReader

docs = SimpleDirectoryReader("docs").load_data()
index = GPTVectorStoreIndex.from_documents(docs)
query_engine = index.as_query_engine()
print(query_engine.query("列出这份合同的终止条款"))

学习建议
作为“数据/RAG 层”的强力搭档，与 LangGraph 共同组成“检索 + 编排”的主干。

5.7 CrewAI / AutoGen（多 Agent 协作）

背景
开源社区探索“虚拟团队”形态：通过多个角色化 Agent 的协作完成复杂任务。

要解决的问题

单 Agent 能力边界：需要专家分工与相互制衡。
让“研究—写作—审稿—发布”自然映射到多 Agent。

核心特征/架构

角色与职责：researcher、writer、reviewer 等。
消息编排：对话驱动的协同；可插人类审核。
任务路由：不同子任务交由不同角色处理。

现状与生态
科研/实验社区活跃；企业落地需要补齐观测、安全与治理。

典型应用

行业研报与竞品分析；内容生产流水线。

优缺点

优点：贴近人的协作心智模型，易扩展角色库。
缺点：生产治理薄弱；复杂度随角色数上升。

示例（AutoGen 极简）

from autogen import AssistantAgent, UserProxyAgent

assistant = AssistantAgent("researcher", llm_config={"model": "gpt-4o-mini"})
user_proxy = UserProxyAgent("writer", human_input_mode="NEVER")
user_proxy.initiate_chat(assistant, message="写一份新能源车行业调研大纲")

学习建议
以“小团队”起步（2–3 角色），收敛职责边界；引入编排框架承接生产治理。

六、学习路径（技术依赖关系）

只给“依赖链”，便于立刻开工：

语言与接口 → Python/JS 基础；HTTP/JSON；异步与并发。
LLM 能力 → Prompt Engineering；Function Calling/Tool Use；结构化输出（JSON Schema）。
RAG 能力 → 文档分块与清洗；嵌入模型；向量数据库（pgvector/Milvus/Weaviate）；混合检索与重排。
编排能力 → 状态机/DAG（LangGraph）；重试回退；超时熔断；人机协作。
运维能力 → 日志/追踪（OpenTelemetry）；指标（Prometheus/Grafana）；安全（提示注入防护、RBAC、审计）；部署（Docker/K8s/Cloud
Run）。

沿这条路径递进，你可以从“能调模型与工具”，稳步走到“能搭生产可运维的 Agent 系统”。

七、未来展望

多模态 Agent 将同时处理文本、图像、语音与视频，统一在一个任务图里协同；模型路由与降级会让系统自动在质量、成本、延迟之间折中；
Agent OS/编排平台将成为企业的“智能内核”，承载权限、任务、审计与经济计量；而 LLMOps 标准化
则会把“可观测、安全治理、回放评测”固化为工程必修课。

八、结语

从 LLM 到 Agent，不只是“接口变了”，而是软件工程边界的扩大：语言成了新的“应用协议”，编排成了“智能内核”，数据与工具成了“外设”。掌握本文的框架图谱与依赖链，意味着你可以按需组装：以
LlamaIndex 做数据底座，以 LangGraph 管编排，以 LangChain/AutoGen/CrewAI 做场景拼装，再用监控与安全把它变成真正可运营
的系统。愿你从 demo 出发，驶向生产。

一、引言

二、Agent 是什么

三、Agent 能做什么

四、为什么需要编排

五、主流框架详解

5.1 ReAct（Reason + Act）

5.2 Plan-and-Execute

5.3 LLMCompiler

5.4 LangChain

5.5 LangGraph（含 LangGraph Platform）

5.6 LlamaIndex

5.7 CrewAI / AutoGen（多 Agent 协作）

六、学习路径（技术依赖关系）

七、未来展望

八、结语

评论