Agent发展过程

AI Agent的核心不是写代码,而是“决策+调用工具”,写代码只是一种工具形式。

最原始版本:生成文本

像 OpenAI 的早期模型,本质只是:

输入 → 预测下一个 token → 输出文本

它根本不知道什么叫 Agent。只是“看起来聪明”。

第一代 Agent:生成“指令”

后来有人发现:既然 LLM 能输出结构化文本,那我们可以让它输出 JSON、函数调用、API 请求。

比如

{
  "action": "search",
  "query": "东京天气"
}

然后外部系统计息这个JSON,去调用工具

这类模式在:

都很常见。

这里本质是:LLM 生成“动作指令”,而不是直接执行。

第二代 Agent:生成代码再执行

更狠一点的做法:

LLM 直接生成 Python 代码,然后丢给解释器执行。

典型模式:

  1. LLM 写代码
  2. 沙箱执行
  3. 把报错返回给 LLM
  4. LLM 修复代码
  5. 循环直到成功

这类常见于:

  1. 自动数据分析
  2. 自动脚本生成
  3. 自动爬虫
  4. DevOps 自动化

很多所谓“会思考”的 Agent,其实就是:

写代码 → 执行 → 读错误 → 再写代码

循环套娃。

真正的核心:ReAct思想

Agent 真正关键的是这个结构:

Thought → Action → Observation → Thought → ...

模型自己:

重点是:LLM是大脑,工具是手脚。

至于手脚是:

到底生成代码还是生成指令

场景 常用方式
生产系统 生成结构化指令
研究实验 生成代码
数据分析 生成代码
商业 Agent 函数调用 + 工具链

真正落地的商业系统更偏向:

可控的结构化指令,而不是让模型随便写代码

因为代码 = 安全风险。

再往上一层

现在更高级的Agent系统会:

LLM只负责推理,系统框架才是真正的工程核心。