Agent发展过程

AI Agent的核心不是写代码，而是“决策+调用工具”，写代码只是一种工具形式。

最原始版本：生成文本

像 OpenAI 的早期模型，本质只是：

输入 → 预测下一个 token → 输出文本

它根本不知道什么叫 Agent。只是“看起来聪明”。

后来有人发现：既然 LLM 能输出结构化文本，那我们可以让它输出 JSON、函数调用、API 请求。

比如

{
  "action": "search",
  "query": "东京天气"
}

然后外部系统计息这个JSON，去调用工具

这类模式在：

都很常见。

这里本质是：LLM 生成“动作指令”，而不是直接执行。

更狠一点的做法：

LLM 直接生成 Python 代码，然后丢给解释器执行。

典型模式：

这类常见于：

很多所谓“会思考”的 Agent，其实就是：

写代码 → 执行 → 读错误 → 再写代码

循环套娃。

Agent 真正关键的是这个结构：

Thought → Action → Observation → Thought → ...

模型自己：

重点是：LLM是大脑，工具是手脚。

至于手脚是：

真正落地的商业系统更偏向：

可控的结构化指令，而不是让模型随便写代码

因为代码 = 安全风险。

现在更高级的Agent系统会：

LLM只负责推理，系统框架才是真正的工程核心。