AI Agent的核心不是写代码,而是“决策+调用工具”,写代码只是一种工具形式。
像 OpenAI 的早期模型,本质只是:
输入 → 预测下一个 token → 输出文本它根本不知道什么叫 Agent。只是“看起来聪明”。
后来有人发现:既然 LLM 能输出结构化文本,那我们可以让它输出 JSON、函数调用、API 请求。
比如
{
"action": "search",
"query": "东京天气"
}然后外部系统计息这个JSON,去调用工具
这类模式在:
都很常见。
这里本质是:LLM 生成“动作指令”,而不是直接执行。
更狠一点的做法:
LLM 直接生成 Python 代码,然后丢给解释器执行。
典型模式:
这类常见于:
很多所谓“会思考”的 Agent,其实就是:
写代码 → 执行 → 读错误 → 再写代码循环套娃。
Agent 真正关键的是这个结构:
Thought → Action → Observation → Thought → ...模型自己:
重点是:LLM是大脑,工具是手脚。
至于手脚是:
| 场景 | 常用方式 |
|---|---|
| 生产系统 | 生成结构化指令 |
| 研究实验 | 生成代码 |
| 数据分析 | 生成代码 |
| 商业 Agent | 函数调用 + 工具链 |
真正落地的商业系统更偏向:
可控的结构化指令,而不是让模型随便写代码
因为代码 = 安全风险。
现在更高级的Agent系统会:
LLM只负责推理,系统框架才是真正的工程核心。