Loop Engineering 完整解读

打开 Claude Code 或者 Cursor，输入一段提示词，Agent 开始工作，报错了，你把错误粘贴回去，它再试，再错，你再贴，再等。二十分钟后你突然意识到——你在保姆一个本来应该替你工作的东西。你在做那个你本来想外包出去的、低价值的、重复性的工作。

设想一个具体场景：你让 Agent 修复一个数据库查询慢的问题。它找到了问题，修改了代码，但测试跑不过，因为本地数据库版本和生产环境不一致。它向你报告，你手动排查，把版本信息粘贴回去，它再修，测试过了，但 CI 报错了，因为它顺手改了一个不该改的依赖。它再向你报告，你再排查，再粘贴，再等。这个过程重复了六轮，最终你意识到，你花在”和 Agent 沟通”上的时间，比直接自己写代码还多。

这就是”人在循环里”（Human-in-the-Loop）的真实体感——一个听起来很安全、实际上很尴尬的状态：AI 在工作，但每一步都需要你确认、你介入、你推进。你没有从重复劳动中解放出来，你只是把”自己做重复劳动”换成了”和 AI 一起做重复劳动”。

Loop Engineering 的出现，不是要给你一套更好的提示词模板，也不是要推销某个新工具。它指向的是一个更根本的问题：如果你的工作流依赖你不断地”提示” Agent，那你设计的就不是一个 Agent 系统，你设计的是一个需要你参与的半自动脚本。

本文将系统梳理 Loop Engineering 的来龙去脉：它从哪里来，它是什么，它和之前的范式有什么本质区别，以及对于 AI PM 来说，这意味着什么。

一、一个抽象层级的爬升：从词语到循环

理解 Loop Engineering，必须先理解它身处的那条演化链。

从 Prompt Engineering，到 Context Engineering，再到 Harness Engineering，最终到 Loop Engineering，这不是四个独立的技术方向，而是同一个问题被反复逼近的四次尝试。这个问题是：如何让 AI 系统可靠地完成复杂任务，同时最小化人类的介入成本。

每一次演化，都是人类把对 AI 的控制权，从更具体的层级移交到更抽象的层级。用一个比喻来理解：

最开始，我们在学怎么写一封好邮件（Prompt Engineering）。后来意识到邮件里附什么材料，比措辞更重要（Context Engineering）。再后来开始设计整个部门的信息流转系统（Harness Engineering）。现在，我们在设计一套能自动处理所有日常工作的办公室系统，人只负责设定系统的目标和边界（Loop Engineering）。

这是认知层级的跃迁，不是工具迭代。每一次跃迁，人类设计的对象从”内容”变成”结构”，再变成”系统”，再变成”系统的运行逻辑”。这条链的终点，是把执行的决策权完全交给系统本身，而人，退到了设计系统的位置上。

有一句被反复引用的话——Epsilla 的研究者把这四年总结为：2022 年，我们在学怎么写完美的邮件；2025 年，我们学会了怎么管理收件箱；2026 年，我们在设计整个邮件系统本身。这个类比虽然简化，但准确地捕捉到了这条演化链的本质。

接下来，我们逐层拆解，看看每一层解决了什么问题，又遗留了什么缺陷。

二、Prompt Engineering：我们曾相信”说对话”是核心竞争力

Prompt Engineering 的核心假设是：模型的能力是固定的，影响输出质量的关键变量是你怎么提问。

这个假设在早期是成立的。研究者发现，通过”少样本示例”（Few-shot Prompting）、”思维链”（Chain-of-Thought）、”角色扮演设定”等技巧，可以在不改变模型权重的情况下，显著提升输出质量。”AI 提示工程师”曾经是一个被认真对待的职位名称。Andrej Karpathy 在 2023 年说：”最热门的编程语言是英语。”这句话彼时引发了巨大的共鸣。

但 Prompt Engineering 有一个根本性的局限：它只能优化单次交互。

一旦任务变长、步骤变多，Prompt Engineering 的解法就变成了写更长的提示词、更精细的指令、更多的约束和示例。但这条路有几个结构性死穴。

第一，上下文窗口的硬限制。提示词越来越长，迟早会撞到模型的上下文长度上限。你能塞进去的信息是有限的，塞多了反而会稀释重要信息的”注意力权重”，导致模型在推理中途忽略了你最想强调的约束条件。

第二，无状态带来的遗忘。大多数 LLM 是无状态的——每次对话结束，上下文清空，模型”忘记”了所有东西。一个需要多轮迭代的任务，每次重启都要把背景重新喂给模型，这不只是效率低，还会导致前后轮次的理解出现偏差和漂移。

第三，幻觉和注意力漂移。提示词越长，模型在中途”走神”的概率越大。精心设计的约束条件，可能在第 10 步就被模型悄悄忽略了，它会优先服务于最近的指令，而不是最重要的指令。

第四，人始终是循环里的决策节点。Prompt Engineering 依赖人来”启动”每一次交互。Agent 跑完一步，遇到问题了，需要人看、人判断、人重新提示。这是一个根本性的设计缺陷：人的参与不是偶发的，而是系统运作的必要条件。你没有办法在睡觉的时候让 Agent 继续工作，因为到了某一步，它必然要等你。

最深层的问题是，Prompt Engineering 把人的注意力集中在”怎么说话”上，却没有触碰 AI 工程真正的核心难题：如何构建一个能可靠、连续、自主运行多步骤任务的系统。提示词是一个接口，不是一个系统。把接口调教得再好，也无法弥补系统层面的缺失。

三、Context Engineering：从”怎么说”到”给什么信息”

Context Engineering 是 Prompt Engineering 的自然延伸。它的洞察是：与其纠结如何措辞，不如控制模型在推理时能”看到”什么。

这个认知转变是实质性的。在 Prompt Engineering 阶段，”上下文”只是提示词的附属品——你会在提示里补充一点背景信息。在 Context Engineering 阶段，上下文本身成了设计的核心对象。

Anthropic 把 Context Engineering 定性为”Prompt Engineering 的自然演化”——问题的视角从”如何问一个好问题”转向了”如何设计一个好的信息环境”。

Context Engineering 设计的是模型在推理时所见的完整信息环境，包含以下几类关键要素：

系统提示（System Prompt）：定义模型在这次任务中的角色、行为规范、约束边界和输出格式。这是信息环境的”宪法”。
工具定义（Tool Definitions）：通过 MCP（Model Context Protocol）等协议，告诉模型它能调用哪些外部能力——搜索、代码执行、数据库读写、文件系统操作。工具定义决定了模型的”行动半径”。
对话历史（Conversation History）：多轮对话中的历史信息，维持任务的连贯性和记忆。
检索结果（RAG）：检索增强生成是 Context Engineering 的核心实践。与其让模型”记住”所有知识，不如在它需要的时候把相关信息即时注入上下文——更新的知识、更精准的信息、更低的幻觉率。
当前状态（Current State）：任务进展、文件内容、代码仓库结构、环境变量——让模型始终能感知到”现在在哪里”。

MCP 协议的出现，是 Context Engineering 成熟化的重要标志。它把”如何让 Agent 获取外部信息”这件事标准化了，让 Context Engineering 从手工组装变成了可工程化的流程。

但 Context Engineering 同样有清晰的边界。它解决了”信息给得对不对”的问题，没有解决”任务跑得动不动”的问题。

一个被精心配置了上下文的 Agent，在面对需要多轮迭代、跨会话执行的复杂任务时，依然会卡住。原因在于：Context Engineering 改善的是单次推理的信息质量，但任务的连续性——谁来跟进下一步，谁来判断上一步是否成功，谁来决定下一个操作是什么——仍然需要人来维持。

上下文窗口终究是有限的。随着任务推进，对话历史变长，相关性下降的信息会持续占用有限的注意力空间，最终导致推理质量下降——Anthropic 的研究将这种现象称为”上下文焦虑”（Context Anxiety）：随着上下文窗口被填满，模型会进入一种”急于完成”的状态，匆忙收尾，质量骤降。

Context Engineering 把人从”提示词作者”升级成了”信息环境设计师”，但人依然在循环里，依然是任务推进的关键节点。

四、Harness Engineering：从信息到系统结构

如果说 Context Engineering 关心”模型看到什么”，那么 Harness Engineering 关心的是”模型在一个什么样的系统里工作”。

这个概念由 Mitchell Hashimoto（Terraform 和 Ghostty 的创始人）在 2026 年初提出并推广。他的核心洞察来自一个实际经验：每次 Agent 出错，与其修改提示词让它下次做得更好，不如改变系统结构，让这个错误在结构上无法再次发生。

这是一个工程思维的根本转变——从”调教模型”到”设计防错系统”。

Harness，直译是”马具”，引申为”脚手架”，在这里指包裹在 AI 模型外层的整套基础设施。用一个公式来表达：

Agent = Model + Harness

模型提供原始的推理能力，Harness 把这个推理能力变成可信赖的、可重复的生产力。Faros 的 2026 AI 工程报告指出，企业 AI 项目失败的根本原因，65% 不是模型能力不足，而是 Harness 层的缺失——具体表现为上下文漂移（Context Drift）、状态降级（State Degradation）和 Schema 不匹配三类问题。

Anthropic 的工程研究进一步识别出了几类 AI Agent 的固有失败模式，它们的解法都在 Harness 层而非模型层：

胜利声明偏差（Victory Declaration Bias）：Agent 很容易在没有真正完成任务的情况下自行宣告成功。它会判断”任务看起来差不多完成了”，然后报告”已完成”——而实际上代码逻辑有问题，测试没有覆盖边界情况，或者接口契约存在隐患。Harness 的验证层通过运行测试、类型检查、结果比对等机制，结构性地阻止了这种行为。
上下文焦虑（Context Anxiety）：随着对话历史变长、上下文窗口趋于饱和，模型会进入”急于收尾”的状态，开始在代码里走捷径，跳过验证步骤，甚至强行把所有剩余工作压缩进最后几步。这导致输出质量骤降。Harness 通过主动的上下文压缩（Compaction）和记忆管理——只保留最近几轮的详细记录，更早的历史以结构化摘要替代——来对抗这一问题。
一次性过度延伸（One-shotting Overreach）：Agent 倾向于一次性解决整个问题，而不是分步推进。这会产生难以验证的大型变更，代码改动范围超出任务边界，引入难以追踪的副作用。Harness 通过任务分解和阶段性验证来约束这种倾向，强制 Agent 每完成一个子任务就停下来验证，再继续下一个。

一个生产级的 Harness 通常包含五个层次：工具编排层（Agent 能调用哪些系统、以什么权限调用）、验证循环层（每一步输出的机器验证机制）、上下文与记忆层（跨会话的状态持久化）、护栏与约束层（Agent 的行为边界）、可观测性层（日志、追踪、成本监控）。

OpenAI Codex 团队的案例是这个范式最有说服力的工程验证：一支仅三人组成的团队，在五个月内产出了约 100 万行生产级代码，零手写代码。秘诀不是更好的提示词，不是更丰富的上下文，而是 Harness——严格的分层架构约束、自定义 Linter、全流程验证，让 Agent 的行为从”可能正确”变成了”结构性地可靠”。

Harness Engineering 的出现，标志着 AI 工程从”个人技艺”走向了”系统工程”。但它解决了可靠性，还没解决自主性——一个设计精良的 Harness，没有人的启动指令，依然不会自己运转。Harness Engineering 把人从”Agent 保姆”升级成了”系统架构师”，但系统的启动按钮，仍然在人手里。

五、Loop Engineering：你成了循环的作者

现在来到这条演化链最新的一层。

Claude Code 的创始人、Anthropic 的 Claude Code 负责人 Boris Cherny，在 2026 年 6 月 2 日的 WorkOS Acquired Unplugged 活动上，说了一段后来被广泛传播的话：

“我不再提示 Claude 了。我有循环在运行，它们自己在提示 Claude，自己决定下一步怎么做。我的工作是写循环。”

这句话值得仔细咀嚼。Boris 不是在说”我让 Claude 自动运行了”。他在说的是一个角色的根本性转变：他从一个操作 Agent 的人，变成了设计”操作 Agent 的程序”的人。Agent 变成了子程序，而他写的那套逻辑，决定了 Agent 什么时候工作、做什么判断、什么时候停止。

这个转变有一个数字佐证：在 2025 年 12 月 27 日之前的 30 天里，Boris 合并了 259 个 PR，其中 100% 由 Claude Code 生成。他在 2025 年 11 月删除了自己的 IDE，此后再未打开过。Claude Code 目前据报道已参与了 GitHub 上约 4% 的公开提交。

几天后，OpenClaw 创始人（现在 OpenAI）Peter Steinberger 在 X 上发了两句话，650 万次浏览：

“提醒你一下，你不应该再提示 Coding Agent 了。你应该设计让 Agent 来提示自己的循环。”

随后，Google Chrome 工程负责人 Addy Osmani 发布了系统性拆解，并为这个模式命名：Loop Engineering。

Loop Engineering 的定义：写让 Agent 自己提示自己的程序。

在这个范式里，你不再是循环里的那个决策节点——你成了循环本身的设计者。

理解这个范式，需要先理解 Loop Engineering 和它的”前辈们”的区别。

Loop 的概念不是 2026 年凭空出现的。2022 年的 ReAct 论文（Reason + Act）就形式化了一个基础模式：模型推理→调用工具→读取结果→重复，直到完成。2023 年的 AutoGPT 把它推向了大众视野，给 Agent 一个目标，让它自己提示自己——然后因为”无限转圈什么都不做”而声名狼藉，并由此播下了”Agent 是玩具”的种子。2025 年，Geoffrey Huntley 发布了著名的 ralph loop，用一行 bash 脚本实现了基础的自主循环：

while :; do cat PROMPT.md | claude; done

ralph loop 的创新不在于技术复杂度，而在于纪律性：每次迭代重置上下文到固定的锚点文件，进度通过磁盘文件持久化，而不是依赖模型的上下文记忆。这确保了 Loop 的每次运行都在一个干净、可控的信息环境里启动。

Loop Engineering 在 ralph 的基础上走得更远，把”单 Agent 的自主循环”升级成了”可以跨越时间、跨越上下文窗口、协调多个 Agent 运作的自动化系统”。它和 Cron Job 的本质区别在于：Cron Job 运行固定脚本，Loop 运行有决策能力的 Agent——后者读取当前状态，选择下一个动作，执行，验证结果，再决定继续、重试、回滚还是终止。

那么，一个实际运行中的 Loop 长什么样？

Louis Bouchard 描述了一个简单但典型的例子：一个 Loop 每天早上自动唤醒，读取昨天的 CI 失败记录、未解决的 Issue 列表和最近的代码提交日志，生成一个简短的”今日状态文件”，列出最值得处理的问题。对于其中一个 Issue，它自动开启一个独立的 Worktree，派遣一个 Agent 去起草修复方案。另一个 Agent 把这个修复方案和项目的测试规范、约定逐一核对。测试通过，自动提 PR 并更新任务状态；测试失败，把错误信息反馈给执行 Agent 再试，最多两次；两次都失败，停止并把问题放进你的待处理收件箱。

你没有在这个过程里出现过一次。你设计了这套系统，然后去做了其他事情。这就是 Loop Engineering 和之前所有范式的根本性断裂：执行过程不再需要你在场。不是”你让它做了很多事”，而是”你设计了一套机制，这套机制自己决定做什么、怎么做、做没做完”。

因此，设计一个 Loop 之前，你必须先回答两个必答问题：

触发器是什么——什么信号启动这个循环？
可验证的终止条件是什么——什么状态意味着任务完成？

如果你给不出第二个问题的答案，你没有在设计 Loop，你在设计一个无限运行的 token 消耗机器——它不会报错，它只会自信地报告进展，直到预算耗尽。

六、一个生产级 Loop 的解剖

一个真正可以在生产环境运行的 Loop，并不是把 Agent 扔进 while 循环那么简单。Addy Osmani 把一个完整的 Loop 拆解成五个组件加一个基础层，这是目前工程界最广泛引用的结构性定义。

组件一：自动化触发（Automations）

Loop 需要能自主唤醒，而不是等待人工启动。触发信号可以是：定时计划（每天早上 8 点读取昨天的 CI 失败记录）、代码仓库的事件（PR 开启、Issue 更新、代码推送）、外部系统的通知（Slack 消息、数据库状态变化、监控报警）。

触发器决定了 Loop 的感知边界——它能响应哪些外部世界的变化。一个好的触发器设计需要回答：这个任务的”启动信号”在现实中是什么？这个信号是否明确、可靠、不会误触发？

组件二：工作树隔离（Worktrees）

当多个 Agent 并行工作时，必须有机制防止它们相互覆盖。Worktrees 让每个并行任务在独立的代码分支和文件空间里运行。

这对 Coding Agent 尤其重要——两个 Agent 同时修改同一个文件会产生不可预测的冲突。Boris Cherny 本人大量使用 Worktrees 来让多个 Claude 实例同时探索同一个问题的不同解法，互不干扰，最后从结果中选优。这也是 Loop Engineering 能支持真正并行执行的结构性基础。

组件三：技能库（Skills）

Skills 是 Agent 在每次运行时可以调用的”项目记忆”：代码规范、测试命令、架构约定、常见错误的处理方式、特定依赖的使用说明。通常以结构化的 Markdown 文件存储，挂载在项目根目录。

一个没有 Skills 的 Loop，每次运行都要从零重新”发现”你的项目——这是纯粹的 token 浪费，也是质量不稳定的根源。一个有良好 Skills 体系的 Loop 会产生复利效应：Agent 积累的经验通过 Skills 持久化，每次运行的起点都比上次更高，而不是每次都从同一个零点出发。

Addy Osmani 对 Skills 的实践建议是：每个 Skill 对应一类任务，信息密度尽量高，但不要让单个 Skill 撑满上下文窗口。让 Agent 自己维护一个 Skills 索引——这样 Agent 在启动时只需要读取索引，判断本次任务需要调用哪些 Skill，而不是每次都把所有 Skill 塞进上下文。

组件四：连接器与插件（Connectors/Plugins）

Agent 需要能调用外部系统：GitHub（读写 PR 和 Issue）、Linear（更新任务状态）、Slack（发送通知）、数据库（读写任务状态和进度）。这些连接器定义了 Loop 的”行动半径”。

连接器的权限设计需要格外谨慎：Agent 能写入哪些系统、读取哪些系统，哪些操作需要人工审批才能执行？这不只是安全问题，也是产品设计问题——过度授权的 Agent 会在用户不知情的情况下产生副作用；权限过窄的 Agent 则会在关键步骤卡住，依然需要人工介入。

组件五：子 Agent 协作（Sub-agents）

写代码的 Agent 不应该同时是审查代码的 Agent。这是 Loop Engineering 最有洞见的设计原则之一：执行者和评审者必须分离。

一个设计良好的 Loop，会让一个 Agent 负责实现，另一个 Agent 负责验证，验证结果反馈给执行者进行修正。这个分离消除了”Agent 自我说服”的风险——如果执行 Agent 同时是自己工作的裁判，它很容易形成”自认为正确”的闭环，产出看起来完成了实际上存在深层问题的结果。

Sub-agents 的协作模式还支持”一个 Agent 读取 GitHub、Slack 和 Twitter，决定接下来要构建什么；另外几百个 Agent 分头去实现”的规模化场景——这正是 Boris Cherny 描述自己当前工作流的方式。

基础层：记忆（Memory）

模型会遗忘，但仓库不会。Loop 的状态必须被持久化：进度文件、错误日志、已完成的任务列表、当前上下文的关键变量、每次迭代的结果摘要。这样 Loop 才能在中断后重启，才能在多次迭代中保持连贯性，才能跨越上下文窗口的边界而不丢失任务记忆。

Memory 是 Loop 可以”活过”单次上下文窗口的关键。没有 Memory 的 Loop，本质上仍然是一个无状态的单次执行——它的”自主性”只存在于一个上下文窗口的时间范围内。

七、与前三个范式的本质区别

厘清了 Loop Engineering 是什么，我们可以从四个维度做系统对比，给 AI PM 建立清晰的分析框架。

维度一：人的控制粒度

Prompt Engineering 阶段，人控制的是每一句话的措辞。Context Engineering 阶段，人控制的是信息环境的构成和质量。Harness Engineering 阶段，人控制的是系统的结构和约束规则。Loop Engineering 阶段，人控制的是目标定义和终止条件——执行过程本身，由 Agent 自主处理。

这个维度最直观地展示了抽象层级的爬升：人的注意力从”内容层”逐渐上移到”策略层”。人越来越不需要关心”怎么做”，越来越需要关心”做什么、做到什么程度算完成”。

维度二：人的介入时机

Prompt Engineering：每次交互都需要人介入，人是循环里不可缺少的节点。Context Engineering：每次会话启动前需要人配置信息环境，运行中也可能需要人调整。Harness Engineering：系统搭建时需要人设计，运行中偶发性介入，但人仍然是启动者。Loop Engineering：Loop 设计阶段需要人投入大量精力，运行阶段原则上不需要人——Loop 自己触发、自己执行、自己验证、自己终止，人在例外情况下才需要出现。

维度三：失败模式

这个维度最值得 AI PM 关注，因为它直接决定了产品的容错设计和异常处理逻辑。

Prompt Engineering 的失败很直观：提示词写得不好，输出质量差，用户能立刻感知，重试成本低。Context Engineering 的失败更隐蔽：Agent 基于错误的信息推理，产出的结果可能表面上看起来正确，但建立在错误的前提上——这类问题更难被普通用户发现。Harness Engineering 的失败需要排查系统结构：某个约束层有漏洞，Agent 在边界处行为异常，排查路径复杂。

Loop Engineering 的失败是最难被发现的：目标定义模糊，或者验证机制缺失，Agent 会无限自我说服，以极高的自信报告任务完成。代码通过了测试，但测试本身是 Agent 为了通过自己的实现而写的。PR 已经提交，但实现和最初的需求之间出现了系统性偏移，而这个偏移没有任何机制能捕捉到。这不是边缘案例，而是”目标不可验证”这个设计缺陷在生产环境里的必然表现。

维度四：适用任务类型

Prompt Engineering 适合一次性、目标明确的短任务，需要人判断结果并决定下一步。Context Engineering 适合需要特定知识输入的单轮或短程多轮任务，Agent 对信息质量敏感但任务本身并不复杂。Harness Engineering 适合需要多步骤自主执行的复杂任务，过程需要监视但不需要每步介入。

Loop Engineering 的适用前提非常具体：任务必须是可重复的、有明确通过/失败信号的、人工操作具有明显重复性特征的。如果你感觉自己在做的事情是重复的、低价值的、可以被规则描述的——建 Loop。如果任务是模糊的、探索性的、目标还没想清楚的——先把目标想清楚，再谈 Loop。

八、两个被高估的希望，两个被低估的风险

Loop Engineering 在工程师圈子里的传播速度很快，但传播中存在两个系统性的误读，以及两个在热度中被严重低估的现实风险。

被高估的希望一：Loop 让 Agent 完全自主，工程师可以放手

Loop Engineering 不是”放手让 AI 接管”。Boris Cherny 在澄清自己的工作流时非常明确：他在 2025 年花了大量时间写 Loop 的规范文件（CLAUDE.md）、Skills 配置、Loop 的运行逻辑；他运行了大量并行的 Claude Code 实例，观察哪些模式能产生可靠输出，哪些会产生垃圾——这些前期投入，才是他后来能”减少手动介入”的前提。Loop Engineering 转移的是执行权，不是判断权。你仍然需要决定做什么、定义什么叫成功、读懂 Loop 的产出、在 Loop 跑偏时出手干预。

被高估的希望二：Loop 适合所有任务

对于目标清晰、验证标准客观的任务，Loop 非常有效。但对于创意性任务、探索性任务、目标本身还在摸索中的任务，Loop 会把”模糊的意图”跑成”Agent 的自我满足”。如果你让一个 Loop 去”写一篇好文章”或者”想一个更好的产品策略”，它可能会无限重写，因为”好”无法被机器验证，它只会持续生产版本直到预算耗尽。

被低估的风险一：目标定义的精确度决定了 Loop 的上限

Loop Engineering 对目标定义的要求，远高于普通提示词。一个模糊的终止条件，等于给了 Agent 一张无限使用的授权书。”把这个功能做好”不是一个 Loop 目标；”所有单元测试通过、TypeScript 编译无报错、代码 Diff 不超过 500 行、PR 描述包含变更摘要和测试截图”才是一个可以自动验证的 Loop 目标。如果目标无法被机器验证，Loop 就无法安全终止。

这个问题的麻烦之处在于，它不是一个技术问题，是一个需求定义问题。而很多时候，需求本身就是模糊的——这意味着 Loop Engineering 的真正门槛，不在于代码能力，而在于需求澄清能力。

被低估的风险二：成本的指数级增长

这是 Loop Engineering 在社交媒体上被严重回避的话题。一个能自我提示、自我验证、自行生成子 Agent、在你睡觉时运行的 Loop，能在你不知情的情况下消耗大量 token 预算。Louis Bouchard 明确指出，在推特上热情讨论 Loop Engineering 的，大多是在大型实验室工作、有巨额 token 预算的人——对于普通团队来说，预算是架构的一部分，不是事后的考量。

每一个生产级 Loop 都必须有硬性约束：最大迭代次数、无进展检测机制（连续 N 次迭代没有实质变化，自动停止）、每日 token 或美元预算上限、异常报警机制。没有这些约束的 Loop，不是自动化，是不受控的资源消耗。

九、对 AI PM 的具体启示

Loop Engineering 看起来是工程师的事，但它对 AI 产品设计的影响是深层次的。以下四点，是我认为 AI PM 需要认真对待的具体启示。

启示一：终止条件成为产品设计的一等公民

传统软件产品设计里，我们习惯于描述”流程”——用户做 A，触发 B，展示 C，任务完成。但在 Agent 产品里，流程本身可以由 Agent 自主决定，PM 需要在需求阶段回答的第一个问题，变成了：什么状态意味着任务完成？

这个问题的答案，决定了整个 Agent 系统能否自主运行。如果 PM 在需求阶段说不清楚”成功标准是什么”，工程师就无法建立验证机制，Agent 就无法自主终止，系统就退化成需要人工保姆的半自动工具——和 Prompt Engineering 时代没有本质区别，只是包了一层”Agent”的壳。

这不是一个技术问题，是一个产品定义问题。明确、可验证的终止条件，是 AI 产品能从”Demo 能跑”走向”生产可用”的关键分野。

启示二：用户角色正在重构，产品交互需要相应演化

Prompt Engineering 时代，用户的核心门槛是”学会怎么说话”。Context Engineering 时代，用户的核心门槛是”学会给对材料”。Loop Engineering 时代，用户的核心门槛正在变成”学会定义可验证的目标、配置任务的边界和约束”。

这是一种更高阶的抽象能力，大多数普通用户目前并不具备——他们知道自己想要什么，但不知道怎么把”我想要什么”转化成”机器能验证的标准”。

这意味着 AI 产品的核心交互设计，正在从”提示词输入框”向”目标配置器 + 验证条件编辑器”演化。如何降低”定义可验证目标”的用户门槛，是未来一两年 AI PM 最值得深挖的设计命题：引导用户逐步澄清目标的对话式界面、预设的验证模板库、从历史任务中学习用户偏好的智能推荐——这些方向，都可能成为差异化竞争的核心。

启示三：PRD 需要新的描述维度

当 Agent 能够自主执行多步骤任务时，传统 PRD 的”用户故事 + 功能描述”框架是不足的。AI Agent 产品的 PRD 需要额外回答五个问题：

触发条件：Agent 在什么情况下被启动？触发信号来自哪里？触发频率是否受控？
执行边界：Agent 能操作哪些系统，绝对不能碰哪些数据，需要人工审批的操作阈值是什么？
验证机制：成功的标准是什么，用什么方式验证，验证的执行者是机器还是另一个 Agent？
失败处理：Agent 遇到无法自主解决的情况时，默认行为是什么——停止并告警、降级到人工、继续尝试直到预算耗尽？
成本约束：单次任务的 token 预算上限是多少，超出后的行为是什么？

这五个维度，在传统软件产品设计里几乎不存在。在 Loop Engineering 的范式下，它们是产品能否正常工作的基础条件——缺少任何一个，都可能在生产环境里暴露出不可控的风险。

启示四：可观测性是产品能力，不是工程附属品

Loop 在自主运行时，用户需要能”看见”Agent 在做什么。这不只是日志和监控——那是工程侧的事。产品侧需要思考的，是面向用户的透明度设计：

Agent 当前在执行第几步？整体进度是多少？这次运行消耗了多少资源？上一次运行的结果是什么，失败的原因是什么？Agent 在某个步骤做了一个非预期的决定，用户能不能看到这个决定，能不能及时干预？

可观测性设计做得好，是 AI 产品建立用户信任的核心机制。Loop 越自主，可观测性越关键——因为用户对”黑盒系统”的容忍度，和任务的风险程度成反比。一个帮你整理日历的 Agent，用户对它的黑盒程度容忍度较高；一个帮你提交代码、发送 PR 的 Agent，用户需要能随时知道它在做什么、做了什么。

对于 AI PM，可观测性不应该是工程上线之后再补的功能，它应该从 PRD 阶段就作为核心产品功能被设计进去。

十、道而不在术：每一次跃迁背后的那个不变的问题

回顾这四次范式演化，有一个规律清晰可见：每一层”术”的演化，解决的其实是同一个”道”的问题——在与 AI 的协作过程中，人类如何保持对目标的清晰理解，以及对结果的真实所有权。

Prompt Engineering 的”术”是措辞技巧，背后的”道”是：你需要知道你想要什么，才能说清楚。Context Engineering 的”术”是信息架构设计，背后的”道”是：你需要知道什么信息是相关的，才能给对。Harness Engineering 的”术”是系统结构设计，背后的”道”是：你需要理解 Agent 的失败模式，才能设计防错结构。Loop Engineering 的”术”是循环程序设计，背后的”道”是：你需要知道什么叫”完成”，才能让 Agent 自主停止。

每一层技术，都在更高效地帮你执行——但每一层技术，都没有帮你解决”你到底想要什么”这个问题。这个问题，永远是人的责任。

Andrej Karpathy 那句”最热门的编程语言是英语”，在 2023 年听起来是一个洞见，在 2026 年回头看，它只说对了一半。英语（自然语言）是接口，不是能力。接口在持续升级——从提示词到上下文到 Harness 到 Loop——但接口背后的那个人，仍然需要对目标有判断，对结果有责任，对失败有理解。接口越来越强大，不代表人越来越不重要；它代表的是，人越来越需要在更高的层次上发挥作用。

有一个值得认真对待的担忧：当 Agent 越来越自主，当 Loop 越来越精密，会有人把 Loop Engineering 当成一种”外包判断力”的方式——让 Loop 决定做什么，让 Agent 决定怎么做，人只需要按一下”启动”。这个路径听起来很诱人，走下去的终点是一个没有人真正理解正在发生什么的系统。

这种风险在 AI 产品设计层面尤其值得警惕。一个 AI PM 如果把”用 Agent 自动化需求分析”作为逃避思考的理由，而不是放大思考的工具，最终产出的是一堆由机器生成的、没有人真正拍板确认过的需求文档——它们在形式上是完整的，在内容上是无人负责的。

Boris Cherny 在一次采访里对这个问题的表述非常克制：”你可以用 Loop 来更快地完成你理解的工作，也可以用 Loop 来回避对工作的理解。这是两件完全不同的事。为你未来的自己做正确的选择。”

这句话值得每一个 AI PM 记住。评估 Loop Engineering 的价值，不应该只看它能让 Agent 跑多快、自主性能走多远，而应该问：这套机制，是在帮助人更清晰地理解问题，还是在帮助人更优雅地回避理解问题？

从 Prompt 到 Context 到 Harness 到 Loop，这四次演化都在做同一件事：把越来越多的”术”交给机器，以便人可以把更多的注意力放在”道”上。这是一个方向正确的趋势——但前提是，人要真的把注意力放在”道”上，而不是用越来越复杂的”术”来掩盖对”道”的回避。

AI 不是在替你思考，它是在替你执行。思考的责任，从来没有，也永远不会，被外包出去。

四年，四次跃迁，不变的始终是这一件事：你对问题本身的理解，是所有技术范式无法替代的那个核心。

AI 的发展在道，不在术。

作者：AI食

扫一扫微信咨询

联系我们青瓜传媒服务项目

商务合作联系我们

本文经授权由青瓜传媒发布，转载联系作者并注明出处：https://www.opp2.com/382556.html

《免责声明》如对文章、图片、字体等版权有疑问，请联系我们。广告投放找客户找服务蘑菇跨境

运营大纲