```html OpenAI 工程实验:零人工代码构建产品的启示
首页
OpenAI Engineering Cover
Deep Dive

零人工代码:OpenAI "Harness Engineering" 实验启示录

人类掌舵,Agent 执行:当软件工程从“写代码”转向“设计意图”

导语:过去五个月,OpenAI 团队进行了一项大胆实验:在一个全新的产品开发中,0 行代码由人工编写。所有的逻辑、测试、CI 配置和文档均由 Codex 完成。结果令人震惊:开发效率提升了约 10 倍,一个仅有 3-7 人的团队在五个月内完成了百万行代码的构建与发布。

1/10

开发时间缩减

100%

AI 生成代码

1.5k+

已合并 PR

核心理念:人类掌舵,Agent 执行

在这个新范式中,工程师的角色被彻底重新定义。既然 Codex 可以处理所有的实现细节,人类工程师的工作就不再是“怎么写代码”,而是:

  • 设计环境 (Scaffolding): 构建让 Agent 能可靠工作的工具和反馈闭环。
  • 指定意图 (Specifying Intent): 编写精准的 Prompt,描述“做什么”而非“怎么做”。
  • 深度优先 (Depth-first): 将大目标拆解为 Agent 可理解的小模块(设计、编码、审查、测试)。

1. 可读性至上 (Legibility)

代码库必须对 Agent 友好。团队不仅要让人读懂代码,更要让 Agent “读懂”运行时的状态。为此,团队将日志 (LogQL)、指标 (PromQL) 和 Chrome DevTools 协议直接暴露给 Agent,使其能独立复现 Bug、验证修复并理解 UI 行为。

2. 知识库即地图

为了解决上下文窗口限制,不能把所有文档都塞给 Agent。AGENTS.md 被设计为一份“地图”(目录),而非百科全书。它引导 Agent 去仓库的 docs/ 目录查找具体的单一事实来源 (System of Record)。

3. 架构与品味 (Taste)

如何保持代码风格一致?答案不是微管理,而是机械化强制。通过 Lint 规则和架构边界来约束 Agent。只要符合不变量(Invariants),具体的实现风格可以由 Agent 自主决定。重点在于边界清晰,而非细节完美。

4. 对抗熵增 (Entropy)

全自动生成的代码容易产生漂移。团队建立了类似“垃圾回收”的后台任务,持续扫描代码库,自动发起重构 PR 以偿还技术债务。人类的工程品味被编码为规则,持续自动执行。

"Humans steer. Agents execute." —— 人类掌舵,Agent 执行

"如果所有信息都标记为‘重要’,那就没有什么是重要的。"

📅 实验时间线

2025年8月 Git 仓库初始化。Codex CLI 编写了最初的脚手架、CI 配置和 AGENTS.md。无任何遗留人工代码。
最初几个月 进展慢于预期。由于环境未明确指定,Agent 缺乏必要的工具和抽象。工程师专注于完善 Agent 的“生存环境”。
5个月后 仓库包含约 100 万行代码。3 名工程师推动 1500+ PR,日均每人 3.5 个 PR。团队扩充至 7 人,且吞吐量持续上升。
现在 实现了端到端自主性:Agent 可根据一个 Prompt 独立完成复现 Bug、修复、测试、开 PR、合并的全流程。

🔎 洞见小结

这项实验揭示了软件工程未来的方向:瓶颈已不再是代码编写速度,而是人类的注意力和质量评估能力。

当 Agent 的产出速度超过人类的审查速度时,传统的“阻塞式合并”变得不可行。未来的开发模式将更像是一种高级的系统编排:工程师编写“脚手架”和“反馈回路”,而 Agent 负责填充所有的血肉。在这个过程中,最稀缺的资源依然是——人类对复杂系统的判断力。

```