OpenAI 工程实验：零人工代码构建产品的启示

在这个新范式中，工程师的角色被彻底重新定义。既然 Codex 可以处理所有的实现细节，人类工程师的工作就不再是“怎么写代码”，而是：

代码库必须对 Agent 友好。团队不仅要让人读懂代码，更要让 Agent “读懂”运行时的状态。为此，团队将日志 (LogQL)、指标 (PromQL) 和 Chrome DevTools 协议直接暴露给 Agent，使其能独立复现 Bug、验证修复并理解 UI 行为。

为了解决上下文窗口限制，不能把所有文档都塞给 Agent。AGENTS.md 被设计为一份“地图”（目录），而非百科全书。它引导 Agent 去仓库的 docs/ 目录查找具体的单一事实来源 (System of Record)。

如何保持代码风格一致？答案不是微管理，而是机械化强制。通过 Lint 规则和架构边界来约束 Agent。只要符合不变量（Invariants），具体的实现风格可以由 Agent 自主决定。重点在于边界清晰，而非细节完美。

全自动生成的代码容易产生漂移。团队建立了类似“垃圾回收”的后台任务，持续扫描代码库，自动发起重构 PR 以偿还技术债务。人类的工程品味被编码为规则，持续自动执行。

2025年8月 Git 仓库初始化。Codex CLI 编写了最初的脚手架、CI 配置和 AGENTS.md。无任何遗留人工代码。

最初几个月进展慢于预期。由于环境未明确指定，Agent 缺乏必要的工具和抽象。工程师专注于完善 Agent 的“生存环境”。

5个月后仓库包含约 100 万行代码。3 名工程师推动 1500+ PR，日均每人 3.5 个 PR。团队扩充至 7 人，且吞吐量持续上升。

现在实现了端到端自主性：Agent 可根据一个 Prompt 独立完成复现 Bug、修复、测试、开 PR、合并的全流程。

这项实验揭示了软件工程未来的方向：瓶颈已不再是代码编写速度，而是人类的注意力和质量评估能力。

当 Agent 的产出速度超过人类的审查速度时，传统的“阻塞式合并”变得不可行。未来的开发模式将更像是一种高级的系统编排：工程师编写“脚手架”和“反馈回路”，而 Agent 负责填充所有的血肉。在这个过程中，最稀缺的资源依然是——人类对复杂系统的判断力。

零人工代码：OpenAI "Harness Engineering" 实验启示录