TL;DR
- AI 正在把开发流程从“编写”推向“编排”:需求表达、方案拆解、验收标准、回归验证,变成主战场。
- “看不看代码”不是宗教问题:你可以不逐行阅读,但不能放弃可验证的质量体系。
- 短期赢家是能把 AI 变成流水线的人;长期赢家是能把“系统”做成可持续的人(可观测、可回滚、可演进)。
发生了什么:从“辅助”到“主导”
过去我们说“AI 辅助编程”,默认人类写主干、AI 负责补充。
现在越来越多实践在暗示另一种结构:
- AI 负责产出候选实现(甚至多份候选实现并行)
- 人类负责定义约束(需求、边界条件、非功能指标)与验收机制(测试、基准、灰度、回滚)
这不是“人被替代”,而是“人的工作从写代码迁移到管理复杂性”。
关键转折点:成本结构变了
当生成代码几乎免费时,你会自然地把精力从“把代码写出来”转移到:
- 把问题说清楚(可执行的规格说明)
- 把正确性定义清楚(测试与验收标准)
- 把运行时风险控制住(观测、限流、回滚、权限边界)
换句话说:
代码不再稀缺,稀缺的是“可验证的正确”。
“黑箱编程”可以成立,但需要前提
所谓黑箱,不是“不负责任”,而是把责任从阅读源代码迁移到系统化验证。
能成立的前提通常包括:
- 验收标准可形式化:能写成测试、基准、或可重复的检查项
- 可观测性完善:能在异常出现前/出现时迅速定位“哪类问题”
- 回滚机制成熟:能在不理解全部实现细节时,安全地撤回
- 变更粒度受控:小步快跑 + 高频回归,而不是大改一把梭
谁会更吃亏 / 谁会更受益
吃亏的人
- 只擅长“把需求翻译成代码”,但不擅长定义验收、设计边界、做质量工程
- 把调试当成直觉活,缺少系统化手段(日志、指标、追踪、复现最小化)
受益的人
- 能把复杂问题拆成可验证的子问题
- 擅长质量工程:测试策略、基准策略、灰度发布、回滚策略
- 懂“系统视角”:性能、成本、可靠性、安全、可维护性
一个可复制的“AI 主导”工作流(你今天就能试)
- 先写验收标准(10 条以内,越具体越好)
- 让 AI 产出实现 + 自测(要求它提供测试/脚本)
- 把验收跑起来:测试、lint、基准、关键指标
- 通过后再进入灰度/预发布
- 出问题先回滚,再分析(别带着系统冒险)
你可以立刻做的 3 个实验
- 三方案并行:同一需求,让 3 个 AI 给 3 套实现,用同一套测试筛选最佳。
- “验证优先”重写:选一个你最熟的模块,先写测试与基准,再让 AI 重构,看看是否更稳。
- 观测门禁:给关键路径加 3 个指标(延迟、错误率、吞吐),把阈值写进发布 checklist。
我对“洞察质量”的判断标准
如果一篇“洞察页”读完只能得到“AI 很强”,那它就是低质量。
至少要给到你其中一类价值:
- 可复用的判断框架(例如:黑箱成立的 4 个前提)
- 可执行的动作清单(例如:验收标准/观测门禁/回滚)
- 可验证的信号(例如:性能基准、缺陷密度、回归频率等)