从“人写代码”到“人与智能体共工程”:一份面向工程实践的《Agentic Software Engineering》深度解读
1. 为什么你现在就该关心 Agentic SE?
过去 18 个月,GitHub Copilot、Claude Code、Google Jules、Cognition Devin 等“AI 队友”已经在开源仓库里提交了数十万合并 PR。 Jeff Dean 预测:一年内 AI 就将达到“初中级开发者”水平。 然而,真正让 CTO 们夜不能寐的,并不是“AI 会不会写代码”,而是——
当 AI 的产出速度比人类 Review 速度快 100 倍时,我们怎样保证代码仍然可信?
这正是本文提出的 Agentic Software Engineering(SE 3.0) 所要解决的核心矛盾:速度 vs. 信任。
2. 一张图看懂 SE 3.0 的“双模态”世界观
传统软件工程(SE 1.0/2.0)只有一条主线:人→工具→代码。 SE 3.0 把这条线拆成两条互补的轨道,作者称之为 SE for Humans(SE4H) 与 SE for Agents(SE4A)。
| 维度 | SE4H(面向人) | SE4A(面向智能体) |
|---|---|---|
| Actor | Agent Coach(人) | 多智能体舰队 |
| Process | 策略制定、委托、验收 | 原子化、可重复、可回滚 |
| Artifact | BriefingScript / MentorScript / VCR | LoopScript / CRP / MRP |
| Tool | ACE(Agent Command Environment) | AEE(Agent Execution Environment) |
两条轨道之间用版本化、机器可读、结构化的 living artifacts 保持同步,而不是 Slack 里的一句 “hey, plz fix bug”。
核心思想是:用版本化、机器可读、结构化的“活文档”取代临时、非正式的聊天提示,从而确保协作的可追溯性、可重复性和规模化。
面向人的软件工程(SE4H)产物
这类产物主要由人类“智能体教练”创建,用于指导和启动智能体。
1. BriefingScript - 任务简报脚本
是什么?
- 这是由人类编写的、发给智能体的 任务订单或使命计划。
- 它不只是一个简单的提示(如“修复这个bug”),而是一个包含完整上下文的结构化文档。
核心作用:
- 定义“做什么”和“验收标准”**。它清晰地描述了任务的目标、背景、约束条件、成功指标以及不希望出现的情况。
类比理解:
- 产品需求文档 或 详细的工单描述。它就像你对一个资深工程师说:“我们需要为用户资料页添加一个缓存层,使用Redis,目标是降低数据库查询延迟至50毫秒以下。注意不要缓存敏感信息,并且要处理好缓存失效的问题。”
包含内容举例:
- 背景: 为什么需要这个功能(如“用户资料页访问频繁,导致数据库压力大”)。
- 目标: 明确要达成的技术成果。
- 验收标准: 可验证的指标列表(如性能提升、测试覆盖度)。
- 约束与边界: 技术栈要求、不允许的改动范围。
- 示例与反例: 提供正面的代码范例和需要避免的错误模式。
2. MentorScript - 导师脚本
是什么?
- 这是由人类编写的、指导智能体**“如何工作”**的最佳实践指南。
核心作用:
- 封装团队的“部落知识”和工程规范。它教导智能体以符合团队习惯和质量要求的方式行事。
类比理解:
-
公司文化手册 或 团队编码规范。它不止是静态的规则,而是包含动态的策略和决策逻辑。
-
包含内容举例:
-
代码风格指南: 命名规范、注释要求。
-
架构原则: 如“优先使用组合而非继承”。
-
问题排查指南: 当遇到某类错误时,应该首先检查什么。
与BriefingScript的区别:
BriefingScript是针对具体任务的,而MentorScript是跨任务的、持续有效的指导。
3. Version Controlled Resolutions - 版本控制解决方案
是什么?
- 这是人类对智能体发出的 Consultation Request Pack 或 Merge-Readiness Pack 的正式、可审计的回应。
核心作用:
- 闭合协作环路。当智能体提出疑问或提交成果时,人类使用 VCR 来给出下一步的指令。
类比理解:
- 在代码审查中,你不仅评论“需要修改”,还会给出具体的修改建议和理由。VCR 就是这个“建议和理由”的结构化、版本化记录。
包含内容举例:
- 对CRP的回应: “关于缓存键的设计,我同意你的方案A,因为它能更好地避免命名冲突。”
关键特征:
- 版本控制: 整个对话和决策历史都被完整保留,方便回溯和理解上下文。
面向智能体的软件工程(SE4A)产物
这类产物主要由智能体创建,用于向人类寻求帮助或汇报成果。
4. LoopScript - 循环脚本
是什么?
- 这是一个由人类定义、但由智能体执行的自动化工作流剧本。
核心作用:
- 将过程自动化。它定义了为实现某个
BriefingScript中的目标,智能体需要遵循的具体步骤、工具调用顺序和决策逻辑。
类比理解:
- CI/CD 管道配置文件(如 GitHub Actions 的
.yml文件)的增强版。它不只是执行命令,而是能够包含条件判断、循环和动态调适的复杂流程。
包含内容举例:
- “要实现‘添加缓存层’这个目标,应依次执行以下步骤:1. 分析现有代码… 2. 编写单元测试… 3. 实现缓存逻辑…”。
工作方式:
- 智能体拿到
LoopScript后,会像演员按照剧本演戏一样,一步步地推进任务。
5. Consultation Request Pack - 咨询请求包
是什么?
- 这是智能体在遇到模糊性、复杂权衡或超出其权限的决策时,主动向人类发起求助的结构化请求。
核心作用:
- 实现双向协作。它标志着智能体不再是简单的命令执行者,而是可以主动发起对话的协作者。
核心价值:
- 它解决了当前AI编码工具的一个核心痛点:它们会在不理解的时候瞎猜,而不是询问。
包含内容举例:
- 清晰的问题描述: “我在实现X功能时,发现方案A性能更好但代码更复杂,方案B反之。请问选择哪个方向?”
包含内容:
- 清晰的选项分析。
- 每个选项的利弊权衡。
- 智能体自己的初步建议。
6. Merge-Readiness Pack - 合并就绪包
是什么?
- 这是智能体在认为自己已完成任务后,向人类提交的最终交付物套装。
核心作用:
- 提供证据,而非仅仅是代码。当智能体提交MRP时,它不是在说“我写完了代码”,而是在说:“我已经完成了任务,以下是证明我的成果满足所有要求的证据。
类比理解:
-
这就像一个开发者在提交PR时,不仅提交代码,还附带详细的说明、测试结果、性能对比数据等,以说服人类审查者这个PR已经达到了合并标准。
-
包含内容举例:
-
最终的源代码变更。
-
自动生成的测试报告和覆盖率。
-
合规性与安全检查结果。
-
变更影响分析。
总结与关系图
这六大结构化产物共同构成了一个强大的人机协作闭环:
启动阶段(人 → 智能体):
- 人类编写
BriefingScript(任务)、LoopScript(流程)和MentorScript(规范),并通过 ACE 下达给智能体。
执行阶段(智能体):
- 智能体在 AEE 中依据这些脚本执行任务。
交互阶段(智能体 → 人):
- 遇到困难时,智能体生成
CRP寻求指导。 - 认为任务完成时,生成
MRP申请合并。
反馈与闭环阶段(人 → 智能体):
- 人类在 ACE 中审阅
CRP和MRP。 - 针对
CRP和MRP,人类编写VCR进行回应(解答、批准或要求修改)。 - 所有的
VCR都会作为新版本来更新最初的BriefingScript等,使其成为反映最新共识的“活文档”。
BriefingScript/MentorScript/VCR 是人类管理和指导智能体的语言;而 LoopScript/CRP/MRP 是智能体理解和响应人类,并主动沟通的语言。它们共同将散乱的“智能体编码”提升为了可工程化的“智能体软件工程”。
3. 从 Level 0 到 Level 5:SE 的“自动驾驶等级”
类比 SAE 自动驾驶分级,作者给出了 6 级 SE 自动化阶梯,让我们一眼看清自己所处的位置:
| Level | 名称 | 人类职责 | 典型系统 | 汽车对照 |
|---|---|---|---|---|
| 0 | Manual Coding | 手敲每行代码 | Vim/Notepad | 无自动化 |
| 1 | Token Assistance | 逐 token 审核 | IDE 补全 | L1 巡航 |
| 2 | Task-Agentic | 审核整块代码 | Copilot | L2 车道保持 |
| 3 | Goal-Agentic(本文焦点) | 定目标+最终 Review | Devin/Claude Code | L3 有条件自动驾驶 |
| 4 | Specialized Domain Autonomy | 设定领域 KPI | GPT-5-Frontend 专精 | L4 区域无人车 |
| 5 | General Domain Autonomy | 设定公司级目标 | 尚不存在 | L5 全域无人车 |
行业共识:Level 3 是当前最紧迫的战场。 Level 4/5 需要大量 Level 3 的实践数据与治理框架才能演进。
4. 真实案例:7 张工单,28 个 PR,1.5 小时人类投入
作者用一位“超级开发者”的实际工作流展示了 SE 3.0 的日常:
- 人类在 ACE 中写 7 份 BriefingScript(每张 10~15 分钟)。
- 智能体群在 AEE 里并行生成 4×7=28 个 PR(N-version programming 回归)。
- 人类在 ACE 的可视化面板里按风险/成本/创新度排序,接受或回退。
- 对 3 张工单需要细化,智能体主动发出 Consultation Request Pack(CRP)。
- 人类用 Version Controlled Resolution(VCR)回复,形成新的 LoopScript。
- 最终 Merge-Readiness Pack(MRP)被合并,所有 artifact 自动版本化,成为团队“集体记忆”。
该流程把“编码”时间压缩到近乎 0,把人类精力集中到 意图、策略、风险评估。
5. 为什么传统 IDE 已死?ACE vs. AEE 设计要点
| 特性 | ACE(人的驾驶舱) | AEE(智能体的工作台) |
|---|---|---|
| 核心设计目标 | 意图可视化、成本洞察、审计追踪 | 高并发、确定性、可观测 |
| 关键视图 | 事件收件箱、成本仪表盘、VCR 时间线 | 任务 DAG、资源池、沙盒日志 |
| 交互粒度 | 语义级(一个业务目标) | 语法级(一次测试运行) |
| 集成示例 | Jira + 成本会计 + LLM 审计 | K8s + 无服务器 + 弹性沙盒 |
一句话:ACE 像 IDE + Jira + CFO Dashboard,AEE 像 CI 集群 + 1000 个永不疲倦的实习生。
6. 研究路线图:四大挑战 + 教育冲击
作者没有只给愿景,而是列出了可落地的研究议程:
- 可信合成(Trustworthy Synthesis)
- 如何让 MRP 自带“证据链”:测试、形式化验证、变更影响分析一键打包?
- 需要新的 DSL 描述“可验证的意图”。
- 可扩展 Review(Scalable Review)
- 当 PR 量 > 人眼极限时,如何用“元 Review 智能体”做分层过滤?
- 需要新的 Review 博弈论模型与经济学激励。
- 上下文迁移(Onboarding & Context Transfer)
- 新人加入团队需要 2 周读文档,智能体能否 5 分钟完成?
- 需要可执行的“团队知识图谱” + 动态 LoopScript 生成。
- 成本-质量 Pareto 前沿(Cost-Quality Frontier)
- 如何用 RL 在“token 预算”内找到最优 N-version 配置?
- 需要在线强化学习 + 实时云成本 API。
教育冲击:
- CS 课程将从“写代码”转向“写 BriefingScript + 调试智能体”。
- 作业评分标准从“程序能通过测试”变为“程序能让 3 个智能体在 5 分钟内通过测试,且 token 花费最低”。
7. 工程师的 3 个立即行动项
- 把需求写成结构化的 BriefingScript:用 Markdown 模板固定“背景-目标-验收-边界-反例”。
- 在 CI 里加一道 “Agent Budget Gate”:当 PR 的 token 花费 > 阈值,自动打回重写。
- 把 Review Checklist 机器可读化:变成可执行的 Rego/Starlark 脚本,让 Review 智能体先跑一遍。
8. 结语:从 10x Developer 到 100x Agent Coach
“未来最值钱的技能不是写代码,而是写出能让 1000 个智能体协同工作的元指令。”
Agentic SE 不是科幻,而是正在进行时。本文的价值在于:
- 把草根实践上升为可传授、可度量、可治理的工程学;
- 给出一张“从 Level 2 到 Level 3”的作战地图;
- 提前指出“速度 vs. 信任”瓶颈的系统性解法。
「如果这篇文章对你有用,请随意打赏」
如果这篇文章对你有用,请随意打赏
使用微信扫描二维码完成支付