从“人写代码”到“人与智能体共工程”：一份面向工程实践的《Agentic Software Engineering》深度解读

原文：Ahmed E. Hassan et al. Agentic Software Engineering: Foundational Pillars and a Research Roadmap, 2025

1. 为什么你现在就该关心 Agentic SE？

过去 18 个月，GitHub Copilot、Claude Code、Google Jules、Cognition Devin 等“AI 队友”已经在开源仓库里提交了数十万合并 PR。 Jeff Dean 预测：一年内 AI 就将达到“初中级开发者”水平。然而，真正让 CTO 们夜不能寐的，并不是“AI 会不会写代码”，而是——

当 AI 的产出速度比人类 Review 速度快 100 倍时，我们怎样保证代码仍然可信？

这正是本文提出的 Agentic Software Engineering（SE 3.0） 所要解决的核心矛盾：速度 vs. 信任。

2. 一张图看懂 SE 3.0 的“双模态”世界观

传统软件工程（SE 1.0/2.0）只有一条主线：人→工具→代码。 SE 3.0 把这条线拆成两条互补的轨道，作者称之为 SE for Humans（SE4H） 与 SE for Agents（SE4A）。

维度	SE4H（面向人）	SE4A（面向智能体）
Actor	Agent Coach（人）	多智能体舰队
Process	策略制定、委托、验收	原子化、可重复、可回滚
Artifact	BriefingScript / MentorScript / VCR	LoopScript / CRP / MRP
Tool	ACE（Agent Command Environment）	AEE（Agent Execution Environment）

两条轨道之间用版本化、机器可读、结构化的 living artifacts 保持同步，而不是 Slack 里的一句 “hey, plz fix bug”。

核心思想是：用版本化、机器可读、结构化的“活文档”取代临时、非正式的聊天提示，从而确保协作的可追溯性、可重复性和规模化。

面向人的软件工程（SE4H）产物

这类产物主要由人类“智能体教练”创建，用于指导和启动智能体。

1. BriefingScript - 任务简报脚本

是什么？

这是由人类编写的、发给智能体的 任务订单或使命计划。
它不只是一个简单的提示（如“修复这个bug”），而是一个包含完整上下文的结构化文档。

核心作用：

定义“做什么”和“验收标准”**。它清晰地描述了任务的目标、背景、约束条件、成功指标以及不希望出现的情况。

类比理解：

产品需求文档 或 详细的工单描述。它就像你对一个资深工程师说：“我们需要为用户资料页添加一个缓存层，使用Redis，目标是降低数据库查询延迟至50毫秒以下。注意不要缓存敏感信息，并且要处理好缓存失效的问题。”

包含内容举例：

背景： 为什么需要这个功能（如“用户资料页访问频繁，导致数据库压力大”）。
目标： 明确要达成的技术成果。
验收标准： 可验证的指标列表（如性能提升、测试覆盖度）。
约束与边界： 技术栈要求、不允许的改动范围。
示例与反例： 提供正面的代码范例和需要避免的错误模式。

2. MentorScript - 导师脚本

是什么？

这是由人类编写的、指导智能体**“如何工作”**的最佳实践指南。

核心作用：

封装团队的“部落知识”和工程规范。它教导智能体以符合团队习惯和质量要求的方式行事。

类比理解：

公司文化手册 或 团队编码规范。它不止是静态的规则，而是包含动态的策略和决策逻辑。
包含内容举例：
代码风格指南： 命名规范、注释要求。
架构原则： 如“优先使用组合而非继承”。
问题排查指南： 当遇到某类错误时，应该首先检查什么。

与BriefingScript的区别：

BriefingScript 是针对具体任务的，而 MentorScript 是跨任务的、持续有效的指导。

3. Version Controlled Resolutions - 版本控制解决方案

是什么？

这是人类对智能体发出的 Consultation Request Pack 或 Merge-Readiness Pack 的正式、可审计的回应。

核心作用：

闭合协作环路。当智能体提出疑问或提交成果时，人类使用 VCR 来给出下一步的指令。

类比理解：

在代码审查中，你不仅评论“需要修改”，还会给出具体的修改建议和理由。VCR 就是这个“建议和理由”的结构化、版本化记录。

包含内容举例：

对CRP的回应： “关于缓存键的设计，我同意你的方案A，因为它能更好地避免命名冲突。”

关键特征：

版本控制： 整个对话和决策历史都被完整保留，方便回溯和理解上下文。

面向智能体的软件工程（SE4A）产物

这类产物主要由智能体创建，用于向人类寻求帮助或汇报成果。

4. LoopScript - 循环脚本

是什么？

这是一个由人类定义、但由智能体执行的自动化工作流剧本。

核心作用：

将过程自动化。它定义了为实现某个 BriefingScript 中的目标，智能体需要遵循的具体步骤、工具调用顺序和决策逻辑。

类比理解：

CI/CD 管道配置文件（如 GitHub Actions 的 .yml 文件）的增强版。它不只是执行命令，而是能够包含条件判断、循环和动态调适的复杂流程。

包含内容举例：

“要实现‘添加缓存层’这个目标，应依次执行以下步骤：1. 分析现有代码… 2. 编写单元测试… 3. 实现缓存逻辑…”。

工作方式：

智能体拿到 LoopScript 后，会像演员按照剧本演戏一样，一步步地推进任务。

5. Consultation Request Pack - 咨询请求包

是什么？

这是智能体在遇到模糊性、复杂权衡或超出其权限的决策时，主动向人类发起求助的结构化请求。

核心作用：

实现双向协作。它标志着智能体不再是简单的命令执行者，而是可以主动发起对话的协作者。

核心价值：

它解决了当前AI编码工具的一个核心痛点：它们会在不理解的时候瞎猜，而不是询问。

包含内容举例：

清晰的问题描述： “我在实现X功能时，发现方案A性能更好但代码更复杂，方案B反之。请问选择哪个方向？”

包含内容：

清晰的选项分析。
每个选项的利弊权衡。
智能体自己的初步建议。

6. Merge-Readiness Pack - 合并就绪包

是什么？

这是智能体在认为自己已完成任务后，向人类提交的最终交付物套装。

核心作用：

提供证据，而非仅仅是代码。当智能体提交MRP时，它不是在说“我写完了代码”，而是在说：“我已经完成了任务，以下是证明我的成果满足所有要求的证据。

类比理解：

这就像一个开发者在提交PR时，不仅提交代码，还附带详细的说明、测试结果、性能对比数据等，以说服人类审查者这个PR已经达到了合并标准。
包含内容举例：
最终的源代码变更。
自动生成的测试报告和覆盖率。
合规性与安全检查结果。
变更影响分析。

总结与关系图

这六大结构化产物共同构成了一个强大的人机协作闭环：

启动阶段（人 → 智能体）：

人类编写 BriefingScript（任务）、LoopScript（流程）和 MentorScript（规范），并通过 ACE 下达给智能体。

执行阶段（智能体）：

智能体在 AEE 中依据这些脚本执行任务。

交互阶段（智能体 → 人）：

遇到困难时，智能体生成 CRP 寻求指导。
认为任务完成时，生成 MRP 申请合并。

反馈与闭环阶段（人 → 智能体）：

人类在 ACE 中审阅 CRP 和 MRP。
针对 CRP 和 MRP，人类编写 VCR 进行回应（解答、批准或要求修改）。
所有的 VCR 都会作为新版本来更新最初的 BriefingScript 等，使其成为反映最新共识的“活文档”。

BriefingScript/MentorScript/VCR 是人类管理和指导智能体的语言；而 LoopScript/CRP/MRP 是智能体理解和响应人类，并主动沟通的语言。它们共同将散乱的“智能体编码”提升为了可工程化的“智能体软件工程”。

3. 从 Level 0 到 Level 5：SE 的“自动驾驶等级”

类比 SAE 自动驾驶分级，作者给出了 6 级 SE 自动化阶梯，让我们一眼看清自己所处的位置：

Level	名称	人类职责	典型系统	汽车对照
0	Manual Coding	手敲每行代码	Vim/Notepad	无自动化
1	Token Assistance	逐 token 审核	IDE 补全	L1 巡航
2	Task-Agentic	审核整块代码	Copilot	L2 车道保持
3	Goal-Agentic（本文焦点）	定目标+最终 Review	Devin/Claude Code	L3 有条件自动驾驶
4	Specialized Domain Autonomy	设定领域 KPI	GPT-5-Frontend 专精	L4 区域无人车
5	General Domain Autonomy	设定公司级目标	尚不存在	L5 全域无人车

行业共识：Level 3 是当前最紧迫的战场。 Level 4/5 需要大量 Level 3 的实践数据与治理框架才能演进。

4. 真实案例：7 张工单，28 个 PR，1.5 小时人类投入

作者用一位“超级开发者”的实际工作流展示了 SE 3.0 的日常：

人类在 ACE 中写 7 份 BriefingScript（每张 10~15 分钟）。
智能体群在 AEE 里并行生成 4×7=28 个 PR（N-version programming 回归）。
人类在 ACE 的可视化面板里按风险/成本/创新度排序，接受或回退。
对 3 张工单需要细化，智能体主动发出 Consultation Request Pack（CRP）。
人类用 Version Controlled Resolution（VCR）回复，形成新的 LoopScript。
最终 Merge-Readiness Pack（MRP）被合并，所有 artifact 自动版本化，成为团队“集体记忆”。

该流程把“编码”时间压缩到近乎 0，把人类精力集中到 意图、策略、风险评估。

5. 为什么传统 IDE 已死？ACE vs. AEE 设计要点

特性	ACE（人的驾驶舱）	AEE（智能体的工作台）
核心设计目标	意图可视化、成本洞察、审计追踪	高并发、确定性、可观测
关键视图	事件收件箱、成本仪表盘、VCR 时间线	任务 DAG、资源池、沙盒日志
交互粒度	语义级（一个业务目标）	语法级（一次测试运行）
集成示例	Jira + 成本会计 + LLM 审计	K8s + 无服务器 + 弹性沙盒

一句话：ACE 像 IDE + Jira + CFO Dashboard，AEE 像 CI 集群 + 1000 个永不疲倦的实习生。

6. 研究路线图：四大挑战 + 教育冲击

作者没有只给愿景，而是列出了可落地的研究议程：

可信合成（Trustworthy Synthesis）

如何让 MRP 自带“证据链”：测试、形式化验证、变更影响分析一键打包？
需要新的 DSL 描述“可验证的意图”。

可扩展 Review（Scalable Review）

当 PR 量 > 人眼极限时，如何用“元 Review 智能体”做分层过滤？
需要新的 Review 博弈论模型与经济学激励。

上下文迁移（Onboarding & Context Transfer）

新人加入团队需要 2 周读文档，智能体能否 5 分钟完成？
需要可执行的“团队知识图谱” + 动态 LoopScript 生成。

成本-质量 Pareto 前沿（Cost-Quality Frontier）

如何用 RL 在“token 预算”内找到最优 N-version 配置？
需要在线强化学习 + 实时云成本 API。

教育冲击：

CS 课程将从“写代码”转向“写 BriefingScript + 调试智能体”。
作业评分标准从“程序能通过测试”变为“程序能让 3 个智能体在 5 分钟内通过测试，且 token 花费最低”。

7. 工程师的 3 个立即行动项

把需求写成结构化的 BriefingScript：用 Markdown 模板固定“背景-目标-验收-边界-反例”。
在 CI 里加一道 “Agent Budget Gate”：当 PR 的 token 花费 > 阈值，自动打回重写。
把 Review Checklist 机器可读化：变成可执行的 Rego/Starlark 脚本，让 Review 智能体先跑一遍。

8. 结语：从 10x Developer 到 100x Agent Coach

“未来最值钱的技能不是写代码，而是写出能让 1000 个智能体协同工作的元指令。”

Agentic SE 不是科幻，而是正在进行时。本文的价值在于：

把草根实践上升为可传授、可度量、可治理的工程学；
给出一张“从 Level 2 到 Level 3”的作战地图；
提前指出“速度 vs. 信任”瓶颈的系统性解法。

「如果这篇文章对你有用,请随意打赏」

从“人写代码”到“人与智能体共工程”：一份面向工程实践的《Agentic Software Engineering》深度解读

从“人写代码”到“人与智能体共工程”：一份面向工程实践的《Agentic Software Engineering》深度解读

1. 为什么你现在就该关心 Agentic SE？

2. 一张图看懂 SE 3.0 的“双模态”世界观

面向人的软件工程（SE4H）产物

1. BriefingScript - 任务简报脚本

2. MentorScript - 导师脚本

3. Version Controlled Resolutions - 版本控制解决方案

面向智能体的软件工程（SE4A）产物

4. LoopScript - 循环脚本

5. Consultation Request Pack - 咨询请求包

6. Merge-Readiness Pack - 合并就绪包

总结与关系图

3. 从 Level 0 到 Level 5：SE 的“自动驾驶等级”

4. 真实案例：7 张工单，28 个 PR，1.5 小时人类投入

5. 为什么传统 IDE 已死？ACE vs. AEE 设计要点

6. 研究路线图：四大挑战 + 教育冲击

7. 工程师的 3 个立即行动项

8. 结语：从 10x Developer 到 100x Agent Coach

CATALOG

FEATURED TAGS

FRIENDS