导 语
随着大语言模型(LLM)在代码生成领域不断突破,AI 正在从“代码补全工具”逐步迈向真正的“自动化软件工程师”。然而,一个核心问题始终没有被真正解决:
AI 能否像人类开发者一样,从零开始独立构建完整的软件仓库(Repository)?
近日,北京大学与百度联合提出了全新的代码生成基准——RepoZero,首次为“从零生成完整代码仓库”提供了可验证、可扩展、自动化的评测框架,为 AI 软件工程研究打开了新的方向。
主页:
https://repozero.osslab-pku.org/
代码:https://github.com/JesseZZZZZ/RepoZero
论文:https://arxiv.org/abs/2605.07122
◈从“写函数”到“造系统”
过去的大多数代码评测任务,例如 HumanEval、SWE-bench 等,主要关注:
单个函数生成 Bug 修复 小规模仓库编辑
而真实的软件开发远不止如此。
一个完整的软件仓库往往涉及:
多文件协作 模块依赖 API 设计 长程逻辑一致性 自动测试与调试
RepoZero 关注的正是这一更具挑战性的目标:
让 AI 在没有现成代码的情况下,仅依据 API 描述,重新实现整个代码仓库。
这意味着,AI 不再只是“补代码”,而是真正参与“软件构建”。
◈RepoZero:首个可验证的仓库级生成基准
RepoZero 的核心创新,在于提出了“仓库复现(Repository Reproduction)”任务。
系统会提供:
API 功能说明 少量示例测试 输入输出规范
随后,AI 需要:
从零生成完整项目结构 编写多个模块代码 保持跨文件逻辑一致 最终通过隐藏测试集验证
与传统依赖人工评分或 LLM 打分不同,RepoZero 使用真实执行结果进行严格验证:
只有生成仓库的输出与原始仓库完全一致,才算成功。
这一机制显著提升了评测的客观性与可信度。

◈双语言跨域挑战:防止“背答案”
为了避免模型直接记忆 GitHub 代码,RepoZero 引入了极具挑战性的“跨语言生成”机制。
目前包含两个核心任务:
◽Py2JS
将 Python 仓库重新实现为 JavaScript
◽C2Rust
将 C/C++ 仓库重新实现为 Rust
同时,系统严格禁止:
调用原语言运行时 使用桥接工具 引入外部依赖库
这意味着模型必须真正理解算法与系统逻辑,而不是简单“复制粘贴”。

◈ACE:让 AI 学会“自己测试自己”
除了基准本身,论文还提出了一套重要框架:Agentic Code-Test Evolution(ACE)
ACE 的核心思想是:
AI 不仅写代码,还要自己生成测试、运行测试、分析错误、并持续修复。
整个流程形成: “代码生成 → 自动测试 → 错误反馈 → 代码修复” 的闭环。
实验表明:
这也意味着:
加入 ACE 后,模型性能显著提升 多轮“代码—测试”迭代可明显提高最终通过率 自验证能力正在成为未来 AI 编程 Agent 的关键能力
这也意味着:未来真正强大的 AI 程序员,不只是“会写代码”,而是“会调试、会验证、会自我修正”。
◈当前最强模型,依然远未达到人类水平

RepoZero 的实验结果也揭示了一个重要现实:
即便是当前最先进的大模型与 Agent 框架,在完整仓库生成任务上的成功率仍然有限。
在最困难任务中:
很多模型通过率仅为 20%~40% 即使顶级模型 Claude-4.6-Sonnet,也远未达到可靠软件工程水平
主要失败原因包括:
长上下文遗忘 模块协作错误 输出不一致 测试覆盖不足
这表明:“真正的软件工程智能”仍然是 AI 领域尚未攻克的重要难题。
◈推动下一代 AI 软件工程研究
RepoZero 的意义不仅在于一个新 benchmark,更在于它重新定义了:“AI 软件工程能力”该如何评估。
它同时具备:
自动化 可扩展 可复现 可严格验证 抗数据泄漏
等关键特性。
论文作者认为,未来 AI 编程研究的重要方向包括:
仓库级长程推理 自动测试生成 自验证能力 多文件协同生成 软件架构一致性
RepoZero 为这些研究提供了统一而可靠的实验平台。
◈结语
从代码补全,到自动修 Bug,再到从零构建完整软件仓库,AI 正在快速逼近真正的软件工程能力。
而 RepoZero 的提出,意味着:
AI Coding 正正式进入“Repository-Level Generation”时代。
未来,能够“自主开发完整软件系统”的 AI Agent,也许将不再只是科幻设想。

