北大提出首个可验证的仓库级生成基准RepoZero，评测LLM能否从0生成一个代码仓库

导语

投稿来自北京大学与百度联合团队，他们提出了首个面向“从零生成完整代码仓库”的评测基准 RepoZero，通过跨语言复现任务与自验证框架 ACE，推动代码补全更近一步迈向自动化软件工程。

随着大语言模型（LLM）在代码生成领域不断突破，AI 正在从“代码补全工具”逐步迈向真正的“自动化软件工程师”。然而，一个核心问题始终没有被真正解决：

AI 能否像人类开发者一样，从零开始独立构建完整的软件仓库（Repository）？

近日，北京大学与百度联合提出了全新的代码生成基准——RepoZero，首次为“从零生成完整代码仓库”提供了可验证、可扩展、自动化的评测框架，为 AI 软件工程研究打开了新的方向。

主页：
https://repozero.osslab-pku.org/
代码：
https://github.com/JesseZZZZZ/RepoZero
论文：
https://arxiv.org/abs/2605.07122

◈从“写函数”到“造系统”

过去的大多数代码评测任务，例如 HumanEval、SWE-bench 等，主要关注：

单个函数生成
Bug 修复
小规模仓库编辑

而真实的软件开发远不止如此。

一个完整的软件仓库往往涉及：

多文件协作
模块依赖
API 设计
长程逻辑一致性
自动测试与调试

RepoZero 关注的正是这一更具挑战性的目标：

让 AI 在没有现成代码的情况下，仅依据 API 描述，重新实现整个代码仓库。

这意味着，AI 不再只是“补代码”，而是真正参与“软件构建”。

◈RepoZero：首个可验证的仓库级生成基准

RepoZero 的核心创新，在于提出了“仓库复现（Repository Reproduction）”任务。

系统会提供：

API 功能说明
少量示例测试
输入输出规范

随后，AI 需要：

从零生成完整项目结构
编写多个模块代码
保持跨文件逻辑一致
最终通过隐藏测试集验证

与传统依赖人工评分或 LLM 打分不同，RepoZero 使用真实执行结果进行严格验证：

只有生成仓库的输出与原始仓库完全一致，才算成功。

这一机制显著提升了评测的客观性与可信度。

◈双语言跨域挑战：防止“背答案”

为了避免模型直接记忆 GitHub 代码，RepoZero 引入了极具挑战性的“跨语言生成”机制。

目前包含两个核心任务：

◽Py2JS

将 Python 仓库重新实现为 JavaScript

◽C2Rust

将 C/C++ 仓库重新实现为 Rust

同时，系统严格禁止：

调用原语言运行时
使用桥接工具
引入外部依赖库

这意味着模型必须真正理解算法与系统逻辑，而不是简单“复制粘贴”。

◈ACE：让 AI 学会“自己测试自己”

除了基准本身，论文还提出了一套重要框架：Agentic Code-Test Evolution（ACE）

ACE 的核心思想是：

AI 不仅写代码，还要自己生成测试、运行测试、分析错误、并持续修复。

整个流程形成： “代码生成 → 自动测试 → 错误反馈 → 代码修复” 的闭环。

实验表明：

这也意味着：

加入 ACE 后，模型性能显著提升
多轮“代码—测试”迭代可明显提高最终通过率
自验证能力正在成为未来 AI 编程 Agent 的关键能力

这也意味着：未来真正强大的 AI 程序员，不只是“会写代码”，而是“会调试、会验证、会自我修正”。

◈当前最强模型，依然远未达到人类水平

RepoZero 的实验结果也揭示了一个重要现实：

即便是当前最先进的大模型与 Agent 框架，在完整仓库生成任务上的成功率仍然有限。

在最困难任务中：

很多模型通过率仅为 20%～40%
即使顶级模型 Claude-4.6-Sonnet，也远未达到可靠软件工程水平

主要失败原因包括：

长上下文遗忘
模块协作错误
输出不一致
测试覆盖不足

这表明：“真正的软件工程智能”仍然是 AI 领域尚未攻克的重要难题。

◈推动下一代 AI 软件工程研究

RepoZero 的意义不仅在于一个新 benchmark，更在于它重新定义了：“AI 软件工程能力”该如何评估。

它同时具备：

自动化
可扩展
可复现
可严格验证
抗数据泄漏

等关键特性。

论文作者认为，未来 AI 编程研究的重要方向包括：

仓库级长程推理
自动测试生成
自验证能力
多文件协同生成
软件架构一致性

RepoZero 为这些研究提供了统一而可靠的实验平台。

◈结语

从代码补全，到自动修 Bug，再到从零构建完整软件仓库，AI 正在快速逼近真正的软件工程能力。

而 RepoZero 的提出，意味着：

AI Coding 正正式进入“Repository-Level Generation”时代。

未来，能够“自主开发完整软件系统”的 AI Agent，也许将不再只是科幻设想。

菜单

分享

北大提出首个可验证的仓库级生成基准RepoZero，评测LLM能否从0生成一个代码仓库

◈从“写函数”到“造系统”

◈RepoZero：首个可验证的仓库级生成基准

◈双语言跨域挑战：防止“背答案”

◽Py2JS

◽C2Rust

◈ACE：让 AI 学会“自己测试自己”

◈当前最强模型，依然远未达到人类水平

◈推动下一代 AI 软件工程研究

◈结语

中国智能驾驶技术行业发展现状及前景研究报告

盐城市大丰区招商局朱金瑜局长一行来访五度易链，聚焦大数据精准招商

中国智能座舱行业市场现状及发展趋势研究报告

2021厦门投洽会 | “五度易链”创始人金永顺博士：数据驱动产业高质量发展！

2026年中国汽车芯片行业市场现状与发展前景研究报告

Y12T110 广州港科大：偏振无关角度无关的垂直耦合光栅

心梗猝死来临前的6个求救信号别忽视！记住这些关键时刻能救命

中国新能源汽车行业市场现状与未来发展趋势研究报告

“笃威尔数字技术”受邀出席2024 H-Tech Data创新情报论坛！

喜报 | “北京笃威尔数字技术有限公司”获评2024年国家高新技术企业