让AI看清原子世界，人大高瓴黄文炳团队联合南大、华为、清华等单位提出晶体结构预测孪生基座模型

将 ScienceAI 设为星标

第一时间掌握

新鲜的 AI for Science 资讯

作者 | 论文团队

编辑丨ScienceAI

晶体，是材料世界的「原子建筑」。从超导体到催化剂，从铁电材料到半导体，晶体的性质由其原子的三维排列决定。然而，仅凭化学式预测晶体结构这一被称为「晶体结构预测」（Crystal Structure Prediction, CSP）的问题，自上世纪 50 年代提出以来始终是材料科学的一个基础性难题。如果说 AlphaFold 系列让蛋白质折叠问题取得了重要进展，那么晶体结构预测则仍面临更多挑战。与蛋白质不同，晶体的几何结构更为复杂：周期性边界条件、多晶型现象、旋转对称性约束…… 这些都让 CSP 成为一块难啃的「硬骨头」。

为此，中国人民大学高瓴人工智能学院黄文炳副教授团队联合南京大学、华为技术有限公司以及清华大学，在《自然 - 通讯》（Nature Communications）发表了题为《Siamese Foundation Models for Crystal Structure Prediction》的文章，并入选了 Inorganic and Physical Chemistry 方向的 Editors’ Highlights（该领域仅推荐 50 篇）。论文的第一作者吴黎明现为中国人民大学高瓴人工智能学院三年级博士生，导师为黄文炳副教授。

该工作提出了 DAO（Diffusion-based crystAl Omni），一个面向晶体结构预测的孪生基础模型框架，在权威的晶体结构预测榜单 MP-20 和 MPTS-52 上显著超越现有最好模型，且在多晶型体系的生成任务上也表现出卓越的性能。此外，DAO 在三个传统计算难以处理的真实超导体（Cr₆Os₂、Zr₁₆Rh₈O₄、Zr₁₆Pd₈O₄）上同样表现出色。对于 Cr₆Os₂，DAO 在 20 次生成中实现了与实验参考 100% 的匹配率，原子位置误差仅为 0.0012，且每轮迭代速度比基于 DFT 的结构预测方法快 2000 倍以上。对于另外两个更大体系的超导，不仅取得了较低的原子位置误差，超导温度预测也同样精准（误差为 0.26K 和 0.04K）。这些结果充分展示了该工作推动材料科学研究的潜力。

论文链接：https://www.nature.com/articles/s41467-026-72362-3

代码链接：https://github.com/GLAD-RUC/DAO

项目主页：https://glad-ruc.github.io/DAO/

一、核心问题：为什么 CSP 这么难？

晶体结构预测的目标是：给定化学式，直接预测其稳定的三维原子排列。这之所以困难，有三个主要原因：

1. 搜索空间巨大。原子坐标和晶格参数构成连续高维空间，且需要满足周期性约束，搜索空间随原子数增加而快速增长。

2. 几何约束严格。晶体结构必须满足 O (3) 旋转等变性和周期平移不变性，这对模型设计提出了特定要求。

3. 训练数据有限。现有深度生成模型多在 MP-20 等小规模数据集上训练，难以学到足够多样的结构模式，对未见结构的泛化能力受限。

近年来的深度学习方法在 CSP 上取得了一些进展，但受限于小数据集和模型能力，在更复杂的 MPTS-52 等基准上的表现仍有较大提升空间。

二、DAO 框架：两个模型，一个目标

DAO 的核心思想是：用两个互补的基础模型协同处理 CSP。

DAO-G（Generator）：负责从化学式生成晶体结构，基于扩散生成模型训练。
DAO-P（Predictor）：负责预测晶体能量，辅助 DAO-G 进行数据优化和生成引导。

两个模型共享同一个骨干网络 Crysformer，这是一种几何图 Transformer，满足晶体结构的对称性需求。

图1：DAO 框架示意图：DAO-G 与 DAO-P 的预训练 - 微调流程，以及两者在数据优化与能量引导中的协同机制。

三、CrysDB：近百万级晶体预训练数据集

基础模型的效果与数据规模密切相关。团队从 Materials Project 和 OQMD 两大开源数据库中，整合构建了 CrysDB: 包含约 94 万条稳定与不稳定晶体及其能量标注。经过严格的去重处理（避免下游测试数据泄漏），最终得到 919,258 条训练数据。

CrysDB 的一个特点是同时包含稳定和不稳定结构：OQMD 子集中 71% 为不稳定结构，MP 子集中 45% 为不稳定结构。这一设计使模型能够学习更广泛的能量景观分布，而非仅局限于稳定区域。

图2：CrysDB 数据集统计：来源分布、稳定 / 不稳定比例、能量分布、体积分布、原子数分布及元素覆盖。

四、两阶段预训练：从「见多识广」到「精益求精」

DAO-G 的预训练分两个阶段进行：

第一阶段：见多识广。在 CrysDB 的全部数据（含大量不稳定结构）上训练 DAO-G，使其学到更广泛的晶体结构分布。同时，DAO-P 也在 CrysDB 上进行混合监督预训练 —— 结合扩散自监督损失和指数能量监督损失，后者在理论上被证明可以收敛到真实的中间态能量。

第二阶段：精益求精。利用 DAO-P 对不稳定结构进行「松弛」—— 计算能量梯度并使用 L-BFGS 优化器将高能结构推向更稳定的构型。DAO-G 在松弛后的数据集上继续训练，缓解对不稳定区域的偏向。

这种「训练 - 松弛 - 再训练」的范式，将不稳定数据的丰富性与稳定结构的质量结合起来。

五、能量引导采样：引导生成趋向稳定

经过两阶段预训练后，生成过程中仍可能出现不稳定结构。为此，DAO 引入了能量引导采样机制：

在 DAO-G 的采样过程中，DAO-P 实时预测当前结构的能量，并通过梯度引导采样方向。受玻尔兹曼分布启发，这一引导等价于将原始数据分布与能量势函数加权，使低能（稳定）结构被采样的概率增大。

实验表明，能量引导使 MPTS-52 上的 RMSE 从 0.0695 降至 0.0688，稳定性从 73.75% 提升至 75.05%。

六、实验结果：两大基准上取得领先匹配率

在 MP-20 和 MPTS-52 两个常用 CSP 基准上的实验结果：

表1：在 MP-20 和 MPTS-52 上的实验结果。

几个值得关注的发现：

预训练的价值：大规模预训练将 DAO-G 在 MP-20 数据集上的匹配率从 51.55% 提升至 65.60%。FlowMM 同样从预训练中获益显著。
Crysformer 的作用：DAO-G 在几乎所有指标上均优于 DiffCSP-large。采用 Crysformer 的 FlowMM 在匹配率上也超越了 FlowMM-large。
大体系泛化：虽然 MatterGen 在 MP-20 上略占优势，但 DAO-G 在 MPTS-52 上取得了更高的匹配率（32.52% 对比 30.28%），展现出对更大原子体系的更好扩展能力。
流匹配的优势：用流匹配替代扩散模型，在 MP-20 和 MPTS-52 上分别取得了 74.17% 和 42.01% 的最佳匹配率。

此外，DAO-G 在多晶型结构生成上表现较好：对于 2 晶型、3 晶型和 4 晶型体系，「全部成功生成」的比例分别达到 72.2%、54.5% 和 81.8%。

图3：DAO-G 在多晶型上的生成结果。

七、真实超导体验证

团队将 DAO 应用于三种真实超导体: Cr₆Os₂、Zr₁₆Rh₈O₄和 Zr₁₆Pd₈O₄。这三种材料在预训练和微调阶段均未出现过，可用于验证模型对真实材料的预测性能和泛化能力。

图4：超导体验证：DAO-G 预测三种真实超导体结构，DAO-P 估计临界温度，与 DFT 方法的速度对比。

Cr₆Os₂（A15 结构）：DAO-G 在 20 次生成中实现了 100% 的匹配率和 0.0012 的 RMSE。DFT 计算验证，生成结构的 E_hull 为 0.02918 eV/atom，与实验值 0.02916 仅差 0.00002。值得注意的是，虽然预训练数据中存在不稳定的 Cr₆Os₂结构，DAO-G 并未简单复现它们，而是倾向于生成稳定的超导结构，这表明模型学到了对稳定结构分布的条件建模，而非单纯的记忆。

Zr₁₆Pd₈O₄（η- 碳化物结构）：具有刚性 Wyckoff 占位和几何受挫的星四角晶格，DAO-G 以 0.0172 的 RMSE 生成了结构。

Zr₁₆Rh₈O₄：仅将 Pd 替换为 Rh 导致晶格常数变化约 0.5%，却使超导转变温度从 2.73K 升至 3.73K。DAO-G 捕捉到了这一细微差异，RMSE 为 0.0212。

在临界温度 Tc 预测方面，DAO-P 的绝对误差分别为 2.02K（Cr₆Os₂）、0.26K（Zr₁₆Rh₈O₄）和 0.04K（Zr₁₆Pd₈O₄）。

与 DFT 的速度对比：对于 Cr₆Os₂，Quantum Espresso（QE）优化器完成 38 次迭代需要约 138 分钟，而 DAO-G 完成 1000 次采样仅需 1.5 分钟，单次迭代速度差距超过 2000 倍。不过需要指出，DFT 和生成模型解决的问题性质不同：DFT 是物理级别的能量优化，而 DAO-G 是数据驱动的结构生成，两者并非完全等价的替代关系。

八、协同效应：DAO-G 与 DAO-P 互相增益

DAO 框架的一个设计特点是两个模型的协同效应：

DAO-P 辅助 DAO-G：通过数据松弛和能量引导采样，DAO-P 使 DAO-G 能从不稳定数据中获益而不被其误导。
DAO-G 增强 DAO-P：当结构信息缺失时，DAO-G 可以为 DAO-P 生成结构数据，增强下游属性预测。在超导体 Tc 预测任务中，使用 DAO-G 生成的结构进行数据增强，将 MAE（logK）从 0.761 降至 0.714。

此外，DAO-P 在晶体属性预测任务中也展现了一定的迁移能力，在 8 个数据集中的 4 个上取得了最优结果，另外 3 个进入前三。

九、局限与展望

DAO 展示了基础模型在晶体结构预测中的潜力，但仍存在明显局限：

大体系性能仍需提升：当前预训练数据仅包含 3-30 个原子的晶体，MPTS-52 上的 20-shot 匹配率仅为 46.78%，扩展至更大体系的预训练数据有望改善。
超导体案例有限：目前仅在三种超导体上进行了验证，更广泛的实验验证仍在进行中。
从预测到设计的距离：从「预测已知材料的结构」到「设计具有目标属性的新材料」，仍有本质性的跨越。

后续工作中，团队计划扩展预训练数据规模、探索更先进的生成范式，并尝试面向特定属性（如高温超导性）的材料设计。

当 AI 不仅能够「看见」原子世界，还能「设计」原子世界，材料科学的下一个黄金时代或许正在到来。

人工智能 × [ 生物神经科学数学物理化学材料 ]

「ScienceAI」关注人工智能与其他前沿技术及基础科学的交叉研究与融合发展。

欢迎关注标星，并点击右下角点赞和在看。

点击阅读原文，加入专业从业者社区，以获得更多交流合作机会及服务。

菜单

分享

让AI看清原子世界，人大高瓴黄文炳团队联合南大、华为、清华等单位提出晶体结构预测孪生基座模型

中国智能驾驶技术行业发展现状及前景研究报告

盐城市大丰区招商局朱金瑜局长一行来访五度易链，聚焦大数据精准招商

中国智能座舱行业市场现状及发展趋势研究报告

2021厦门投洽会 | “五度易链”创始人金永顺博士：数据驱动产业高质量发展！

2026年中国汽车芯片行业市场现状与发展前景研究报告

Y12T110 广州港科大：偏振无关角度无关的垂直耦合光栅

心梗猝死来临前的6个求救信号别忽视！记住这些关键时刻能救命

中国新能源汽车行业市场现状与未来发展趋势研究报告

“笃威尔数字技术”受邀出席2024 H-Tech Data创新情报论坛！

喜报 | “北京笃威尔数字技术有限公司”获评2024年国家高新技术企业