清华大学发布ProteinOPD：面向蛋白质设计的高效多目标偏好对齐框架

将 ScienceAI 设为星标

第一时间掌握

新鲜的 AI for Science 资讯

作者 | 论文团队

编辑丨ScienceAI

当前，蛋白质语言模型正从「生成合理蛋白序列」逐步走向「按需生成具有特定性质的蛋白序列」。在合成生物学和药物发现等场景中，研究者往往不只希望模型生成结构合理的蛋白，还希望候选序列同时具备更高折叠性、更好溶解性、更强热稳定性等多种属性。然而，多目标蛋白质偏好对齐长期面临核心挑战：在提升目标属性的同时，模型容易遗忘预训练阶段获得的蛋白设计能力，并且难以在多个相互竞争的偏好目标之间取得稳定平衡。

近日，清华大学高子琪团队联合 IDEA AI4S 团队提出 ProteinOPD，该工作的主要贡献如下：

1. 解决蛋白质偏好对齐中的多目标难点。ProteinOPD 是一个面向蛋白质设计的高效多目标偏好对齐框架，在提升目标属性的同时，保留蛋白语言模型原有的设计能力与生成分布质量。

2. 提出多教师 OPD 的一种有效实现形式。该方法将预训练蛋白语言模型适配为多个偏好专属教师，并通过 normalized Product-of-Experts 构造几何共识分布，使学生模型能够在自身生成轨迹上接受 token-level on-policy distillation，从而将 OPD 从单教师、单目标设置扩展到多教师、多目标偏好对齐场景。

3. 提供较完整的开源支持。项目已开放论文、代码、项目主页和 Colab 体验入口，覆盖无条件生成与条件生成两类设置，并提供教师构建、ProteinOPD 训练、序列生成和推理体验等关键流程，便于社区复现与后续扩展。

论文地址：https://arxiv.org/abs/2605.10189

开源地址：https://github.com/THU-AI4S/ProteinOPD

Colab 链接：https://colab.research.google.com/github/THU-AI4S/ProteinOPD/blob/main/notebooks/proteinopd_inference.ipynb

在模型表现方面，ProteinOPD 在多目标场景下取得了最优偏好对齐表现，同时对设计能力造成的损伤最小。以 ProtGPT2 为基础模型时，ProteinOPD 分别将 foldability、solubility 和 thermostability 提升 14.8%、16.9% 与 54.2%；同时，其偏好对齐性能可在约 1/8 的训练时间内达到 RL 方法的水平。

方法设计

ProteinOPD 的思路是将「偏好获取」和「偏好组合」解耦。首先，针对折叠性、溶解性、热稳定性等目标偏好，框架使用属性 oracle 对蛋白序列进行打分，并选取少量高分样本构建偏好专属训练集。随后，通过轻量化适配，将预训练蛋白语言模型转化为多个偏好专属教师。每个教师负责提供一种偏好的生成方向，而不是要求单个模型同时承担全部目标。

在学生训练阶段，ProteinOPD 不采用传统离线模仿方式，而是在学生模型自己的生成轨迹上进行 on-policy distillation。具体而言，学生模型先生成当前会访问的蛋白序列前缀，教师模型再基于这些前缀给出下一 token 的概率分布。相比只在固定数据集上训练，这种机制能够让学生在自身实际访问的状态空间中获得纠正信号，从而缓解训练阶段与生成阶段的分布不一致问题。同时，token-level 分布监督也比序列级奖励更密集，有助于提升训练效率和稳定性。

对于多目标偏好对齐，ProteinOPD 的关键设计是多教师 OPD。研究团队将多个偏好教师的 next-token 分布通过 normalized Product-of-Experts 进行组合，形成一个几何共识目标。与算术平均不同，几何共识更强调多个教师共同支持的 token：只有当多个偏好教师都倾向于某个氨基酸选择时，该 token 才会在共识分布中获得更高权重。这一设计使模型更倾向于寻找多种偏好之间的交集，而不是被某一个目标单独牵引。

这一机制还带来一个重要性质：归一化项可以反映教师之间的分歧程度。当多个教师在某个序列前缀上意见一致时，目标偏好之间冲突较小；当教师分布明显不一致时，冲突程度增大。因此，ProteinOPD 不仅提供了多教师偏好组合的训练目标，也为观察多属性之间的内部竞争提供了一个无需额外计算的信号。

模型性能

1. 多目标偏好对齐取得帕累托最优。(1) 相比评估中最强的跨范式参考方法 MoMPNN，ProteinOPD 的 HV 提升 34.8%。(2) 与基础模型 ProtGPT2 相比，ProteinOPD 分别将蛋白可折叠性、溶解性和热稳定性提升 14.8%、16.9% 与 54.2%。

论文主表：无条件设置下多目标偏好对齐性能对比。

2. 单目标实验显示 ProteinOPD 能够转移 SFT 教师的偏好能力同时缓解直接微调造成的蛋白设计能力的下降。(1) 在无条件生成中，ProteinOPD 在保留大部分属性收益的同时，将新颖性损失控制在更低水平。(2) 在条件生成中，ProteinOPD 还提升了 ProTrek Score，说明模型在偏好对齐过程中没有破坏原有条件一致性。

3. 训练成本大幅降低。(1) ProteinOPD 相比 RL 类方法可以更快提升热稳定性，并取得约 8 倍训练加速。 (2) 教师构建只需要少量经 oracle 筛选的高质量样本，使整体流程更适合实际蛋白设计中的快速迭代需求。

样例研究

论文进一步给出了 ProteinOPD 与 ASPO 的生成样例对比。为确保比较集中在多属性对齐能力上，作者选取热稳定性均超过 0.95 的样例，并要求生成序列与 UniRef 的最大序列一致性低于 5%。在可视化结果中，ProteinOPD 生成样例的 pLDDT 达到 0.73，高于 ASPO 的 0.49；溶解性得分达到 0.69，高于 ASPO 的 0.43。这表明 ProteinOPD 不仅能提升单一属性，还能在保持新颖性的同时实现更有效的多属性对齐。

ProteinOPD 为蛋白质偏好对齐提供了一条高效路径：用轻量教师学习单一偏好，用多教师几何共识处理目标冲突，再通过学生自身轨迹上的 token-level OPD 完成稳定迁移。该工作将 OPD 从语言模型偏好对齐拓展到蛋白质设计场景，并进一步推进到多目标、多教师设置，为生成式蛋白设计中的高效偏好对齐提供了新的技术参考。

人工智能 × [ 生物神经科学数学物理化学材料 ]

「ScienceAI」关注人工智能与其他前沿技术及基础科学的交叉研究与融合发展。

欢迎关注标星，并点击右下角点赞和在看。

点击阅读原文，加入专业从业者社区，以获得更多交流合作机会及服务。

菜单

分享

清华大学发布ProteinOPD：面向蛋白质设计的高效多目标偏好对齐框架

中国智能驾驶技术行业发展现状及前景研究报告

盐城市大丰区招商局朱金瑜局长一行来访五度易链，聚焦大数据精准招商

中国智能座舱行业市场现状及发展趋势研究报告

2021厦门投洽会 | “五度易链”创始人金永顺博士：数据驱动产业高质量发展！

2026年中国汽车芯片行业市场现状与发展前景研究报告

Y12T110 广州港科大：偏振无关角度无关的垂直耦合光栅

心梗猝死来临前的6个求救信号别忽视！记住这些关键时刻能救命

中国新能源汽车行业市场现状与未来发展趋势研究报告

“笃威尔数字技术”受邀出席2024 H-Tech Data创新情报论坛！

喜报 | “北京笃威尔数字技术有限公司”获评2024年国家高新技术企业