lch
发布于 2026-05-19 / 0 阅读
0

清华大学发布ProteinOPD:面向蛋白质设计的高效多目标偏好对齐框架


将 ScienceAI 设为星标

第一时间掌握

新鲜的 AI for Science 资讯


作者 | 论文团队
编辑丨ScienceAI

当前,蛋白质语言模型正从「生成合理蛋白序列」逐步走向「按需生成具有特定性质的蛋白序列」。在合成生物学和药物发现等场景中,研究者往往不只希望模型生成结构合理的蛋白,还希望候选序列同时具备更高折叠性、更好溶解性、更强热稳定性等多种属性。然而,多目标蛋白质偏好对齐长期面临核心挑战:在提升目标属性的同时,模型容易遗忘预训练阶段获得的蛋白设计能力,并且难以在多个相互竞争的偏好目标之间取得稳定平衡。

近日,清华大学高子琪团队联合 IDEA AI4S 团队提出 ProteinOPD,该工作的主要贡献如下:

1. 解决蛋白质偏好对齐中的多目标难点。ProteinOPD 是一个面向蛋白质设计的高效多目标偏好对齐框架,在提升目标属性的同时,保留蛋白语言模型原有的设计能力与生成分布质量。

2. 提出多教师 OPD 的一种有效实现形式。该方法将预训练蛋白语言模型适配为多个偏好专属教师,并通过 normalized Product-of-Experts 构造几何共识分布,使学生模型能够在自身生成轨迹上接受 token-level on-policy distillation,从而将 OPD 从单教师、单目标设置扩展到多教师、多目标偏好对齐场景。

3. 提供较完整的开源支持。项目已开放论文、代码、项目主页和 Colab 体验入口,覆盖无条件生成与条件生成两类设置,并提供教师构建、ProteinOPD 训练、序列生成和推理体验等关键流程,便于社区复现与后续扩展。

论文地址:https://arxiv.org/abs/2605.10189

开源地址:https://github.com/THU-AI4S/ProteinOPD

Colab 链接:https://colab.research.google.com/github/THU-AI4S/ProteinOPD/blob/main/notebooks/proteinopd_inference.ipynb

在模型表现方面,ProteinOPD 在多目标场景下取得了最优偏好对齐表现,同时对设计能力造成的损伤最小。以 ProtGPT2 为基础模型时,ProteinOPD 分别将 foldability、solubility 和 thermostability 提升 14.8%、16.9% 与 54.2%;同时,其偏好对齐性能可在约 1/8 的训练时间内达到 RL 方法的水平。

方法设计

ProteinOPD 的思路是将「偏好获取」和「偏好组合」解耦。首先,针对折叠性、溶解性、热稳定性等目标偏好,框架使用属性 oracle 对蛋白序列进行打分,并选取少量高分样本构建偏好专属训练集。随后,通过轻量化适配,将预训练蛋白语言模型转化为多个偏好专属教师。每个教师负责提供一种偏好的生成方向,而不是要求单个模型同时承担全部目标。

在学生训练阶段,ProteinOPD 不采用传统离线模仿方式,而是在学生模型自己的生成轨迹上进行 on-policy distillation。具体而言,学生模型先生成当前会访问的蛋白序列前缀,教师模型再基于这些前缀给出下一 token 的概率分布。相比只在固定数据集上训练,这种机制能够让学生在自身实际访问的状态空间中获得纠正信号,从而缓解训练阶段与生成阶段的分布不一致问题。同时,token-level 分布监督也比序列级奖励更密集,有助于提升训练效率和稳定性。

对于多目标偏好对齐,ProteinOPD 的关键设计是多教师 OPD。研究团队将多个偏好教师的 next-token 分布通过 normalized Product-of-Experts 进行组合,形成一个几何共识目标。与算术平均不同,几何共识更强调多个教师共同支持的 token:只有当多个偏好教师都倾向于某个氨基酸选择时,该 token 才会在共识分布中获得更高权重。这一设计使模型更倾向于寻找多种偏好之间的交集,而不是被某一个目标单独牵引。

这一机制还带来一个重要性质:归一化项可以反映教师之间的分歧程度。当多个教师在某个序列前缀上意见一致时,目标偏好之间冲突较小;当教师分布明显不一致时,冲突程度增大。因此,ProteinOPD 不仅提供了多教师偏好组合的训练目标,也为观察多属性之间的内部竞争提供了一个无需额外计算的信号。

模型性能

1. 多目标偏好对齐取得帕累托最优。(1) 相比评估中最强的跨范式参考方法 MoMPNN,ProteinOPD 的 HV 提升 34.8%。(2) 与基础模型 ProtGPT2 相比,ProteinOPD 分别将蛋白可折叠性、溶解性和热稳定性提升 14.8%、16.9% 与 54.2%。

论文主表:无条件设置下多目标偏好对齐性能对比。

2. 单目标实验显示 ProteinOPD 能够转移 SFT 教师的偏好能力同时缓解直接微调造成的蛋白设计能力的下降。(1) 在无条件生成中,ProteinOPD 在保留大部分属性收益的同时,将新颖性损失控制在更低水平。(2) 在条件生成中,ProteinOPD 还提升了 ProTrek Score,说明模型在偏好对齐过程中没有破坏原有条件一致性。

3. 训练成本大幅降低。(1) ProteinOPD 相比 RL 类方法可以更快提升热稳定性,并取得约 8 倍训练加速。 (2) 教师构建只需要少量经 oracle 筛选的高质量样本,使整体流程更适合实际蛋白设计中的快速迭代需求。

样例研究

论文进一步给出了 ProteinOPD 与 ASPO 的生成样例对比。为确保比较集中在多属性对齐能力上,作者选取热稳定性均超过 0.95 的样例,并要求生成序列与 UniRef 的最大序列一致性低于 5%。在可视化结果中,ProteinOPD 生成样例的 pLDDT 达到 0.73,高于 ASPO 的 0.49;溶解性得分达到 0.69,高于 ASPO 的 0.43。这表明 ProteinOPD 不仅能提升单一属性,还能在保持新颖性的同时实现更有效的多属性对齐。

ProteinOPD 为蛋白质偏好对齐提供了一条高效路径:用轻量教师学习单一偏好,用多教师几何共识处理目标冲突,再通过学生自身轨迹上的 token-level OPD 完成稳定迁移。该工作将 OPD 从语言模型偏好对齐拓展到蛋白质设计场景,并进一步推进到多目标、多教师设置,为生成式蛋白设计中的高效偏好对齐提供了新的技术参考。

人工智能 × [ 生物 神经科学 数学 物理 化学 材料 ]

「ScienceAI」关注人工智能与其他前沿技术及基础科学的交叉研究与融合发展

欢迎注标星,并点击右下角点赞在看

点击读原文,加入专业从业者社区,以获得更多交流合作机会及服务。