lch
发布于 2026-05-28 / 0 阅读
0

超越AlphaFold?ESMFold2正式面世:用10亿开源蛋白质图谱拓展生命科学的边界


将 ScienceAI 设为星标

第一时间掌握

新鲜的 AI for Science 资讯


编辑丨&

在蛋白质结构预测的竞技场上,由 Google DeepMind 开发的 AlphaFold 曾被视为不可逾越的丰碑。然而,这一由闭源、商业限制和算力壁垒筑起的高墙,正在被开源社区的一股巨浪轰然推倒。

2026 年 5 月 27 日,《Nature》上发表了一篇名为「Move over, AlphaFold: open source model predicts shape of 1 billion proteins」的文章,宣布由 Meta 前大模型团队负责人 Alex Rives 领衔、陈·扎克伯格生物中心(Chan Zuckerberg Biohub)团队打造的全新人工智能模型 ESMFold2 正式面世。随之而来的,是一个包含 11 亿个预测蛋白质结构和 68 亿条蛋白质序列的超巨型数据库——ESM Atlas

原文链接:https://www.nature.com/articles/d41586-026-01686-3

填补进化的空白

ESMFold2 能够预测出如此庞大的蛋白质数量的秘密,藏在它的训练数据和底层逻辑中。

传统的 AlphaFold 深度依赖于已知物种的序列对比(MSA)。而 ESMFold2 则是基于最前沿的蛋白质语言模型(Protein Language Model)架构。它就像一个精通生命密码的超级 ChatGPT,在通读了来自生命之树的数十亿条蛋白质序列后,已经洞悉了氨基酸排列与空间折叠之间的物理统计规律。

它更多地将来自自然环境的、此前只被弱注释甚至几乎未被注释的蛋白序列纳入预测。与 AlphaFold Database 相比,这个新 atlas 的条目多出 8 亿以上;与此前版本的 ESM Atlas 相比,也多出约 3 亿

图 1:ESMFold2 架构。

ESMFold2 采用循环架构,将后期状态的表示循环到早期状态中。研究团队对循环更新施加约束,防止激活无界增长,并通过多个循环进行反向传播。

配对层由团队简化过,仅包含三角形乘法和前馈跃迁(无三角形关注或单态),使每个 ESMFold2 环路速度更快。此外,团队还实现了 CUDA 内核的自定义,协助处理速度进一步提高。

抗体设计与蛋白质复合物的全面超越

如果仅仅是数量上的堆砌,ESMFold2 还不至于让整个学术界沸腾。Biohub 团队在预印本论文中展示的数据显示,ESMFold2 在多项关键性能上,甚至完成了对最新版 AlphaFold3 的超越。

ESMFold2 速度极快,在结构预测基准测试中具有最先进的准确性,尤其是在预测蛋白质相互作用这一具有挑战性的问题上,包括抗体与其靶标之间的相互作用。

图 2:结构预测基准测试。

湿实验验证中,研究人员利用 ESMFold2 针对数种与癌症(Cancers)和免疫系统疾病(Immunological Conditions)密切相关的靶点蛋白,在虚拟世界里从头设计了一批全新的、能与这些靶点强力结合的抗体及功能蛋白 。

图 3:实验样品与靶标结合。

ESMFold2 的设计算法采用简单方法,通过序列和结构联合模型寻找预测会与目标结合的蛋白质。该过程分为两个阶段。

  • 首先,候选生成:在 ESMFold2 的表示空间中搜索以生成数万个甚至更多的候选设计,在这些实验中,这一过程大约耗时两天。

  • 其次,评分和排名:利用 ESMFold2 的置信度评分评估候选者预测的结合亲和力和结构稳定性,这过程不到一天。这两个阶段都易于并行化。

为了测试更多计算是否能改善结果,团队生成了两个推理-计算尺度的候选池,并筛选了每个尺度上每个目标和格式的前 84 个设计。这将微型结合物的平均成功率从 54% 提高到 70%,单链抗体的平均成功率从 12% 提高到 21%。

ESM 图谱

为了使蛋白质生物学的这种组织变得可导航,团队建立了 ESM 图谱,包含 68 亿条序列和 11 亿个预测结构的地图。图谱使得研究蛋白质的序列和结构能够作为一个完整的图景进行研究。

在利用该图谱进行的首批探索中,研究人员就获得了一个史诗级的发现: 此前,CRISPR 基因编辑系统被认为广泛存在于原核生物(如细菌)的免疫防御机制中。而科学家利用 ESM Atlas 的结构相似性检索功能,竟然在 2023 年发现的一种土壤真菌(Soil Fungus)以及其他的真核生物中,找到了与 CRISPR 极其相似的、具备潜在基因编辑功能的蛋白质空间结构。

图 4:ESM 图谱。

替代或是补充

麻省理工学院(MIT)的知名计算生物学家 Sergey Ovchinnikov 认为,不应将 ESM Atlas 视为 AlphaFold 的掘金替代者,而应将其视为一个极具战略价值的强力补充。

AlphaFold 在高精度细节、多小分子配体和离子结合的预测上依然保持着传统优势;而 ESMFold2 则在宏基因组泛化、超大规模高通量筛选和抗体设计上展现出了惊人的效率。

单从眼下来看,第一版 ESMFold 在预测异常蛋白结构方面并不特别出色,它在面对与已知结构差异极大、极度非主流的怪异蛋白质结构时表现会打折扣。虽然 ESMFold2 在很大程度上克服了这种针对非典型结构的泛化局限,依然需要全球科学家在使用过程中进行严谨的评估。

相关链接:https://x.com/alexrives/status/2059611151860683097

人工智能 × [ 生物 神经科学 数学 物理 化学 材料 ]

「ScienceAI」关注人工智能与其他前沿技术及基础科学的交叉研究与融合发展

欢迎注标星,并点击右下角点赞在看

点击读原文,加入专业从业者社区,以获得更多交流合作机会及服务。