诺奖得主David Baker新论文：首次从头设计出能够行走的蛋白质，为“蛋白质机器人”奠定基础

2016 年，三位科学家因设计和合成化学分子机器而荣获诺贝尔化学奖。实际上，我们细胞中也充满着各种精密的分子机器，例如驱动蛋白（kinesin），它沿着细胞骨架中的微管“轨道”定向运动，负责运输囊泡、细胞器等多种“货物”。

2024 年，David Baker 因从头设计蛋白质而荣获诺贝尔化学奖。他的研究为从头设计蛋白分子机器奠定了基础。

近日，David Baker 团队等在预印本平台 bioRxiv 上发表了题为：De-novo design of a random protein walker 的研究论文。

该研究首次实现了从头设计的蛋白质随机行走系统，其包含三个关键部分：微米级蛋白质轨道、可逆结合的异源二聚体作为脚和立足点，以及对称的蛋白质支架作为行走者。该系统无需额外化学燃料，仅靠多价结合的可逆解离与结合实现运动，且运动特性可通过温度、粘度和盐浓度等物理条件进行调节。该工作标志着蛋白质从头设计在构建复杂动态系统方面取得了里程碑式进展，并为开发可编程的分子机器提供了一个高度可调的通用平台。

展望未来，该平台为构建活细胞内的人工运输系统铺平了道路。由于该系统完全由蛋白质构成且具有遗传编码性，未来有望通过转染在细胞内表达，并可能正交于细胞天然的微管、肌动蛋白运输网络，执行定制化的货物运输任务。在此基础上，进一步集成 ATP 水解或光能等外部能量输入机制，有望开发出真正可驱动、可定向控制的“动力蛋白分子机器人”，在精准药物递送、合成细胞器构建及智能生物材料等领域具有广阔的应用。

以下为各大热门专题

01 AI蛋白质设计（最新前沿/进阶）

02 AI辅助抗体设计

03 CADD计算机辅助药物设计

04 AIDD药物设计

05 AIDD药物设计进阶

AI蛋白质设计（最新前沿/进阶）

*涉及使用代码/计算工具的操作

第一天：熟悉超算环境与蛋白质从头设计实践

1.环境搭建：Linux，VScode，Jupyter notebook*

a)超算的登录

b)Linux系统的常用shell命令：vim, ls, cd, less, rm等；

c)一些package安装的常用命令：pip, conda, source等。

d)Jupyter notebook的安装和使用。

e)VScode的基本配置：连接服务器；选择不同python版本的Interpreter；debug模式的使用等。

2.基础知识讲解

a)三类方法在不同程度上探索蛋白质序列空间：

i. 蛋白质定向进化（directed evolution）

ii. 固定蛋白质主链的序列设计（Fix-backbone protein design）

iii. 蛋白质的从头设计（De novo protein design）

b)关键数据库：RCSB PDB， SCOPe， CATH， UniRef， BFD等

c)常见概念和名词： rotamer，scaffold， motif，domain，backbone，side-chain，apo和holo结构，

d)使用的不同模型的原理，transformer，diffusion模型，Flow Matching等。

3.Rfdiffusion3+ProteinMPNN生成序列

a)Rfdiffusion3生成蛋白质骨架结构，ProteinMPNN精细的生成氨基酸序列。

b)Rfdiffusion3的安装实操

c)Rfdiffusion3的使用实操

d)ProteinMPNN的安装实操

e)ProteinMPNN的使用实操

f)Rfdiffusion+ProteinMPNN生成序列，AphaFold2筛选序列。整体实操流程：

i. 计算SAP（Spatial Aggregation Propensity）的值，选择3-6个氨基酸作为hotspot，即结合位点；这里需要使用Rosetta进行计算，首先将安装rosetta，准备蛋白，再计算每一个氨基酸的SAP值，将SAP数值映射到结构上。选择hotspot位点。

ii. Rfdiffusion结构设计，生成~10000个蛋白质主链结构；

根据上面挑选得到的hotspot位点，更改相应的hotspot参数，生成新的结构

iii. ProteinMPNN-FastRelax进行序列设计，每一个主链结构两个对应的序列，共设计~20000个序列；

iv. 筛选:使用AlphaFold2预测设计结构，预测的置信度pAE<10，预测结构与设计结构的RMSD<1A，从中挑选95个进行实验验证。

4.其它的蛋白质设计方法的实操*

a)BindCraft——序列生成和筛选的自动化实现

BindCraft相比于Rfdiffusion+ProteinMPNN更加用户友好，一站式设计流程，序列的生成和筛选自动化实现。将讲解其中参数的设计和选择，如过滤序列条件、生成氨基酸的偏好性等。使用包括置信度评分（如AlphaFold2预测得到的pLDDT、ipTM）、物理指标（如Rosetta界面能量）和序列特征（如疏水性比例）进行筛选。

b)MIT开发的Bolzgen方法原理、安装使用讲解。

安装和使用boltzgen讲解，将详细讲解yaml配置文件的写法，以一个靶点为例，从头生成VHH与该靶点结合。

c)PPIFlow：基于flow-matching的生成方法，原理，安装和使用方法。

第二天：蛋白质设计基础1——结构分析

1.蛋白质结构预测方法

1)从CASP比赛结果来简述蛋白质结构预测方法的发展。基于能量函数 -> 接触图的应用 -> 端到端的预测结构（AlphaFold2）。

2)AlphaFold2的模型相比于以前的方法有什么改进

a)将基于MSA和基于模板的方法整合，使用注意力机制进行MSA信息和模板信息的相互交流。

b)以前提取MSA信息为计算协方差矩阵，AlphaFold2创造性的直接将MSA信息作为输入，将图像识别的算法转变成了自然语言处理算法，减少了中间处理过程中的信息损失。

3)AlphaFold3相比于AlphaFold2改进了什么，还有什么不足。

a)扩展到了多种生物分子的复合物结构预测，包括蛋白质-DNA、蛋白质-RNA、蛋白质-小分子，并使用扩散模型。

b)复合物组装与动态预测缺陷，抗体-抗原复合物结构准确度有待提高。

4)运行网页server上的AlphaFold3预测结构，https://alphafoldserver.com*

5)如何使用AlphaFold3预测蛋白质的糖基化，不同糖基化的类型的输入方法。

6)AlphaFold3输出结果分析，各项置信度指标的含义，以及如何判断预测的准确度，如pLDDT，ipTM，PTM，PAE。

7)本地部署和运行ColabFold，由于AlphaFold3在安装过程中需要下载大量资源，且不能商用，因此不演示AlphaFold3的安装过程，如有问题可以帮助解决。

a)git clone https://github.com/YoshitakaMo/localcolabfold.git

b)wget https://raw.githubusercontent.com/YoshitakaMo/localcolabfold/main/install_colabbatch_linux.sh

c)bash install_colabbatch_linux.sh

d)export PATH="/path/to/your/localcolabfold/colabfold

conda/bin:$PATH"

2.蛋白质结构分析和可视化

1)pdb文件的解读，每一行中的内容代表什么含义。

2)用 pymol 可视化蛋白质结构*

a)pymol的基础操作讲解

b)如何将实验值投影到结构图的颜色上，如何画出发表文章中好看的图

3)计算蛋白质结构中两个氨基酸的距离*

a)使用python的文本文件操作实现

b)使用python中biopython包实现

3.蛋白质结构相关物理性质的计算*

1)二级结构的分类和计算

2)溶剂可及表面积（SASA）的讲解及计算

第三天：蛋白质设计基础2——序列分析

讲解和实操：

1. 获得同源序列

1)了解不同蛋白质序列库，如UniRef90，UniClust30，Pfam等

2)了解不同工具原理并使用：NCBI BLAST，Jackhmmer，HHblits

3)给定一条蛋白质序列，比对序列库，生成多序列比对（MSA）*

从AlphaFold2的经典代码仓库中找到它的生成MSA的代码并学习（alphafold/alphafold/data/tools/jackhmmer.py）。

运行示例：jackhmmer --cpu 8 -N 2 -E 1e-7 query.fasta uniprot_sprot.fasta -o output.sto

2. 对MSA进行频率分析*

1)使用python的文本文件操作实现

2)使用python中biopython包实现

3)绘制序列Logo，可视化的展示每个位点的氨基酸频率和保守性

3. 序列的同源性计算和进化树的绘制*

1)不同同源性的计算方法及应用情景，氨基酸序列的identity和Similarity，BLOSUM62的介绍。

2)进化树的绘制

4. 基于序列相似性阈值划分训练集和测试集*

1)为什么要做？避免数据泄露

2)选择相似性度量方法

3)相似性矩阵的计算

4)划分数据集

5. 大规模蛋白质序列的聚类分析和去冗余*

1)为什么要做？防止过度学习某一类序列特征，消除序列偏差；也能防止训练过程中数据泄露。

2)聚类方法的选择，CD-HIT、MMseq2和Linclust

3)选择代表序列，去冗余

4)实际复现S²ALM这一模型文章中的聚类方法。mmseqs easy-cluster examples/DB.fasta clusterRes tmp --min-seq-id 0.7 -c 0.8 --cov-mode 1

第四天：蛋白质的大语言模型及其应用

1.基础知识讲解

1)介绍蛋白质的语言模型（26字母语言模型->20氨基酸字母表，上下文依赖->氨基酸的共进化）

2)为什么要开发蛋白质大语言模型？1. 相比于结构或功能信息，序列信息更加海量；2. 蛋白质序列通过进化而来，可以学习蛋白质基本规律，折叠，共进化等

3)模型架构和基础理论：transformer，多头注意力机制，Bert，GPT，T5等

2.基于Bert架构的蛋白质语言模型

1)ESM系列（ESM-1b、ESM-1v、ESM2、ESM C）2)ESMFold：无需MSA信息的结构预测

3)使用抗体序列库训练的语言模型：Ablang，AntiBERTy

3.类似GPT的生成模型ProGen1)36层Transformer解码器架构，包含12亿参数

2)引入“控制标签”（如蛋白质家族ID、功能属性）作为输入，生成蛋白质序列空间以外的新的蛋白质序列

3)成功生成新的溶菌酶

4.多模态的蛋白质语言模型ESM3

1)模型架构融合序列，结构和功能信息

2)相比于ESMFold，单体结构预测精度更好

3)基于多模态提示（序列、结构、功能关键词）设计新的蛋白质序列

4)ESM3的安装，生成序列，快速结构预测。*5.蛋白质语言模型的应用和实战演练*

1)获得序列embedding以构建下游模型（Cell systmes文章举例），从文章github仓库中提炼序列embedding的代码并学习使用。https://github.com/fhalab/MLDE?tab=readme-ov-file#generating-encodings-with-generate_encoding.py，看懂代码中EncodingGenerator的类，将这个类方法用在我们自己的代码上，实现蛋白质序列的不同方式encoding，包括"onehot", "georgiev", “esm”系列模型。2)使用不同的蛋白质语言模型，零样本的预测蛋白质突变效应。3)给定少量的突变效应数据作为训练数据，训练模型，预测新的突变效应值。

第五天：深度学习辅助酶设计

1.基础知识讲解

酶的过渡态理论，theozyme，fitness landscape，epistasis

2.酶学性质预测

1.DLKcat与GotEnzyme数据库介绍

2.UniKP:利用预训练模型挖掘、改造Kcat

3.CLEAN:基于对比学习的EC号预测挖掘稀有脱卤酶

3.蛋白质热稳定性改造

1.MutCompute介绍

2.利用MutCompute改造PETase(Nature)

3.ThermoMPNN介绍与使用*

4.Pythia介绍与使用*

4.从Frances H. Arnold（2018年因在酶的定向进化领域的贡献获得诺贝尔化学奖）的工作看酶的定向进化方法的发展

1. 传统定向进化实验流程

2. MLDE（Mechine Learning Directed Evolution），学习序列与酶性能之间的映射关系，推荐新的突变组合（PNAS文章）

3.ftMLDE（focused training MLDE），主动学习流程，构建informative的训练数据（Cell Systems文章）。零样本突变效应预测挑选数据集，再通过小样本数据训练的策略微调。5.酶的从头设计

1.从头设计Diels-Alder催化酶

a)基于Rosetta的Inside-out策略（Science文章）

b)通过Foldit蛋白质折叠游戏改善结构问题（Nat. Biotechnol.文章）；c)Foldit蛋白质折叠游戏的实践*2.从头设计荧光素酶，Family-wide hallucination，基于该酶家族的结构幻化出新的结构（Nature文章）

3.RFdiffusion+PLACER从头设计丝氨酸水解酶（Science文章）

6.利用预测结构的相似性，挖掘序列的新酶功能（复现顶刊cell文章）*

1. InterPro数据库中下载数据

2. TM-score计算结构距离

3. UPGMA结构聚类，画出进化树

4. 挑选序列

第六天： 蛋白质功能与互作预测；实验验证与AI模型训练预测闭环

1. 蛋白质功能预测：

1) 基础知识：

a) 基因本体论（Gene Ontology, GO），

b) MF/BP/CC，MF Molecular Function 分子功能；BP Biological Process 生物过程；CC Cellular Component 细胞组分。

c) GAF (GO Annotation File) 文件。

d) 本体文件来理解GO术语之间的层次关系。

e) 解析GAF，提取蛋白质ID和GO ID。

2) DeepGO-SE，通过蛋白质的语言模型提取序列嵌入，预测蛋白质的功能3) DPFunc：先用蛋白语言模型提取残基特征，再在接触图上用 GCN 学习结构信息，并引入结构域（domain）指导，最后把多层特征映射到 GO 图上，显著提升对罕见功能项和低序列相似蛋白的预测精度 4)Prot2Text-V2模型。Prot2Text-V2将图神经网络（Graph Neural Network, GNN）与大型语言模型（Large Language Model, LLM）融合到同一个编码器-解码器框架中，有效整合了包括蛋白质序列、结构和文本注释在内的多种数据，以自由文本形式输出蛋白质功能预测结果 5)ProteinKG65构建蛋白质知识图谱，基于Gene Ontology (GO) 和 UniProt 等权威知识库，将蛋白质的功能、结构、相互作用等知识组织成图谱形式，支持下游的机器学习任务，如蛋白质功能预测、表示学习、药物靶点发现等2.蛋白质相互作用预测：Science文章：使用更深的进化信号：omicMSA+新的深度学习网络：RF2‑PPI。在全人类蛋白质组中筛出一批高置信度的互作，用于补齐人类互作图谱、解释疾病突变和蛋白功能。

1.更深的进化信号：omicMSA

从约 30 PB 的未组装基因组/转录组数据里挖人类蛋白的同源序列，而不仅仅依赖 UniRef 等传统数据库。

构建omicMSA，使得每个蛋白的深度比常规模板 MSA 深 7 倍左右，协同进化信号显著增强。

2. 新的深度学习网络：RF2‑PPI

基于 RoseTTAFold2 框架开发了一个新的 PPI 预测网络 RF2‑PPI，用来快速估计两条蛋白是否互作以及界面大致形态。

为了训练 RF2‑PPI，构建了很大的数据集：从约 2 亿个预测蛋白结构中抽取各种结构域组合，构建了大规模的 DDI 训练样本，使训练集规模相比传统 PPI 结构数据扩大约 16 倍

筛选流程：

1. 人类蛋白集合

取约 19,500 个人类蛋白序列（UniProt 等），所有可能的配对约 2 亿对。文章中实际筛查约 2 亿对蛋白组合。

2. 构建深度 omicMSA

对每个蛋白，以及蛋白对，基于 30 PB 基因组/转录组数据构建 omicMSA，并对每个蛋白对生成配对 MSA（pMSA），用于协同进化分析和后续深度学习输入。

3. 快速预筛：共进化 / RF2‑PPI 粗打分

先用直接耦合分析（DCA）等共进化方法，结合 RF2‑PPI 对 2 亿对蛋白打一个“互作概率”分数（RFIntProb），过滤掉大部分不可能的组合。

他们在一个中间步骤里，从 4360 万对预筛后的蛋白对中，用RF2‑PPI 进一步筛选出约 190 万对 RFIntProb > 0.3 的候选。

4. 精细建模：AlphaFold2 复合物结构

对这约 190 万对蛋白，用 AlphaFold2（多聚体/复合物模式）进行结构预测，得到每一对的三维复合物模型以及一个基于界面质量的互作概率（AFIntProb）。

根据 AFIntProb 以及界面大小等指标选择高置信度互作。

5. 高置信度集的定义

在所有蛋白对中，他们最终在“完全无先验”的全 2 亿对筛选中得到 6,763 个高置信度 PPI；

进一步结合已有数据库（STRING、BioGRID、UniProt 里有物理互作证据的 115万对蛋白对），在有先验证据的集合上又识别出 21,960 个高置信度PPI。

综合各种来源和精度阈值，共预测出 17,849 个 PPI，预期精度约90%，其中 3,631 个此前实验未报道的新互作。

3. AI模型训练预测和实验闭环

以 EVOLVEpro 为例，实践计算–实验闭环：

初始化

● 选取少量已测序列（野生型 + 文献或少量自设计突变），测定活性。

● 用蛋白语言模型把序列编码成向量，训练一个初始的监督回归模型（序列向量 → 活性）。

生成候选序列

● 设定允许的突变范围（允许 1–3 点突变、限定在特定位点/区域）。

● 在该空间内大规模生成候选序列（10^3–10^5），可结合 embedding 空间附近搜索、局部扰动等策略。

预测与智能选样

● 用回归模型对所有候选序列预测活性或综合评分。

● 依据主动学习策略挑出一小批要做实验的序列：

● 直接选预测值最高的 top‑k；或

● 结合预测不确定性、序列多样性等，使样本既“高潜力”又“信息量大”。

实验验证

● 合成/构建这批候选序列，利用高通量实验（如流式、板读、NGS 条形码筛选等）测定真实活性。

● 得到新一轮“序列–活性”数据。

回流更新与迭代
●将新数据并入训练集，重新训练或微调回归模型（PLM 一般保持不变）。
●重复“生成候选 → 预测选样 → 实验验证 → 更新模型”的循环，通常 3–4 轮即可显著提升目标性能。

上下滑动查看更多

AI辅助抗体设计

*涉及使用代码/计算工具的操作

第一天：代码基础，抗体基础，介绍各大药企在AI辅助抗体药物开发上的布局，复现GSK在抗体亲和力成熟上的工作

1. 代码基础知识讲解，环境搭建：Linux，VS code*

a) 超算的登录

b) Linux系统的常用shell命令：vim, ls, cd, less, rm等；

c) 一些package安装的常用命令：pip, conda, source等。

d) VS code的基本配置：连接服务器；选择不同python版本的Interpreter；debug模式的使用等。

2. 抗体基础知识讲解：

a) VDJ重排，germline，CDR区域，表位（epitope/paratope），抗体亲和力成熟，抗体的可开发性等概念介绍

b) 不同抗体编号方案（Kabat，Chothia，IMGT）讲解，使用python自动化对抗体序列编号，并识别CDR区域*

c) 抗体药物开发的基本流程

3. 各大药企在AI辅助抗体药物开发上的布局：讲解各大药企公司发表的文献及报告:

a) Genetech的lab-in-the-loop,结合了实验和计算方法的迭代优化策略的工作b) Genmab手动建立了多样性的抗体可开发性数据集,以进行可开发性数据的训练和预测.

c) GSK、阿斯利康、诺和诺德等在抗体亲和力成熟上做的工作等。

4. 抗体结构预测

1) 通用蛋白结构预测模型：AlphaFold3。

u运行网页server上的AlphaFold3预测结构，https://alphafoldserver.com*

uAlphaFold3输出结果分析，各项置信度指标的含义，以及如何判断预测的准确度，如pLDDT，ipTM，PTM，PAE。

uAlphaFold3的安装过程讲解。

a) 抗体专用结构预测模型：ImmuneBuilder，IgFold。实操如何在服务器安装和使用。

5. 复现GSK在抗体亲和力成熟上的工作*

第二天：基于大语言模型的抗体亲和力成熟。

1. 基础知识讲解

1) 介绍蛋白质的语言模型（26字母语言模型->20氨基酸字母表，上下文依赖->氨基酸的共进化）

2) 为什么要开发蛋白质大语言模型？

1. 相比于结构或功能信息，序列信息更加海量；

2. 蛋白质序列通过进化而来，可以学习蛋白质基本规律，折叠，共进化等

3) 模型架构和基础理论：transformer，多头注意力机制，Bert，GPT，T5等

2. 基于Bert架构的蛋白质语言模型

1) ESM系列（ESM-1b、ESM-1v、ESM2、ESM C）2) ESMFold：无需MSA信息的结构预测

3) 多模态的蛋白质语言模型ESM3

4) 使用抗体序列库训练的语言模型：Ablang，AntiBERTy

3. Adaptyv EGFR Binder比赛——设计靶向EGFR的更高亲和力binder。1) 比赛结果展示

2) 比赛排名靠前的抗体/蛋白是如何设计的

a) 第一轮比赛，排名第一的方法：BindCraft

b) 第二轮比赛，排名第一的方法：Cradle，在Cetuximab的基础上，用的LLM，突变了10个FR的氨基酸

c) 第二轮比赛，排名第二的方法：对一个纳米抗体进行人源化改造

d) 第二轮比赛，排名第三的方法：保留与结合重要的氨基酸，生成其它氨基酸RFdiffusion+inverse folding

4. 零样本的抗体亲和力成熟*

1) Efficient evolution，基于序列的语言模型推荐突变点（Nat. Biotechnol.文章）

i. 了解语言模型推荐突变点的原理；

ii. 安装package和模型参数。https://github.com/brianhie/efficient-evolution

iii. 运行以推荐突变点：python bin/recommend.py [sequence]

2) Structure evolution，基于结构的语言模型推荐突变点（Science文章）

i. 了解inverse folding推荐突变点原理

ii. 安装package和模型参数

1. git clonehttps://github.com/varun-shanker/structural-evolution.git

2. conda env create -f environment.yml

3. conda activate struct-evo

4. wget -P ~/.cache/torch/hub/checkpoints

5. unzip ~/.cache/torch/hub/checkpoints/esm_if1_20220410.zip

iii. 运行以推荐突变点：python bin/recommend.py examples/7mmo_abc_fvar.pdb \

--chain A --seqpath examples/7mmo_chainA_lib.fasta \

--outpath examples/7mmo_chainA_scores.csv \

--upperbound 109 --offset 1

5. 小样本的抗体亲和力成熟*，在已有少量样本的亲和力数据下训练模型。使用MULTI-evolve的方法预测多点的组合突变。

第三天：抗体可开发性预测和优化1

1. 抗体可开发性优化在药物开发过程中的意义，

2. 衡量抗体可开发性要考虑的因素，如免疫原性、自聚集性、结合特异性、稳定性等等3. 以一篇专利文件为例讲解AI辅助抗体改造的案例。Patent No.: US12110324B2。Generate:Biomedicines公司通过AI方法在tezepelumab上改成的一种靶向（TSLP）的长效单克隆抗体GB-0895。

4. 抗体结构简单物理性质的计算：溶剂可及表面积（SASA）的讲解及计算；等电点的计算；蛋白质表面电荷分布的计算。*

5. 讲解Ginkgo举办的抗体可开发性预测比赛的结果。6. 公开的抗体可开发性数据的收集。

7. 抗体性质预测的模型实践，展示在小样本的情景下训练机器学习模型*1) 数据处理，划分数据集

2) 模型构建，基于特征工程的机器学习模型（随机森林，XGboost，ElasticNet等）；学习根据蛋白质序列和结构信息构建常见特征。seq_features = feature_utils.get_all_seq_features(heavy_seq, light_seq, is_fv=True, isotype='igg1', lc_type='lambda')3) 模型训练和评价，GridSearchCV交叉验证调参等4) 模型的可解释性，特征重要性分析

第四天：抗体可开发性预测和优化2和抗体人源化

1. 基于蛋白质语言模型的可开发性预测*

1) 零样本的可开发性预测2) 少样本的可开发性预测。给定抗体序列和相应的性质，构建下游模型预测。

a) 数据处理，划分数据集

b) 获得序列embedding以构建下游模型，实现蛋白质序列的不同方式encoding，包括"onehot", "georgiev", “esm”系列模型。

c) 深度学习模型的构建。上游的大语言模型+下游简单线性层。

d) 模型训练和评价：绘制训练曲线，训练集和测试集的评价指标随epoch的变化，2. 免疫原性预测

1) 免疫系统介绍，MHC-I和MHC-II，Anti-drug Antibody等基础概念

2) 免疫原性预测是MHC结合肽段的预测

3) 预测免疫原性。netMHCpan的原理讲解，安装和使用

3. 抗体人源化

1) 人源化的基础知识和流程。目标：保留亲和力+减小免疫原性+好的稳定性和可开发性。CDR移植到人源框架，回复突变，Vernier Zone，

2) Germline的搜索，IMGT/V-QUEST数据库搜索得到V 基因和J基因相似的人类germline序列。

3) 人源化的经典方法biophi的原理讲解、安装和使用。

4) 基于AI和基于物理能量（Rosetta）的方法是如何辅助抗体人源化的。

5) 排除抗体序列的PTM。

第五天：抗体（scFv, VHH）的从头设计

1. 从头设计的意义

1) 跨膜蛋白例如GPCR，难以稳定表达为可溶性蛋白

2) VHH动物免疫羊驼成本高。

3) 更高效快速获得候选分子

2. 基础模型方法概念介绍：Diffusion模型、 flow-matching、全原子（all-atom）建模等

3. 不同公司和方法模型、实验结果讲解

1) Rfdiffusion3+ProteinMPNN生成序列，AphaFold2筛选序列。将学会各个包的安装，不同参数的选择，结合的hotspot位点选择。

a) Rfdiffusion3结构设计，生成~10000个蛋白质主链结构；根据hotspot位点，生成新的结构：

./scripts/run_inference.py 'contigmap.contigs=[B1-100/0 100-100]' 'ppi.hotspot_res=[A30,A33,A34]' inference.output_prefix=test_outputs/binder_test inference.num_designs=10000

b) ProteinMPNN-FastRelax进行序列设计，每一个主链结构两个对应的序列，共设计~20000个序列；

c) 筛选:使用AlphaFold2预测设计结构，预测的置信度pAE<10，预测结构与设计结构的RMSD<1A，从中挑选95个进行实验验证。

2) Nabla Bio开发的JAM（Joint Atomic Modeling）系统3) Chai2 Discovery开发的Chai-2方法，用以实现抗体的从头生成4) MIT开发的Bolzgen方法原理、安装使用讲解。

安装和使用boltzgen讲解，将详细讲解yaml配置文件的写法，以一个靶点为例，从头生成VHH与该靶点结合。

5) PPIFlow：基于flow-matching的生成方法，原理，安装和使用方法。

4. VHH的生成实践

1) 确定纳米抗体序列框架（Framework区域）序列，生成CDR区域序列。分析整理纳米抗体序列，绘制序列保守性的Logo图，以此确定在生成VHH时，哪些位置的氨基酸需要固定。2) 对生成的序列进行筛选。在亲和力、序列稳定性、可开发性等各个方面进行筛选。

a) 预测结构与设计结构的RMSD，AlphaFold预测设计结构的置信度pAE等

b) 筛选Cys，Met等氨基酸含量

c) 减少电荷patch

d) 根据等电点等性质筛选。

上下滑动查看更多

CADD计算机辅助药物设计

第一天pymol的使用与一般蛋白-配体分子对接

1.PDB蛋白结构数据库的介绍和使用

1.1数据库简介

1.2靶点蛋白的结构查询与选取

1.3靶点蛋白的结构序列下载

1.4靶点蛋白的下载与预处理

1.5批量下载蛋白晶体结构

2.pubchem数据库的介绍和使用

2.2 小分子化合物的检索方法
2.3 化合物结构与性质信息获取
2.4 化合物3D结构下载与格式转换

2.5 批量下载与数据管理

3.Pymol的介绍与使用

2.1软件安装基本操作及基本知识介绍

2.2蛋白质-配体相互作用图解

2.3蛋白-配体小分子表面图、静电势表示

2.4蛋白-配体结构叠加与比对

2.5绘制相互作用力

一般的蛋白-配体分子对接讲解

1.对接的相关理论介绍

1.1分子对接的概念及基本原理

1.2分子对接的基本方法

1.3分子对接的常用软件

1.4分子对接的一般流程

2.常规的蛋白-配体对接

2.1收集受体与配体分子

2.2复合体预构象的处理

2.3准备受体、配体分子

2.4蛋白-配体对接

2.5对接结果的分析

以人血清白蛋白（Human Serum Albumin）与一个简单配体咖啡因（Caffeine）为例

第二天虚拟筛选的介绍与实际操作

1.虚拟筛选相关程序的介绍

1.1openbabel的介绍和使用

1.2ADFR介绍与使用

1.3chemdraw的介绍与使用

2.虚拟筛选的前处理

3.使用Pymol getbox插件确定蛋白口袋

4.虚拟筛选的流程及实战演示案例：细胞色素 P450 14Alpha-固醇脱甲基酶与ZINC FDA药物虚拟筛选

5.Pymol、PLIP、Ligplus+结果分析与作图

5.药物ADMET预测

5.1ADME概念介绍

5.2预测相关网站及软件介绍（SWISSADME、ADMTCADD）

5.3预测结果的分析

第三天多类型分子对接理论与实战应用

1.蛋白-蛋白对接

1.1蛋白-蛋白对接的应用场景

1.2相关程序的介绍如 ZDOCK HDOCK Alphafold3

1.3目标蛋白的收集以及预处理

1.4使用算例进行运算

1.5关键残基的预设

1.6结果的获取与文件类型

1.7对接实操：以人类热稳定蛋白CD24和SIGLEC10对接分析以及作图。

2.蛋白-金属离子的对接

2.1蛋白-金属离子对接的应用场景

2.2相关程序的介绍如 Alphafold3 MIB2 IonCom

2.3对接实操：以AARS2与金属二价Cu离子做对接分析以及作图。

3.蛋白-DNA/RNA的对接

3.1蛋白-DNA/RNA的对接的应用场景

3.2相关程序的介绍如 Alphafold3 Hdock chCADD-1

2.3对接实操：LacI 抑制蛋白与DNA做对接分析以及作图。

4.蛋白-多配体的对接

4.1蛋白与多个小分子配体对接的应用场景

4.2对接实操：人源磷酸二酯酶 9A（PDE9A）与两个小分子抑制剂的复合物对接结果分析以及作图。

第四天蛋白-蛋白相互作用预测与结构分析实战

1.理论导入：蛋白互作生物学基础

2.PPI预测方法概述：介绍基于结构（Structure-based）与基于序列（Sequence-based）的预测方法

3.了解蛋白互作数据库 STRING、BioGRID、IntAct

4.结构建模与复合物预测

5.分子对接与验证

6.互作界面分析

7.实战演练与案例分析

8.总结与扩展

第五天 Linux环境下的分子动力学模拟与实战分析课程

1. linux系统的介绍和简单使用

1.1 学习linux的常见操作命令:ls、vim、rm、mv、cp等

1.2 linux上的常用程序安装

1.3体验：如何在linux上进行虚拟筛选

2.分子动力学的理论介绍

2.1分子动力学模拟的原理

2.2分子动力学模拟的方法及相关程序

2.3相关力场的介绍

3.gromacs使用及介绍重点：主要命令及参数的介绍

4.学习xmgrace对分子动力学结果作图

5.一般的溶剂化蛋白的处理流程

5.1蛋白晶体的准备

5.2结构的能量最小化

5.3对体系的预平衡

5.4无限制的分子动力学模拟

5.5分子动力学结果展示与解读（以水中的溶菌酶为例）

6.蛋白配体分子动力学模拟实战

6.1准备蛋白与拓扑文件

6.2构建盒子并加水

6.3加离子平衡体系

6.4能量最小化

6.5系统平衡（NVT/NPT）

6.6分子动力学模拟

6.7轨迹处理与中心化

6.8结构稳定性分析（RMSD/RMSF）

6.9分子性质分析（回转半径、SASA、氢键等）

6.10轨迹可视化与结果提取

第六天 CADD驱动的抗体与酶工程设计实战

1.抗体基础知识讲解：

1.1VDJ重排，germline，CDR区域，表位（epitope/paratope），抗体亲和力成熟，抗体的可开发性等概念介绍

1.2不同抗体编号方案（Kabat，Chothia，IMGT）讲解，使用python自动化对抗体序列编号，并识别CDR区域

1.3抗体药物开发的基本流程

2.抗体亲和力成熟

2.1了解抗体亲和力原理，常见和实验方法和概念

2.2使用Alphafold3+FoldX进行抗体亲和力成熟的实操

2.3学习DiffAb，扩散模型同时生成CDR区的序列和结构

3.抗体开发性预测

3.1学习SABpred工具对抗体可开发性优化

3.2抗体可开发性优化在药物开发过程中的意义，

3.3衡量抗体可开发性要考虑的因素，如免疫原性、自聚集性、结合特异性、稳定性等等

4.酶的生物学与化学基础

4.1酶的分类与催化机制（氧化还原酶、水解酶、转移酶等）

4.2酶活性中心与底物识别原理

4.3酶动力学参数（Km、kcat、Ki 等）在药物设计中的意义

5.学习使用CADD对酶进行定向改造

5.1 了解定向进化与理性设计的基本原理

介绍酶定向改造的两种主要策略（定向进化 vs 理性设计），以及如何结合CADD模型进行智能筛选与突变预测。

5.2 学习主流CADD酶设计工具与算法

熟悉ESMFold、ProGen、LigandMPNN、UniKP、Diffdock等CADD工具在酶稳定性与活性优化中的应用。

5.3 实战：利用CADD预测并筛选有利突变位点
通过具体案例（如肽链裂解酶、脱氢酶或P450氧化酶），示范如何使用CADD模型预测有益突变、验证ΔΔG变化，并结合实验数据进行筛选与验证。

上下滑动查看更多

AIDD药物设计

第一天

一、

1.AIDD概述及药物综合数据库介绍

2.人工智能辅助药物设计AIDD概述

3.安装环境

(1)anaconda

(2)vscode

(3)pycharm

(4)虚拟环境

4.第三方库基本使用方法

(1)numpy

(2)pandas

(3)matplotlib

(4)requests

5.多种药物综合数据库的获取方式

(1)KEGG（requests爬虫）

(2)Chebi（libChEBIpy）

(3)PubChem（pubchempy / requests）

(4)ChEMBL（chembl_webresource_client）

(5)BiGG（curl）

(6)PDB（pypdb）

第二天

二、 ML-based AIDD

1.机器学习

(1)机器学习种类：

①监督学习

②无监督学习

③强化学习

(2)典型机器学习方法

①决策树

②支持向量机

③朴素贝叶斯

④神经网络

⑤卷积神经网络

(3)模型的评估与验证

(4)分类评估：准确率、精确率、召回率、F1分数、ROC曲线、AUC计算

(5)回归评估：平均绝对误差、均方差、R2分数、可释方差分数

(6)交叉验证

2.sklearn工具包基本使用

3.rdkit工具包的基本使用

4.化合物编码方式和化合物相似性理论知识

5.项目实战1：基于ADME和Ro5的分子筛选

6.项目实战2：基于化合物相似性的配体筛选

7.项目实战3：基于化合物相似性的分子聚类

8.项目实战4: 基于机器学习的生物活性预测

9.项目实战5：基于机器学习的分子毒性预测

第三天

三、 GNN-based AIDD

1.图神经网络

(1)框架介绍: PyG，DGL，TorchDrug

(2)图神经网络消息传递机制

(3)图神经网络数据集设计

(4)图神经网络节点预测、图预测任务和边预测任务实战

2.论文精讲：DeepTox: Toxicity Prediction using Deep Learning

3.项目实战1：基于图神经网络的分子毒性预测

(1)SMILES分子数据集构建PyG图数据集

(2)基于GNN进行分子毒性预测

4.项目实战2：基于图神经网络的蛋白质-配体相互作用预测

(1)蛋白质分子图形化，构建PyG图数据集

(2)基于GIN进行网络搭建及相互作用预测

第四天

四、 NLP-based AIDD

1.自然语言处理

(1)Encoder-Decoder模型

(2)循环神经网络 RNN

(3)Seq2seq

(4)Attention

(5)Transformer

2.项目实战1：基于自然语言的分子毒性预测

(1)SMILES分子数据集词向量表示方法

(2)基于NLP模型进行分子毒性预测

3.项目实战2：基于Transformer的有机化学反应产量预测（Prediction of chemical reaction yields using deep learning）

4.论文精读及代码讲解：《Mapping the space of chemical reactions using attention-based neural networks》

第五天

五、分子生成与药物设计

1.分子生成模型

(1)循环神经网络RNN

(2)变分自动编码器VAE

(3)生成对抗网络GAN

(4)强化学习RL

2.项目实战1: 基于图数据的小分子化合物生成模型《A Graph to Graphs Framework for Retrosynthesis Prediction》

3.项目实战2: 基于NLP的抗体生成模型《Generative language modeling for antibody design》

上下滑动查看更多

AIDD药物设计进阶（录播）

第一天

一、环境搭建与深度学习基本知识讲解

1.AIDD概述：从CADD到AIDD

2.软件安装与环境搭建

(1)anaconda

(2)vscode

(3)环境变量的配置

(4)切换pip和conda镜像源

(5)虚拟环境的创建

3.RDKIT工具包的使用

(1)基于RDKit的分子读写

(2)基于RDKit的分子绘制

(3)基于RDKit的分子指纹与分子描述符

(4)基于RDKit的化合物相似性与子结构

4.药物综合数据库的获取方法

(1)基于requests的基本爬虫操作

(2)小分子数据库PubChem数据获取（pubchempy / requests）

(3)蛋白质数据库PDB、UniProt数据获取

5.深度学习辅助药物设计

(1)神经网络基本概念与sklearn工具包介绍

(2)图神经网络与消息传递机制基本知识

(3)Transformer模型基本知识：分词、位置编码、注意力机制、编码器、解码器、预训练-微调框架、huggingface 生态介绍

(4)模型的评估与验证：准确率、精确率、召回率、F1分数、ROC曲线、AUC计算，平均绝对误差、均方差、R2分数、可释方差分数，交叉验证等

第二天

二、分子与生化反应的表示学习与性质预测助力药物发现

培训内容2：TOP期刊｜基于深度学习的生化反应产量预测《Prediction of chemical reaction yields using deep learning》

1.数据。研究使用了三类数据：

1.1.Buchwald-Hartwig HTE数据集：包含3955个Pd催化C-N偶联反应，涵盖15种卤化物、4种配体、3种碱和23种添加剂组合，产率通过统一实验测量，数据质量高。

1.2.Suzuki-Miyaura HTE数据集：包含5760个反应，涉及15对亲电/亲核试剂、12种配体、8种碱和4种溶剂的组合，产率分布均匀。

1.3.USPTO专利数据集：从公开专利中提取，包含不同规模（克级与亚克级）的反应产率，数据噪声大且分布不一致，需通过邻近反应产率平滑处理以提升模型表现。

2.模型。核心模型基于预训练的rxnfp（反应指纹）BERT架构，新增回归层构成Yield-BERT。输入为标准化反应SMILES，通过自注意力机制捕捉反应中心及关键试剂的上下文信息。模型无需手工特征（如DFT计算描述符），直接端到端预测产率。实验表明，其性能优于传统方法（如随机森林和分子指纹拼接），尤其在HTE数据上接近化学描述符的预测水平，且参数鲁棒性高（超参数调整影响小）。

3.训练。训练分为两步：

3.1.预训练：BERT通过掩码语言任务学习SMILES的通用表示。

3.2.微调：采用简单Transformers库和PyTorch框架，以MSE损失优化回归层，学习率（2×10⁻⁵）和dropout率（0.1–0.8）为主要调参对象。HTE数据采用随机/时间划分验证，USPTO数据通过邻近反应产率平滑缓解噪声影响。小样本实验（5%训练数据）显示模型能快速筛选高产反应，指导合成优化。

培训内容3:

TOP期刊｜基于T5Chem模型的生化反应表示学习与性质预测: 《Unified Deep Learning Model for Multitask Reaction Predictions with Explanation》

1.数据来源和处理。通过自监督预训练与PubChem分子数据集进行训练，以实现对四种不同类型的化学反应预测任务的优异性能。模型处理包括反应类型分类、正向反应预测、单步逆合成和反应产率预测。

2.模型架构和原理。T5Chem模型是基于自然语言处理中的“Text-to-Text Transfer Transformer”(T5)框架开发的统一深度学习模型，该模型通过适应T5框架来处理多种化学反应预测任务。T5Chem模型包含编码器-解码器结构，并根据任务类型引入了任务特定的提示和不同的输出层，如分子生成头、分类头和回归头，以处理序列到序列的任务、反应类型分类和产品产率预测。

3.训练过程和细节。

3.1.T5Chem模型首先在PubChem的97 million分子上进行自监督预训练，使用BERT类似的“masked language modeling”目标。

3.2.在预训练阶段，源序列中的tokens被随机掩蔽，模型的目标是预测被掩蔽的正确的tokens。

3.3.预训练完成后，模型在下游的监督任务中进行微调，使用不同的任务特定提示和输出层。

3.4.模型在测试阶段通过生成分子token by token的方式进行预测，直到生成“句子结束标记”或达到最大预测长度。

第三天

三、蛋白质的表示学习与性质预测助力药物发现

培训内容1:

Nature Communication｜体外酶动力学参数深度学习的综合框架《CatPred: a comprehensive framework for deep learning in vitro enzyme kinetic parameters》

CatPred 提出了一种全面的深度学习框架，用于预测体外酶动力学参数（kcat、Km、Ki），以解决实验测定成本高、数据稀疏和泛化能力差的问题。该方法不仅提供了准确的预测，还引入了对预测不确定性的量化，支持对训练集外（out-of-distribution）酶序列的稳健预测。此外，作者还构建了新的标准化数据集（CatPred-DB），并对多种酶表示方法进行了系统比较。

1.数据：CatPred 使用的数据集来自 BRENDA 和 SABIO-RK 数据库，作者构建了 CatPred-DB，包括：23197 条 kcat，41174 条 Km和11929 条 Ki 数据，每条记录都包含酶的氨基酸序列、AlphaFold 或 ESMFold 预测的结构、底物的 SMILES 表达式。数据经过清洗和标准化处理，去除缺失值和重复值，并对参数取对数转换以符合正态分布。

2.模型：CatPred 采用模块化设计，酶和底物分别通过不同的神经网络模块进行表征学习，并采用概率回归输出（高斯分布形式的均值和方差），允许进行不确定性估计（aleatoric + epistemic）。

3.训练

3.1.所有模型采用负对数似然损失函数（NLL）训练，以同时预测参数均值和不确定性。

3.2.使用训练-验证-测试三分法（80%-10%-10%），并设立“训练集外”的测试子集用于泛化能力评估。

3.3.为了评估不确定性，CatPred 使用 10个模型的集成，通过不同初始参数训练，以此量化 epistemic uncertainty。

3.4.模型训练时考虑了不同相似性（序列identity<99%、80%、60%、40%）的测试集，体现其鲁棒性。

培训内容2:

Science｜基于对比学习的蛋白质分类属性预测《Enzyme function prediction using contrastive learning》

1.数据来源和处理： CLEAN模型的训练基于UniProt数据库中的高质量数据，该数据库收录了约1.9亿个蛋白质序列。CLEAN模型以氨基酸序列作为输入，输出按可能性排序的酶功能列表（以EC编号为例）。为了验证CLEAN的准确性和鲁棒性，作者进行了广泛的in silico实验，并将CLEAN应用于内部收集的未表征的卤酶数据库（共36个）进行EC编号注释，随后通过案例研究进行体外实验验证。

2.模型架构和原理： CLEAN模型采用了对比学习框架，目标是学习一个酶的嵌入空间，其中欧几里得距离反映了功能相似性。嵌入是指蛋白质序列的数值表示，它由机器可读，同时保留了酶携带的重要特征和信息。在CLEAN的任务中，具有相同EC编号的氨基酸序列具有较小的欧几里得距离，而具有不同EC编号的序列则具有较大的距离。

3.训练过程和细节：

3.1.在训练过程中，CLEAN模型使用对比损失函数进行监督训练，通过优先选择与锚点（anchor）嵌入具有小欧几里得距离的负序列，以提高训练效率。

3.2.模型使用语言模型ESM1b获得的蛋白质表示作为前馈神经网络的输入，输出层产生细化的、功能感知的输入蛋白质嵌入。

3.3.预测时，通过计算查询序列与所有EC编号聚类中心之间的成对距离来预测输入蛋白质的EC编号。

3.4.CLEAN还开发了两种方法来从输出排名中预测自信的EC编号：一种是贪婪方法，另一种是基于P值的方法。

第四天

四、基于深度学习的分子生成助力药物发现

培训内容1：

Nature Communication｜基于端到端的图生成框架的分子生成：《Retrosynthesis prediction using an end-to-end graph generative architecture for molecular graph editing》

1.数据来源和处理：Graph2Edits模型使用了公开可用的基准数据集USPTO-50k，包含50016个反应，这些反应被正确地原子映射并分类为10种不同的反应类型。数据集被分为40k、5k、5k的反应用于训练、验证和测试集。

2.模型架构和原理：Graph2Edits模型是一个端到端的图生成架构，基于图神经网络（GNN）预测产品图的编辑序列，并根据预测的编辑序列顺序生成中间体和最终反应物。该模型将半模板方法的两阶段过程（识别反应中心和完成合成子）合并为一锅学习，提高了在复杂反应中的适用性，并使预测结果更易于解释。模型的核心是图编码器和自回归模型，用于生成编辑序列，并应用这些编辑来推断中间体和反应物。

3.训练过程和细节：

3.1.Graph2Edits模型使用有向消息传递神经网络（D-MPNN）作为图编码器，以获取原子表示和全局图特征，并预测原子/键编辑和终止符号。

3.2.模型训练使用教师强制策略，即使用真实的编辑序列作为模型输入。在每个编辑步骤中，模型会计算所有可能的编辑的概率，并选择最高分的k个编辑，将这些编辑应用于输入图以获得k个中间体。

3.3.在生成过程中，如果达到最大步骤数或图表示指示终止，则生成分支将停止。

3.4.最终，根据可能性对前k个编辑序列和图进行排名，收集为最终预测结果。

培训内容2

Nature Computational Science｜基于等变扩散模型的分子生成网络《Structure-based drug design with equivariant diffusion models》

1.简单介绍。这篇文献提出了一种基于结构的药物设计方法（SBDD），利用SE(3)-等变扩散模型（DiffSBDD）生成与蛋白质结合口条件匹配的新颖小分子配体。该方法通过将SBDD问题建模为三维条件生成任务，能够一次性生成所有原子位置，克服了传统自回归方法因顺序生成而丢失全局上下文的局限性。DiffSBDD不仅支持从头分子设计，还能通过属性优化、负向设计和分子局部修饰（inpainting）等多种任务灵活应用。

2.数据总结。该研究使用了CrossDocked和Binding MOAD两个数据集进行训练和评估。

2.1.CrossDocked数据集包含40,344个训练蛋白-配体对和130个测试对，验证集规模为246个，确保不同集合中的蛋白质来自不同的酶分类主类以避免过拟合。

2.2.Binding MOAD数据集经过筛选后用于测试，分析限于所有方法均能生成样本的78个CrossDocked和119个Binding MOAD目标。此外，数据集处理涉及移除损坏条目，并通过Zenodo公开提供处理后的数据和采样分子，确保研究可重复性。

3.模型总结。DiffSBDD是一个SE(3)-等变扩散模型，以蛋白质结合口为条件生成三维分子结构，采用3D图表示（原子坐标和类型），避免了传统方法中从密度图回推分子结构的复杂后处理。模型设计尊重三维空间的旋转和平

第五天

五、结合分子动力学的蛋白质配体复合物相互作用动态预测

培训内容1:

Nature Communication｜交互作用感知的蛋白质-配体对接和亲和力预测模型《Interformer: an interaction-aware model for protein-ligand docking and affinity prediction》

1.简要介绍：本研究提出了一种名为Interformer的基于Graph-Transformer架构的统一模型，用于蛋白-配体对接和亲和力预测。针对现有深度学习模型忽略蛋白与配体原子间非共价相互作用建模的不足，Interformer引入了交互感知混合密度网络（MDN）来明确捕捉氢键和疏水相互作用，并结合负采样策略和伪Huber损失函数，通过对比学习优化相互作用分布，提升对接姿势的准确性和亲和力预测的鲁棒性。

2.数据集：研究使用了PDBBind时间分割测试集（333个样本）评估对接准确性，Posebusters基准测试验证物理合理性，以及内部真实世界数据集测试泛化能力。训练数据来源于PDBBind晶体结构数据库。

3.模型：Interformer基于Graph-Transformer架构，包括：(1) 图表示模块，将原子作为节点、邻近关系作为边；(2) 掩码自注意力（MSA）机制，通过Intra-Blocks和Inter-Blocks分别捕捉配体/蛋白内部及两者间的相互作用；(3) 交互感知MDN，融合四种高斯分布模拟常规力、疏水作用和氢键；(4) 边缘输出层整合节点和边特征预测能量；(5) 姿势评分和亲和力模块基于虚拟节点预测正确姿势和实验亲和力值。

4.训练细节：训练分两阶段：首先基于晶体结构训练能量模型生成负样本，随后联合正负样本训练姿势评分和亲和力模型。采用负对数似然损失优化MDN，二元交叉熵损失优化姿势评分，伪Huber损失（σ=4）优化亲和力预测（单位IC50、Kd、KI，经负对数归一化）。蒙特卡洛采样生成候选姿势，

研究内容2:

Nature Communication｜分子动力学驱动的蛋白质-配体复合物结构动态预测《DynamicBind: predicting ligand-specific protein-ligand complex structure with a deep equivariant generative model》

1.简单介绍：本研究提出了一种名为DynamicBind的深度学习方法，用于预测配体特异性的蛋白-配体复合物结构。传统分子对接方法通常将蛋白视为刚性或仅部分柔性，难以处理蛋白的大尺度构象变化，而分子动力学模拟虽然能捕捉动态构象，但计算成本高昂。DynamicBind通过等变几何扩散网络构建平滑的能量景观，高效模拟蛋白从无配体（apo）状态到配体结合（holo）状态的构象转变，无需依赖holo结构或大量采样。

2.数据集：研究基于PDBbind2020数据库（19,443个蛋白-配体复合物晶体结构），按时间划分：2019年前的数据用于训练和验证，2019年的数据用于测试。额外构建了Major Drug Targets (MDT)测试集（599对），聚焦激酶、GPCR等主要药物靶点，要求AlphaFold预测结构与晶体结构的pocket RMSD>2Å，确保测试难度。训练中通过AlphaFold预测结构与晶体结构插值生成蛋白部分的样本。

3.模型：DynamicBind是一个基于图神经网络的等变生成模型，使用粗粒化表示（蛋白以Cα节点和侧链二面角表示，配体以重原子节点表示），输出包括蛋白和配体的平移、旋转、扭转角更新，以及结合亲和力和cLDDT置信度评分。模型通过学习从apo到holo的“morph-like”变换，优化能量景观，包含63.67百万参数。

4.训练细节：训练在8块Nvidia A100 80GB GPU上进行5天，输入为添加morph变换的蛋白decoy构象和加高斯噪声的配体构象，目标是去噪操作。损失函数包括八项（配体和蛋白的平移、旋转、扭转等），通过Kabsch算法对齐apo和holo结构，结合扩散噪声调整构象过渡。推理时迭代20次更新初始结构。

上下滑动查看更多

讲师介绍

AI蛋白质设计（最新前沿+进阶）

主讲老师在学术界和工业界都有丰富算法开发和应用经验，博士毕业于国内顶尖课题组，从事蛋白质结构预测和蛋白质设计的研究工作，相关工作成果已在Cell Systems、Angew. Chem. Int. Ed.、JCIM等国际知名期刊发表论文。目前在知名药企担任高级研究员，主导AI驱动的大分子药物设计平台开发与团队管理。

AI辅助抗体设计

CADD计算机辅助药物设计

主讲老师来自江南大学，从事CADD及分子模拟相关工作，积累了大量项目经验，涵盖靶点结构准备、虚拟筛选、分子对接、分子动力学模拟、结合能计算等完整流程。在此过程中，熟练掌握了多种主流药物设计与模拟工具，包括 AutoDock Vina、Schrödinger、GROMACS、AmberTools、AlphaFold3、RFdiffusion、ProteinMPNN 等，并具备扎实的 Python 编程与 Linux 系统操作能力，能够高效完成计算流程自动化与高性能并行计算。

AIDD药物设计

主讲老师来自天津大学，有十余年的计算机算法研究和程序设计经验。研究方向涉及深度学习药物发现，药物合成路径设计等。发表SCI高水平论文10篇，包括BMC Bioinformatics, Journal of Biomedical Informatics, International Journal of Molecular Sciences等知名期刊！讲课一致受到学员极高评价

AIDD药物设计进阶

授课时间

01.AI蛋白质设计（前沿、进阶）

2026.5.10 (09:00-11:30--13:30-17:00)

2026.5.11 -2026.5.14(19:00-22:00)

2026.5.16-2026.5.17 (09:00-11:30--13:30-17:00)

2026.5.18 -2026.5.19(19:00-22:00)

腾讯会议直播实操

02.AI抗体设计

2026.5.23-2026.5.24 (09:00-11:30--13:30-17:00)

2026.5.26 -2026.5.27 (19:00-22:00)

2026.5.30-2026.5.31 (09:00-11:30--13:30-17:00)

腾讯会议直播实操

03.CADD计算机辅助药物设计

2026.4.20 -2026.4.23 (19:00-22:00)

2026.4.25-2026.4.26 (09:00-11:30--13:30-17:00)

2026.4.27 -2026.4.28 (19:00-22:00)

腾讯会议直播实操

04.AIDD药物设计（录播）

提供全部录播、代码、进群解疑

05.AIDD药物设计进阶（录播）

提供全部录播、代码、进群解疑

培训费用

课程报名费用：

AI蛋白质设计（最新前沿＋进阶）、AI抗体设计

公费价：每人每班￥6380元（含报名费、培训费、资料费、提供课后全程回放资料）

自费价：每人每班￥6080元（含报名费、培训费、资料费、提供课后全程回放资料）

CADD计算机辅助药物设计直播课

公费价：每人每班￥5880元（含报名费、培训费、资料费、提供课后全程回放资料）

自费价：每人每班￥5580元（含报名费、培训费、资料费、提供课后全程回放资料）

AIDD药物发现与设计系统录播与AIDD药物发现与设计进阶顶刊复现录播

公费价：每人每班￥4980元（含报名费、培训费、资料费、提供课后全程回放资料）

自费价：每人每班￥4680元（含报名费、培训费、资料费、提供课后全程回放资料）

重磅优惠:

优惠1：报二送一（同时报名两个班赠送一个学习班，赠送班任选）

两班同报：10880元

三班同报：14880元

特惠一：24880元（可免费学习一整年本单位举办的任意课程）

特惠二：28880元（可免费学习两整年本单位举办的任意课程）

特惠三：48880元（终身会员可终身参加本单位举办的任意课程）

优惠2：提前报名缴费可享受300元优惠（仅限前15名）

优惠3：报名直播课程可赠送往期课程回放

（报名一个直播课可以赠送两个回放）

（报名三个直播课赠送下面全部课程回放）

（可点击跳转详情链接）：

回放一：本课程为视频课！机器学习生物医学培训！

回放二：本课程为视频课！单细胞空间转录组培训！

回放三：本课程为视频课！比较基因组学培训！

回放四：本课程为视频课！机器学习蛋白质组学培训

回放五: 本课程为视频课！CRISPR-Cas9基因编辑培训！

回放六：本课程为视频课！蛋白质晶体结构解析培训！

回放七：本课程为视频课！深度学习基因组学培训！

回放八：本课程为视频课！机器学习代谢组学培训！

回放九：本课程为视频课！机器学习微生物多组学联合分析！

报名费用可开具正规报销发票及提供相关缴费证明、邀请函，可提前开具报销发票、文件用于报销。报名缴费后即可获得全套预习资料供大家提前预习

培训特色及福利

1、课程特色--全面的课程技术应用、原理流程、实例联系全贯穿

2、学习模式--理论知识与上机操作相结合，让零基础学员快速熟练掌握 3、课程服务答疑--主讲老师将为您实际工作中遇到的问题提供专业解答

授课方式：通过腾讯会议线上直播，理论+实操的授课模式，老师手把手带着操作，从零基础开始讲解，电子PPT和教程开课前一周提前发送给学员，所有培训使用软件都会发送给学员，有什么疑问采取开麦共享屏幕和微信群解疑，学员和老师交流、学员与学员交流，培训完毕后老师长期解疑，培训群不解散，往期培训学员对于培训质量和授课方式一致评价极高！