1. 蛋白质-配体结合预测的技术演进与挑战
在药物研发领域,准确预测小分子药物(配体)与靶标蛋白质的结合模式与强度,是虚拟筛选和理性药物设计的核心环节。传统分子对接方法依赖力场计算和构象搜索,虽然物理意义明确,但面临采样效率低、评分函数准确性不足等瓶颈。近年来,深度学习技术为这一领域带来了范式变革,但也暴露出新的技术痛点。
当前主流方案普遍采用全原子扩散模型(如Boltz系列)生成三维结构,通过逐步去噪过程预测蛋白质-配体复合物。这种方法虽然精度较高,但存在两个致命缺陷:
- 计算成本高昂:生成单个复合物结构需要数十秒,难以扩展到千万级化合物库的筛选
- 信息冗余:药物设计真正需要的是结合位点的几何特征和亲和力估计,全原子细节反而可能引入噪声
我们在Terray Therapeutics的研发实践中发现,实际药物发现流程中90%的决策只需要以下关键信息:
- 配体结合姿态的全局准确性(RMSD <2Å)
- 结合界面的局部几何匹配(LDDT-PLI >0.8)
- 结合自由能的可靠估计(ΔG误差 <1 kcal/mol)
- 预测结果的校准置信度
这促使我们重新思考:是否必须通过昂贵的全原子扩散才能获得这些信息?基于此,我们开发了TerraBind——一个基于粗粒度优化的高效预测框架。
2. TerraBind的核心设计理念
2.1 架构创新:从全原子生成到几何特征提取
TerraBind采用"编码-优化-解码"的三阶段架构(图1),与传统扩散模型形成鲜明对比:
[传统流程] 蛋白质/配体序列 → 扩散模型 → 全原子结构 → 特征提取 → 亲和力预测 (耗时27.8秒) [TerraBind流程] 蛋白质/配体序列 → 距离分布预测 → 粗粒度优化 → 几何特征 → 亲和力预测 (耗时1.045秒)关键技术突破在于:
- 冻结的预训练编码器:使用ESM-2处理蛋白质序列,COATI-3处理配体结构,避免端到端训练的开销
- 精简的Pairformer主干:48层网络仅保留pair表示,参数量从1.47亿压缩到2700万
- 距离分布对数(distogram):直接预测配体原子与蛋白质残基间的空间统计关系
2.2 多阶段训练协议
我们设计了渐进式训练策略(表1),逐步强化结合界面的几何表征:
| 阶段 | 训练数据配比 | 损失权重 (LL:LP:PP) | 目标 |
|---|---|---|---|
| 1 | PDB:AFDB:BindingDB=45:25:30 | 1:1:1 | 基础几何一致性学习 |
| 2 | PDB:BindingDB=50:50 | 2:5:1 | 强化结合界面表征 |
| 3 | 纯实验结构(PDB) | 1:1:1 | 精细微调真实结合模式 |
这种设计使得模型:
- 阶段1:建立基本的空间关系理解
- 阶段2:重点学习配体-蛋白质相互作用(LP权重5倍)
- 阶段3:消除AlphaFold DB的预测偏差,专注实验结构
3. 结构预测性能实证分析
3.1 基准测试结果
我们在四个权威基准上评估配体姿态预测性能(图2):
FoldBench(556个低同源性复合物)
- 配体RMSD <2Å成功率:55.3% (TerraBind) vs 55.1% (Boltz-1)
- 严格指标(RMSD<2Å且LDDT-PLI>0.8):45.1% vs 39.3%
PoseBusters(307个2021年后发布的药物样复合物)
- RMSD <2Å:68.8% vs 69.7%
- 严格指标:55.1% vs 58.6%
关键发现:
- 在保持相当精度的同时,推理速度提升26.6倍(A6000 GPU)
- 结合界面局部精度(LDDT-PLI)显著优于基线,说明对关键相互作用区域的建模更准确
- 仅使用口袋区域上下文(TerraBind Pocket)性能下降<3%,验证了结合信息的局部性
3.2 距离分布熵的置信度指示作用
配体-蛋白质熵(HLP)是TerraBind的重要创新指标,其计算过程:
- 对每个配体原子-蛋白质残基对,计算距离分布熵:
def calculate_HLP(p_bins): # p_bins: 64维概率分布 entropy = -np.sum(p_bins * np.log(p_bins + 1e-10)) return entropy / np.log(64) # 归一化到[0,1] - 全局HLP取所有配体-口袋残基对的平均值
数据分析显示(图3):
- TerraBind的平均HLP=0.491,比Boltz-1 Trunk低15%
- HLP与预测准确性强相关:
- 当HLP<0.25时,RMSD<2Å的成功率达82%
- 当HLP>0.75时,成功率骤降至11%
- 该指标无需额外训练,直接来自距离分布的内在特性
4. 结合亲和力预测创新
4.1 免结构输入的亲和力预测
传统方法需要先生成全原子结构,再提取特征进行亲和力预测。TerraBind的革命性在于完全跳过结构生成,直接从距离分布对数预测结合强度:
特征构造:
- 从pairformer提取的64维距离分布
- COATI-3编码的配体全局特征
- ESM-2编码的蛋白质结合口袋序列特征
亲和力模块架构:
class AffinityModule(nn.Module): def __init__(self): super().__init__() self.distogram_encoder = MLP(64, 128) # 距离分布编码 self.coati_proj = Linear(256, 128) # 配体特征投影 self.epinet = Epinet(256) # 不确定性估计 def forward(self, z_dist, z_lig): h_dist = self.distogram_encoder(z_dist.mean(dim=1)) h_lig = self.coati_proj(z_lig) return self.epinet(torch.cat([h_dist, h_lig], dim=-1))
4.2 性能验证
在CASP16和18个内部靶点的测试中(图4):
| 数据集 | TerraBind Pearson | 基线(Boltz-2) | 提升幅度 |
|---|---|---|---|
| CASP16 L1000 (n=17) | 0.44 | 0.12 | 267% |
| CASP16 L3000 (n=123) | 0.63 | 0.35 | 80% |
| 专有数据 (n=27,078) | 0.61 | 0.40 | 53% |
特别值得注意的是:
- 仅用公开数据训练,在专有数据上表现优异,证明强泛化能力
- HLP指标与亲和力的零样本相关性达0.51,验证距离分布包含丰富结合信息
4.3 结构微调的增效作用
通过将pairformer在少量(3-6个)专有晶体结构上微调,可使特定靶点的亲和力预测显著提升(图5):
- 靶点X(6个晶体):Pearson从0.57→0.77
- 靶点Y(3个晶体):0.66→0.67
这为药物研发中的"冷启动"问题提供了解决方案——当针对新靶点仅有少量结构数据时,通过轻量微调即可获得可靠预测。
5. 药物发现工作流整合
5.1 虚拟筛选加速
TerraBind的端到端流程使大规模虚拟筛选变得可行:
预处理:
- 蛋白质:ESM-2嵌入计算(单次)
- 化合物库:COATI-3批量编码
并行评估:
# 单GPU可并行评估100个化合物/秒 python terra_batch.py --protein 1abc.pkl --ligands lib_1M.sdf --output scores.csv结果分析:
- 按预测亲和力排序
- 用HLP过滤低置信度预测
- 可视化top化合物的结合模式
5.2 DMTA循环优化
在模拟的"设计-合成-测试-分析"循环中(图6),TerraBind的持续学习策略展现出优势:
EMAX获取函数:
def EMAX(predictions, beta=0.1): mu = predictions.mean # 预测均值 sigma = predictions.cov_matrix # 协方差矩阵 return mu - beta * np.diag(sigma) # 平衡探索与利用性能表现:
- 经过8轮循环(每轮5个化合物)
- 传统贪婪策略找到的最佳化合物IC50=1.2μM
- EMAX策略找到的化合物IC50=0.2μM(提升6倍)
6. 技术边界与未来方向
6.1 当前局限
分辨率限制:
- 粗粒度表示无法提供氢键网络等原子细节
- 不适合需要精确静电计算的场景
化学空间覆盖:
- 对罕见药效团的预测熵较高
- 可通过合成数据增强改善
体系限制:
- 大分子(如抗体)结合预测仍需改进
- 多蛋白复合物的协同效应处理不足
6.2 演进路线
混合建模:
- 粗粒度筛选 → 全原子精修
- 实现"先广度后深度"的工作流
实验数据整合:
- 开发冷冻电镜密度图适配器
- 引入生物物理实验数据作为监督
动态过程预测:
- 结合分子动力学模拟
- 预测解离速率等动力学参数
在Terray的EMMI平台上,我们正将TerraBind扩展到数十亿规模的专有数据集训练,进一步突破现有技术边界。这种"粗粒度优先"的范式,正在重塑计算药物发现的技术栈。