口袋结构-02.预测计算、工作流与工具选型

酶改造中常拿到突变体的 三维结构(实验或 ESMFold / AlphaFold 预测),下一步是:活性口袋在哪、体积/表面积变了多少、深埋位点通道是否变窄。这类问题属于计算结构生物学中的口袋定位(detection)与表征(characterization),与 01 生物学篇 中的指征一一对应,但实现上依赖成熟软件与固定 SOP(standard operating procedure,标准操作规程)。

本文梳理原理分类常用工具输出四条推荐工作流选型表局限方法演进,便于与 酶改造-04 各阶段工具 及下游动力学建模衔接。

缩写体例:缩写首次出现写「中文全称(English,ABB)」;段末 段末注释 释义;后文沿用缩写。

口袋结构系列01 生物学概念与活性关联 · 02 预测计算(本文)

相关酶改造-04 各阶段工具 · ESMFold 解读 · Rosetta 设计 · DeepEnzyme


1. 计算问题在酶改造中分解为三类

01 生物学篇 中,口袋被定义为功能相关的三维空腔。计算侧通常对应三个可独立实现、又常串联的子问题:

子问题 输入 输出 典型场景
定位(detection) 三维结构(PDB/mmCIF) 候选口袋列表 + 排序 新 fold、apo 结构不知活性位点在哪
表征(characterization) 已知或已定位口袋 体积、SASA、疏水性等描述符 WT vs 突变体批量对比
动态/通道(dynamics) 轨迹或构象集合 口袋占有率、隧道半径 诱导契合、深埋活性位点

段末注释PDB(Protein Data Bank,蛋白质结构数据库)存实验或预测坐标;mmCIF 为宏分子 Crystallographic Information File,PDB 新一代标准格式。

计算口袋分析的四类方法:几何、机器学习、隧道与动力学(示意)

图 4(Nature Cell 风格示意,panel a):结构输入分化为几何(fpocket/CASTp)、机器学习(P2Rank)、隧道(CAVER)与动力学(mdpocket)四条分析路径,酶工程中常串联使用。


2. 方法分类与底层原理

2.1 几何法:空腔 = 表面上的「可放探针球」区域

核心思想:在蛋白溶剂可及表面(solvent accessible surface,SAS)或原子 Voronoi 镶嵌上,寻找能容纳探针球(probe sphere,半径常约 1.4–1.8 Å)的凹陷,再聚类为口袋。探针球含义见下文 §2.1.1 补充标注

代表 原理要点 特点
fpocket Voronoi 镶嵌α-sphere 过滤与聚类 开源、极快、适合高通量;描述符丰富
CASTp α-shape 计算分子表面与空腔拓扑 体积/面积/通道定义严谨;Web 与本地版
PASS / LIGSITE / SURFNET 网格或射线扫描表面凹陷 早期经典;现多被 fpocket/P2Rank 取代
DoGSite3 高斯差分滤波检测 blob 药物发现场景多;可批量

α-sphere(fpocket)直觉:在 Voronoi 顶点放置与两邻原子同时相切的球;位于蛋白内部的较小 α-sphere 簇集即候选口袋。α-sphere 可视为 fpocket 语境下的一种探针球实例。

2.1.1 补充标注:探针球(probe sphere)

补充标注(探针球):几何口袋算法里,探针球不是真实原子,而是一颗半径固定的刚性虚拟球,用来客观定义「表面上的凹陷有多大」。算法让球心沿蛋白外表面滚动(或与原子保持相切、不相交);若某处还能在不碰原子的前提下进一步「缩进」,则该处比周围更空,可聚类为口袋的一部分。Lee & Richards(1971)经典 SAS 定义即用水分子尺度探针(约 1.4 Å)生成溶剂可及表面;CASTp 的 α-shape、fpocket 的 α-sphere 同属「探针定义空腔」思路,只是几何构造不同。

探针半径(约) 常见含义 对口袋定义的影响
1.4 Å 近似水分子半径 SAS 经典默认;口袋边界相对「紧」
1.5 Å 多数软件的常用默认 平衡溶剂可及与空腔灵敏度
1.8 Å 略大的虚拟球 凹陷判定更宽,体积易偏大、假阳性增多

与酶工程的关系(易混点)

  • 探针球回答的是:「至少能塞进多大的一团球体?」(几何空腔)。
  • 不等于真实底物(dNTP、多肽)或辅因子的大小;酶活性位点是否功能相关,仍需 CSA / UniProt 催化残基注释与 01 生物学指征 对照。
  • 比较 WT 与突变体 ΔVolume 时,务必固定同一软件、同一探针/α-sphere 参数(写入 SOP),否则数值不可比。

直观类比:把蛋白表面当作地形,探针球像一颗固定大小的玻璃珠贴着地表滚——珠心能进入的低洼区即候选口袋;多片低洼连通后,算法再给出体积、SASA 等描述符(见 §3.1)。

段末注释SAS(Solvent Accessible Surface Area,溶剂可及表面积)由探针球滚过分子表面得到;Å(ångström,埃)为 $10^{-10},\mathrm{m}$,结构生物学常用长度单位。

2.2 机器学习法:空腔 = 可配体结合的表面邻域

核心思想:在实验 蛋白–配体复合物 上训练,学习「哪些表面点更像结合位点」,再聚类为口袋。

代表 原理要点 特点
P2Rank 溶剂可及面打点 + 随机森林(Random Forest,RF)ligandability 分数 + 聚类 Top-1 定位准确率常优于纯几何排序;可 rescore fpocket
DeepSite 3D 体素 / 卷积神经网络(Convolutional Neural Network,CNN) 深度学习早期代表
DeepPocket 对 fpocket 候选 3D-CNN 重打分 + 形状 refine 几何 + 深度学习混合
PUResNet 等 图/点云网络 新方法,常与 fpocket 候选联用

2.3 隧道与通道法:深埋位点 ↔ 表面

代表 原理 酶工程用途
CAVER 3.x 指定起点(催化残基)向外搜索最大内切球路径 底物/产物通道、瓶颈半径
MOLE 2.x 类似通道检测 + 可视化 与 CAVER 互补
MOLAXIS 通道轴分析 文献较早,使用渐少

2.4 动力学扩展:单结构 → 构象集合

工具 原理 输出
mdpocket(fpocket 套件) 对 MD 每帧跑 fpocket,网格统计频率 口袋在轨迹中是否稳定存在
PocketAnalyzer 类脚本 对齐轨迹后 cavity 体积时间序列 开放–关闭动力学

2.5 商用图形平台

平台 底层常基于 适用
Schrödinger SiteMap proprietary 几何 + 能量描述符 报告规范、MedChem 沟通
MOE Site Finder cavity 检测 快速可视化
3decision fpocket 企业口袋浏览器

3. 成熟工具详解与常用输出

3.1 fpocket 套件(开源首选)

仓库:Discngine/fpocket

程序 功能
fpocket 单结构检测
dpocket 多结构/多口袋 批量描述符
mdpocket 轨迹口袋频率
tpocket 自定义打分 benchmark

单口袋常见描述符*_info.txt):

描述符 含义 酶工程解读注意
Score fpocket 原始排序分 用于候选排序,非活性
Druggability score 0–1,药物样小分子倾向 肽/核酸酶活性位点常很低,不能当酶活 proxy
Volume α-sphere 体积(ų) WT/突变体 ΔVolume 常用
Total / Polar / Apolar SASA 溶剂可及表面积 极性界面变化→ $K_m$、离子
Hydrophobicity score 疏水程度 蛋白酶 S1 等
# Alpha Spheres 口袋离散程度 与定义稳定性相关
Compactness 紧凑/埋藏程度 小值→更 buried

explicit pocket 模式:已知催化残基时,只计算指定空腔性质,避免找错口袋(酶改造 强烈推荐)。

3.2 P2Rank

仓库:rdk/p2rank

1
2
3
4
# 示例:单 PDB 预测
./prank predict -f protein.pdb -o output_dir
# 与 fpocket 联用
./prank fpocket-rescore -f protein.pdb
  • 优势:机器学习排序,定位 holo/apo 上已知位点的 Top-n 成功率较高。
  • 输出*_predictions.csv(口袋中心、分数、残基列表)。

3.3 CASTp

  • Web:CASTp(3.0 等版本)
  • 输出:口袋 VolumeAreamouth 数量、瓶颈 等,几何定义文献引用多。

3.4 CAVER

  • 输入:结构 + 起点原子(催化 His/Ser、金属等)
  • 输出:隧道长度、瓶颈半径、表面积;比较 WT/突变体 bottleneck 对解释 $k_{\mathrm{cat}}$ 释放限制很有用。

4. 推荐工作流(按场景)

4.1 工作流 A:定向进化库 → 批量突变体对比(最常用)

前提:有 WT 与突变体 同源叠合 结构(实验或 ESMFold/AlphaFold)。

批量突变体口袋分析 Workflow A:叠合、验证、fpocket/dpocket、与酶活关联(示意)

图 5(Nature Cell 风格示意,panel a):Workflow A:叠合 → CSA 验证 → fpocket explicit / dpocket → Δ 描述符 → 与 $k_{\mathrm{cat}}$、$K_m$ 关联;高亮步骤为酶改造批量分析核心。

命令骨架

1
2
3
4
5
6
7
8
# 1. 单结构 fpocket
fpocket -f wt.pdb

# 2. 批量描述符(配置 dpocket 输入列表:结构 + 口袋残基)
dpocket -f dpocket.in

# 3. 结构叠合(示例:US-align)
USalign mutant.pdb wt.pdb -mm 1 -ter 0

选型依据:突变体 >10、需表格化 → fpocket + dpocket;结构来自 AF2 时检查 pLDDT(活性 loop < 70 谨慎)。

4.2 工作流 B:仅有 apo / 新 fold,不知口袋在哪

步骤 工具
1 P2Rank predict
2 CSA / UniProt 验证 Top 口袋是否含催化残基
3 fpocket explicit 量化描述符
4 若深埋 → CAVER

选型依据定位优先 P2Rank量化再用 fpocket explicit。

4.3 工作流 C:活性变了,静态体积几乎不变

步骤 工具
1 MD 或 NMR ensemble
2 mdpocket -S(druggability 加权网格可选)
3 催化 loop RMSF 与口袋占有率对照

选型依据:怀疑 诱导契合(见 01 §6.3)→ mdpocket;计算成本高,用于机制解释而非初筛。

4.4 工作流 D:设计闭环(计算设计 → 实验)

  1. Rosetta / ProteinMPNN 生成序列
  2. ESMFold 预测结构
  3. P2Rank + fpocket 检查催化残基是否仍落在 Top 口袋
  4. ΔVolume / 催化几何 过滤 → 合成/表达

5. 工具选型参考表

需求 首选 备选 不推荐单独使用
几百结构批量描述符 dpocket 自写 PyMOL/MDAnalysis CASTp 手工
apo 定位 P2Rank fpocket Top-3 + CSA 仅 druggability 排序
论文级体积复核 CASTp fpocket explicit 目测
深埋 + 通道 CAVER MOLE 仅表面 fpocket
构象动态 mdpocket POVME、CaverDock 单晶体 fpocket
药物化学报告 SiteMap 3decision fpocket 默认 score
DL 重打分 P2Rank rescore DeepPocket 未验证的新模型

结构来源考量

结构类型 建议
X-ray / cryo-EM holo 金标准;注意 B-factor 反映柔性
X-ray apo 口袋可能偏开放;对比 holo
AlphaFold / ESMFold pLDDT;文献报道部分蛋白 口袋体积可系统性偏小;关键 loop 低置信区慎用
同源建模 活性区模板质量决定口袋可靠性

6. 局限性与常见误用

局限 说明 缓解
静态快照 晶体/单模型 AF2 只是构象分布一点 mdpocket、多构象 ensemble
druggability ≠ 酶活 肽/核酸位点 score 可很低 CSA 验证;explicit pocket
找口袋 ≠ 找催化 表面凹陷可能无功能 催化残基 + 保守性
预测结构误差 loop 偏移数 Å 可改变体积 pLDDT 掩码、实验验证
无配体/无金属 apo 口袋形状偏离 holo 同源 holo 建模、加离子 MD
叠合误差 比较 ΔVolume 前必须可靠 superposition US-align、催化 core 对齐
参数敏感 fpocket 探针半径影响口袋数 固定 pipeline 参数写进 SOP

7. 分析方法的发展路线

时期 代表方法 特征
1990s–2000s SURFNET、LIGSITE、PASS;CASTp 网格/射线;α-shape 拓扑测量
2009–2015 fpocketCAVER、MOLE Voronoi + α-sphere 开源;酶隧道成熟
2016–2020 P2Rankmdpocket ML 表面 ligandability;轨迹口袋频率
2020–至今 DeepPocket、DeepSite;PLM+结构;AF2 全蛋白质组 3D-CNN 重打分;预测结构尺度 pocket 数据库

趋势归纳

  1. 几何 → 几何+ML 排序:fpocket 找全,P2Rank/Deep 模型 rerank
  2. 单结构 → ensemble:MD、AF2 sample、NMR 构象。
  3. 检测 → 检测+描述符+数据库:fpocket + dpocket + 大规模 cavity DB。
  4. 药物口袋 → 酶功能口袋:酶工程更强调 explicit pocket + 隧道 + 与动力学标签($k_{\mathrm{cat}}$)回归,而非 druggability。

与系列中 DeepEnzyme(接触图 + 图卷积网络,Graph Convolutional Network,GCN)可衔接:口袋描述符或 口袋内残基图 可作为结构分支特征(见 DeepEnzyme 文)。

段末注释GCN 在图结构上做邻域消息传递的神经网络;与 fpocket 几何描述符属于不同层次的结构特征。


8. 与生物学指征的对应(读表用)

计算描述符 生物学含义(详见 01 篇)
Volume ↓ 位阻、过渡态不稳定
Polar SASA ↑ 氢键识别、离子(dNTP)
Apolar SASA ↑ 疏水底物锚定
Compactness ↓(更 buried) 选择性↑、交换可能↓
CAVER bottleneck ↓ 底物/产物传输限制
mdpocket 占有率 ↓ loop 不稳定或 apo 态偏移

9. 最小可复现示例清单

步骤 工具 产物
获取结构 PDB / ESMFold .pdb
验证位点 UniProt、CSA 残基列表
定位 P2Rank Top 口袋 CSV
量化 fpocket explicit / dpocket 描述符表
通道 CAVER bottleneck 报告
关联 R / Python Δ描述符 vs Δ$k_{\mathrm{cat}}$

软件安装提示:fpocket、P2Rank、CAVER 均有独立发行版;生产环境建议 Conda/Singularity 固定版本(与 pipeline Singularity 系列 衔接)。


小结

维度 要点
原理 几何(Voronoi/α-shape)vs ML(表面 ligandability)vs 通道(图搜索)
成熟组合 P2Rank 定位 + fpocket/dpocket 量化 + CAVER 隧道
选型 批量→fpocket;未知位点→P2Rank;复核→CASTp;动态→mdpocket
局限 静态、druggability 误导、AF2 loop、必须叠合与 CSA 验证
趋势 rerank、ensemble、与 PLM/酶动力学模型融合

计算输出必须回到 01 生物学篇 的机制框架中解释,并与 酶改造-01 评估指标 的实验读数对照,才能支撑聚合酶/蛋白酶改造决策。


延伸阅读


概念索引

术语 含义
探针球(probe sphere) 半径固定的虚拟刚性球(常 1.4–1.8 Å),用于滚过表面、定义凹陷与 SAS;见 §2.1.1
α-sphere fpocket 中 Voronoi 顶点处的切球,是探针球思想的一种实现
Explicit pocket 指定残基集,只计算该空腔性质
Ligandability P2Rank 学习的「像配体结合点」分数
Bottleneck CAVER 隧道最窄处半径,常限制传输
-------------本文结束感谢您的阅读-------------