酶改造中常拿到突变体的 三维结构(实验或 ESMFold / AlphaFold 预测),下一步是:活性口袋在哪、体积/表面积变了多少、深埋位点通道是否变窄。这类问题属于计算结构生物学中的口袋定位(detection)与表征(characterization),与 01 生物学篇 中的指征一一对应,但实现上依赖成熟软件与固定 SOP(standard operating procedure,标准操作规程)。
本文梳理原理分类、常用工具输出、四条推荐工作流、选型表、局限与方法演进,便于与 酶改造-04 各阶段工具 及下游动力学建模衔接。
缩写体例:缩写首次出现写「中文全称(English,ABB)」;段末 段末注释 释义;后文沿用缩写。
口袋结构系列:01 生物学概念与活性关联 · 02 预测计算(本文)
相关:酶改造-04 各阶段工具 · ESMFold 解读 · Rosetta 设计 · DeepEnzyme
1. 计算问题在酶改造中分解为三类
在 01 生物学篇 中,口袋被定义为功能相关的三维空腔。计算侧通常对应三个可独立实现、又常串联的子问题:
| 子问题 | 输入 | 输出 | 典型场景 |
|---|---|---|---|
| 定位(detection) | 三维结构(PDB/mmCIF) | 候选口袋列表 + 排序 | 新 fold、apo 结构不知活性位点在哪 |
| 表征(characterization) | 已知或已定位口袋 | 体积、SASA、疏水性等描述符 | WT vs 突变体批量对比 |
| 动态/通道(dynamics) | 轨迹或构象集合 | 口袋占有率、隧道半径 | 诱导契合、深埋活性位点 |
段末注释:PDB(Protein Data Bank,蛋白质结构数据库)存实验或预测坐标;mmCIF 为宏分子 Crystallographic Information File,PDB 新一代标准格式。
图 4(Nature Cell 风格示意,panel a):结构输入分化为几何(fpocket/CASTp)、机器学习(P2Rank)、隧道(CAVER)与动力学(mdpocket)四条分析路径,酶工程中常串联使用。
2. 方法分类与底层原理
2.1 几何法:空腔 = 表面上的「可放探针球」区域
核心思想:在蛋白溶剂可及表面(solvent accessible surface,SAS)或原子 Voronoi 镶嵌上,寻找能容纳探针球(probe sphere,半径常约 1.4–1.8 Å)的凹陷,再聚类为口袋。探针球含义见下文 §2.1.1 补充标注。
| 代表 | 原理要点 | 特点 |
|---|---|---|
| fpocket | Voronoi 镶嵌 → α-sphere 过滤与聚类 | 开源、极快、适合高通量;描述符丰富 |
| CASTp | α-shape 计算分子表面与空腔拓扑 | 体积/面积/通道定义严谨;Web 与本地版 |
| PASS / LIGSITE / SURFNET | 网格或射线扫描表面凹陷 | 早期经典;现多被 fpocket/P2Rank 取代 |
| DoGSite3 | 高斯差分滤波检测 blob | 药物发现场景多;可批量 |
α-sphere(fpocket)直觉:在 Voronoi 顶点放置与两邻原子同时相切的球;位于蛋白内部的较小 α-sphere 簇集即候选口袋。α-sphere 可视为 fpocket 语境下的一种探针球实例。
2.1.1 补充标注:探针球(probe sphere)
补充标注(探针球):几何口袋算法里,探针球不是真实原子,而是一颗半径固定的刚性虚拟球,用来客观定义「表面上的凹陷有多大」。算法让球心沿蛋白外表面滚动(或与原子保持相切、不相交);若某处还能在不碰原子的前提下进一步「缩进」,则该处比周围更空,可聚类为口袋的一部分。Lee & Richards(1971)经典 SAS 定义即用水分子尺度探针(约 1.4 Å)生成溶剂可及表面;CASTp 的 α-shape、fpocket 的 α-sphere 同属「探针定义空腔」思路,只是几何构造不同。
| 探针半径(约) | 常见含义 | 对口袋定义的影响 |
|---|---|---|
| 1.4 Å | 近似水分子半径 | SAS 经典默认;口袋边界相对「紧」 |
| 1.5 Å | 多数软件的常用默认 | 平衡溶剂可及与空腔灵敏度 |
| 1.8 Å | 略大的虚拟球 | 凹陷判定更宽,体积易偏大、假阳性增多 |
与酶工程的关系(易混点):
- 探针球回答的是:「至少能塞进多大的一团球体?」(几何空腔)。
- 它不等于真实底物(dNTP、多肽)或辅因子的大小;酶活性位点是否功能相关,仍需 CSA / UniProt 催化残基注释与 01 生物学指征 对照。
- 比较 WT 与突变体 ΔVolume 时,务必固定同一软件、同一探针/α-sphere 参数(写入 SOP),否则数值不可比。
直观类比:把蛋白表面当作地形,探针球像一颗固定大小的玻璃珠贴着地表滚——珠心能进入的低洼区即候选口袋;多片低洼连通后,算法再给出体积、SASA 等描述符(见 §3.1)。
段末注释:SAS(Solvent Accessible Surface Area,溶剂可及表面积)由探针球滚过分子表面得到;Å(ångström,埃)为 $10^{-10},\mathrm{m}$,结构生物学常用长度单位。
2.2 机器学习法:空腔 = 可配体结合的表面邻域
核心思想:在实验 蛋白–配体复合物 上训练,学习「哪些表面点更像结合位点」,再聚类为口袋。
| 代表 | 原理要点 | 特点 |
|---|---|---|
| P2Rank | 溶剂可及面打点 + 随机森林(Random Forest,RF)ligandability 分数 + 聚类 | Top-1 定位准确率常优于纯几何排序;可 rescore fpocket |
| DeepSite | 3D 体素 / 卷积神经网络(Convolutional Neural Network,CNN) | 深度学习早期代表 |
| DeepPocket | 对 fpocket 候选 3D-CNN 重打分 + 形状 refine | 几何 + 深度学习混合 |
| PUResNet 等 | 图/点云网络 | 新方法,常与 fpocket 候选联用 |
2.3 隧道与通道法:深埋位点 ↔ 表面
| 代表 | 原理 | 酶工程用途 |
|---|---|---|
| CAVER 3.x | 从指定起点(催化残基)向外搜索最大内切球路径 | 底物/产物通道、瓶颈半径 |
| MOLE 2.x | 类似通道检测 + 可视化 | 与 CAVER 互补 |
| MOLAXIS | 通道轴分析 | 文献较早,使用渐少 |
2.4 动力学扩展:单结构 → 构象集合
| 工具 | 原理 | 输出 |
|---|---|---|
| mdpocket(fpocket 套件) | 对 MD 每帧跑 fpocket,网格统计频率 | 口袋在轨迹中是否稳定存在 |
| PocketAnalyzer 类脚本 | 对齐轨迹后 cavity 体积时间序列 | 开放–关闭动力学 |
2.5 商用图形平台
| 平台 | 底层常基于 | 适用 |
|---|---|---|
| Schrödinger SiteMap | proprietary 几何 + 能量描述符 | 报告规范、MedChem 沟通 |
| MOE Site Finder | cavity 检测 | 快速可视化 |
| 3decision | fpocket | 企业口袋浏览器 |
3. 成熟工具详解与常用输出
3.1 fpocket 套件(开源首选)
| 程序 | 功能 |
|---|---|
| fpocket | 单结构检测 |
| dpocket | 多结构/多口袋 批量描述符 |
| mdpocket | 轨迹口袋频率 |
| tpocket | 自定义打分 benchmark |
单口袋常见描述符(*_info.txt):
| 描述符 | 含义 | 酶工程解读注意 |
|---|---|---|
| Score | fpocket 原始排序分 | 用于候选排序,非活性 |
| Druggability score | 0–1,药物样小分子倾向 | 肽/核酸酶活性位点常很低,不能当酶活 proxy |
| Volume | α-sphere 体积(ų) | WT/突变体 ΔVolume 常用 |
| Total / Polar / Apolar SASA | 溶剂可及表面积 | 极性界面变化→ $K_m$、离子 |
| Hydrophobicity score | 疏水程度 | 蛋白酶 S1 等 |
| # Alpha Spheres | 口袋离散程度 | 与定义稳定性相关 |
| Compactness | 紧凑/埋藏程度 | 小值→更 buried |
explicit pocket 模式:已知催化残基时,只计算指定空腔性质,避免找错口袋(酶改造 强烈推荐)。
3.2 P2Rank
仓库:rdk/p2rank
1 | # 示例:单 PDB 预测 |
- 优势:机器学习排序,定位 holo/apo 上已知位点的 Top-n 成功率较高。
- 输出:
*_predictions.csv(口袋中心、分数、残基列表)。
3.3 CASTp
- Web:CASTp(3.0 等版本)
- 输出:口袋 Volume、Area、mouth 数量、瓶颈 等,几何定义文献引用多。
3.4 CAVER
- 输入:结构 + 起点原子(催化 His/Ser、金属等)
- 输出:隧道长度、瓶颈半径、表面积;比较 WT/突变体 bottleneck 对解释 $k_{\mathrm{cat}}$ 释放限制很有用。
4. 推荐工作流(按场景)
4.1 工作流 A:定向进化库 → 批量突变体对比(最常用)
前提:有 WT 与突变体 同源叠合 结构(实验或 ESMFold/AlphaFold)。
图 5(Nature Cell 风格示意,panel a):Workflow A:叠合 → CSA 验证 → fpocket explicit / dpocket → Δ 描述符 → 与 $k_{\mathrm{cat}}$、$K_m$ 关联;高亮步骤为酶改造批量分析核心。
命令骨架:
1 | # 1. 单结构 fpocket |
选型依据:突变体 >10、需表格化 → fpocket + dpocket;结构来自 AF2 时检查 pLDDT(活性 loop < 70 谨慎)。
4.2 工作流 B:仅有 apo / 新 fold,不知口袋在哪
| 步骤 | 工具 |
|---|---|
| 1 | P2Rank predict |
| 2 | CSA / UniProt 验证 Top 口袋是否含催化残基 |
| 3 | fpocket explicit 量化描述符 |
| 4 | 若深埋 → CAVER |
选型依据:定位优先 P2Rank;量化再用 fpocket explicit。
4.3 工作流 C:活性变了,静态体积几乎不变
| 步骤 | 工具 |
|---|---|
| 1 | 短 MD 或 NMR ensemble |
| 2 | mdpocket -S(druggability 加权网格可选) |
| 3 | 催化 loop RMSF 与口袋占有率对照 |
选型依据:怀疑 诱导契合(见 01 §6.3)→ mdpocket;计算成本高,用于机制解释而非初筛。
4.4 工作流 D:设计闭环(计算设计 → 实验)
- Rosetta / ProteinMPNN 生成序列
- ESMFold 预测结构
- P2Rank + fpocket 检查催化残基是否仍落在 Top 口袋
- ΔVolume / 催化几何 过滤 → 合成/表达
5. 工具选型参考表
| 需求 | 首选 | 备选 | 不推荐单独使用 |
|---|---|---|---|
| 几百结构批量描述符 | dpocket | 自写 PyMOL/MDAnalysis | CASTp 手工 |
| apo 定位 | P2Rank | fpocket Top-3 + CSA | 仅 druggability 排序 |
| 论文级体积复核 | CASTp | fpocket explicit | 目测 |
| 深埋 + 通道 | CAVER | MOLE | 仅表面 fpocket |
| 构象动态 | mdpocket | POVME、CaverDock | 单晶体 fpocket |
| 药物化学报告 | SiteMap | 3decision | fpocket 默认 score |
| DL 重打分 | P2Rank rescore | DeepPocket | 未验证的新模型 |
结构来源考量:
| 结构类型 | 建议 |
|---|---|
| X-ray / cryo-EM holo | 金标准;注意 B-factor 反映柔性 |
| X-ray apo | 口袋可能偏开放;对比 holo |
| AlphaFold / ESMFold | 看 pLDDT;文献报道部分蛋白 口袋体积可系统性偏小;关键 loop 低置信区慎用 |
| 同源建模 | 活性区模板质量决定口袋可靠性 |
6. 局限性与常见误用
| 局限 | 说明 | 缓解 |
|---|---|---|
| 静态快照 | 晶体/单模型 AF2 只是构象分布一点 | mdpocket、多构象 ensemble |
| druggability ≠ 酶活 | 肽/核酸位点 score 可很低 | 用 CSA 验证;explicit pocket |
| 找口袋 ≠ 找催化 | 表面凹陷可能无功能 | 催化残基 + 保守性 |
| 预测结构误差 | loop 偏移数 Å 可改变体积 | pLDDT 掩码、实验验证 |
| 无配体/无金属 | apo 口袋形状偏离 holo | 同源 holo 建模、加离子 MD |
| 叠合误差 | 比较 ΔVolume 前必须可靠 superposition | US-align、催化 core 对齐 |
| 参数敏感 | fpocket 探针半径影响口袋数 | 固定 pipeline 参数写进 SOP |
7. 分析方法的发展路线
| 时期 | 代表方法 | 特征 |
|---|---|---|
| 1990s–2000s | SURFNET、LIGSITE、PASS;CASTp | 网格/射线;α-shape 拓扑测量 |
| 2009–2015 | fpocket;CAVER、MOLE | Voronoi + α-sphere 开源;酶隧道成熟 |
| 2016–2020 | P2Rank;mdpocket | ML 表面 ligandability;轨迹口袋频率 |
| 2020–至今 | DeepPocket、DeepSite;PLM+结构;AF2 全蛋白质组 | 3D-CNN 重打分;预测结构尺度 pocket 数据库 |
趋势归纳:
- 几何 → 几何+ML 排序:fpocket 找全,P2Rank/Deep 模型 rerank。
- 单结构 → ensemble:MD、AF2 sample、NMR 构象。
- 检测 → 检测+描述符+数据库:fpocket + dpocket + 大规模 cavity DB。
- 药物口袋 → 酶功能口袋:酶工程更强调 explicit pocket + 隧道 + 与动力学标签($k_{\mathrm{cat}}$)回归,而非 druggability。
与系列中 DeepEnzyme(接触图 + 图卷积网络,Graph Convolutional Network,GCN)可衔接:口袋描述符或 口袋内残基图 可作为结构分支特征(见 DeepEnzyme 文)。
段末注释:GCN 在图结构上做邻域消息传递的神经网络;与 fpocket 几何描述符属于不同层次的结构特征。
8. 与生物学指征的对应(读表用)
| 计算描述符 | 生物学含义(详见 01 篇) |
|---|---|
| Volume ↓ | 位阻、过渡态不稳定 |
| Polar SASA ↑ | 氢键识别、离子(dNTP) |
| Apolar SASA ↑ | 疏水底物锚定 |
| Compactness ↓(更 buried) | 选择性↑、交换可能↓ |
| CAVER bottleneck ↓ | 底物/产物传输限制 |
| mdpocket 占有率 ↓ | loop 不稳定或 apo 态偏移 |
9. 最小可复现示例清单
| 步骤 | 工具 | 产物 |
|---|---|---|
| 获取结构 | PDB / ESMFold | .pdb |
| 验证位点 | UniProt、CSA | 残基列表 |
| 定位 | P2Rank | Top 口袋 CSV |
| 量化 | fpocket explicit / dpocket | 描述符表 |
| 通道 | CAVER | bottleneck 报告 |
| 关联 | R / Python | Δ描述符 vs Δ$k_{\mathrm{cat}}$ |
软件安装提示:fpocket、P2Rank、CAVER 均有独立发行版;生产环境建议 Conda/Singularity 固定版本(与 pipeline Singularity 系列 衔接)。
小结
| 维度 | 要点 |
|---|---|
| 原理 | 几何(Voronoi/α-shape)vs ML(表面 ligandability)vs 通道(图搜索) |
| 成熟组合 | P2Rank 定位 + fpocket/dpocket 量化 + CAVER 隧道 |
| 选型 | 批量→fpocket;未知位点→P2Rank;复核→CASTp;动态→mdpocket |
| 局限 | 静态、druggability 误导、AF2 loop、必须叠合与 CSA 验证 |
| 趋势 | rerank、ensemble、与 PLM/酶动力学模型融合 |
计算输出必须回到 01 生物学篇 的机制框架中解释,并与 酶改造-01 评估指标 的实验读数对照,才能支撑聚合酶/蛋白酶改造决策。
延伸阅读
- Le Guilloux V 等,Fpocket: an open source platform for ligand pocket detection,BMC Bioinformatics,2009(fpocket 原始论文)。
- Krivák R, Hoksza D,P2Rank: machine learning based tool for rapid and accurate prediction of ligand binding sites,J Cheminform,2018。
- 本系列:口袋结构-01 生物学 · 酶改造-04 工具 · DeepEnzyme。
- 官方文档:fpocket GETTINGSTARTED · P2Rank · CAVER.
概念索引
| 术语 | 含义 |
|---|---|
| 探针球(probe sphere) | 半径固定的虚拟刚性球(常 1.4–1.8 Å),用于滚过表面、定义凹陷与 SAS;见 §2.1.1 |
| α-sphere | fpocket 中 Voronoi 顶点处的切球,是探针球思想的一种实现 |
| Explicit pocket | 指定残基集,只计算该空腔性质 |
| Ligandability | P2Rank 学习的「像配体结合点」分数 |
| Bottleneck | CAVER 隧道最窄处半径,常限制传输 |