结构预测-01.结构准确度评价指标

结构准确度(structure accuracy)指:在已有参考结构(reference structure,通常为 X-ray / cryo-EM 解析的 PDB 条目,或公认的同源模板)的前提下,预测坐标与参考之间偏差的可量化度量。本文只讨论这类「对照金标准」的误差指标,不涉及 pLDDTPAE 等模型自评置信度

对蛋白酶、聚合酶等改造场景,全局折叠正确并不保证催化三联体S1 口袋loop 几何正确;因此除全链指标外,还需局部功能位点的准确度报告。

缩写体例:缩写首次出现写「中文全称(English,ABB)」;段末 段末注释 释义;后文沿用缩写。


1. 评价前必须统一的协议

准确度数值不是 intrinsic 常数,强烈依赖下列约定;论文与内部 SOP 必须写清,否则不同实验室结果不可比。

协议项 常见选择 影响
参考结构 holo / apo 晶体;NMR ensemble 某一构象 apo 与 holo 口袋形状可差数 Å
叠合方式 全链 Cα;仅结构域;仅活性位点残基 同一对结构,RMSD 可差数倍
原子集合 Cα;主链;全原子(含侧链) 侧链 RMSD 通常大于 Cα
序列对齐 相同 UniProt 编号;缺口/插入如何处理 错位会直接 inflate 误差
寡聚态 单体 vs 生物学组装单元 结构域相对取向是否纳入

Kabsch 叠合(Kabsch alignment):在最小化均方偏差意义下,求最优旋转平移,使预测结构与参考结构对齐。除专门说明「未叠合 RMSD」外,下文 RMSD 均指叠合后 RMSD。

Kabsch 叠合示意

图 1 Kabsch 叠合:叠合前预测与参考坐标系不一致,无法直接比较 RMSD;叠合后求最优旋转平移,对应原子间的偏差方可汇总为 RMSD。

段末注释PDB(Protein Data Bank,蛋白质结构数据库)存实验或提交的坐标;Å(ångström,埃)为 $10^{-10},\mathrm{m}$,结构生物学常用长度单位。


2. 全局结构准确度

2.1 RMSD(均方根偏差)

均方根偏差(root-mean-square deviation,RMSD)是最直观的坐标误差:

[
\mathrm{RMSD} = \sqrt{\frac{1}{N}\sum_{i=1}^{N} |\mathbf{x}_i - \mathbf{y}_i|^2}
]

其中 $\mathbf{x}_i$、$\mathbf{y}_i$ 为预测与参考中第 $i$ 个对应原子的三维坐标,$N$ 为参与计算的原子数。

原子集合 典型用途 经验解读(全链 Cα,仅作粗参考)
Cα RMSD CASP、方法学论文最常见 < 2 Å 常视为整体折叠较好
主链 RMSD 略严于 Cα 略大于 Cα RMSD
全原子 RMSD 侧链 packing 评估 < 1.5 Å 可称高精度;蛋白酶柔性 loop 区常拖高

优点:定义简单、物理意义直接。
局限

  • 少数局部大偏差不敏感(长链上 90% 残基很准、活性 loop 错了,全局 RMSD 仍可能「好看」);
  • 结构域相对滑动可能部分被吸收在叠合中;
  • 长度依赖:不宜跨不同长度蛋白直接比较(应用 TM-score 等归一化指标)。

RMSD 示意

图 2 RMSD:叠合后逐原子偏差 $\Delta_i$ 的均方根;全局 Cα RMSD < 2 Å 常视为折叠较好,但对少数局部大偏差不敏感。

2.2 TM-score(模板建模分数)

TM-score(Template Modeling score)在叠合后,基于 Cα 距离转换得到 0–1 分数,对链长有归一化:

  • ≥ 0.5:通常认为整体拓扑与参考一致(同一 fold 族);
  • ≥ 0.7:高度相似;
  • < 0.3:一般视为随机无关结构水平。

计算常用 TM-alignUS-align 等程序;US-align 还支持核酸与复合物。

适用:比较不同长度蛋白、报告「预测是否 fold 对」;远缘同源、序列相似度低但结构接近的酶(如 EC 1.3.3.4 案例)适合用 TM-score 而非仅看序列同一性。

TM-score 示意

图 3 TM-score:0–1 长度归一化分数;≥ 0.5 通常表示拓扑一致,≥ 0.7 高度相似;可跨不同长度蛋白比较 fold 相似性。

段末注释TM-align 为 Zhang 实验室开发的结构对齐与 TM-score 计算程序。

2.3 GDT-TS 与 GDT-HA

全局距离检验(Global Distance Test,GDT)源于 CASP(Critical Assessment of protein Structure Prediction,蛋白质结构预测关键评估)社区:

  • 对每个阈值 $\delta$,统计 Cα 偏差 < $\delta$ 的残基比例 $P(\delta)$;
  • GDT-TS(total score):$\delta \in {1, 2, 4, 8},\mathrm{Å}$ 的 $P(\delta)$ 平均,再化为 0–100 分;
  • GDT-HA(high accuracy):$\delta \in {0.5, 1, 2, 4},\mathrm{Å}$,用于高精度子集评估。

解读:GDT-TS 80+ 通常表示很好的预测;GDT-HA 对侧链附近几何更苛刻。CASP 官方排名长期以 GDT 系指标为主。

GDT 示意

图 4 GDT:以 1、2、4、8 Å(GDT-TS)或 0.5、1、2、4 Å(GDT-HA)为阈值,统计 Cα 偏差落在各阈值内的残基比例 $P(\delta)$ 并取平均,化为 0–100 分。

2.4 lDDT 与 lDDT-Cα

局部距离差检验(local Distance Difference Test,lDDT)比较预测与参考在局部邻域(常取 15 Å 内原子对)距离矩阵的一致性,而非仅叠合后的坐标 RMSD:

  • 输出 0–1(或 0–100);
  • lDDT-Cα 仅基于 Cα–Cα 距离;
  • > 0.8(或 80)常视为高质量;0.6–0.8 中等。

优点:对局部错误(loop、接口、口袋边界)比全局 RMSD 更敏感。
用途:活性位点邻域质量、与 DSSP 二级结构注释联合分析时的局部校验。

lDDT 示意

图 5 lDDT:比较预测与参考在 ~15 Å 邻域内原子对距离矩阵的一致性;对 loop、接口等局部错误比全局 RMSD 更敏感。

段末注释lDDT 与模型输出的 pLDDT 名称相近但含义不同:lDDT 需要参考结构,是准确度;pLDDT 无参考,是置信度(本文不展开)。


3. 局部与功能位点准确度

蛋白酶、聚合酶改造中,催化几何往往集中在十数个残基;以下指标应作为全局指标的必要补充

3.1 活性位点 RMSD / lDDT

  1. CSA(Catalytic Site Atlas,催化位点图谱)或 UniProt Active site 字段取得催化残基列表;
  2. 将预测与参考按全链 Cα仅活性位点 Cα 叠合;
  3. 仅对催化残基(及 flanking ±3~5 残基,按研究问题定义)计算 RMSDlDDT
区域 对酶活的可能关联
催化三联体 Cα RMSD > 1.5 Å 可能影响 $k_{\mathrm{cat}}$
S1 / 底物识别区 RMSD 偏大 可能影响 $K_m$、底物特异性
聚合酶 finger–thumb 相对取向误差 可能影响 closed/open 构象与持续合成

活性位点 RMSD 示意

图 6 从 CSA / UniProt 取得催化残基,在全链或活性位点叠合后单独计算局部 RMSD 或 lDDT;催化三联体 Cα RMSD > 1.5 Å 可能影响 $k_{\mathrm{cat}}$。

3.2 关键 loop 与结构域界面

  • Loop RMSD:单独选取 S1 环、氧阴离子穴周围 loop 等柔性区;
  • 结构域 RMSD:多结构域蛋白酶(如某些金属蛋白酶、聚合酶)按结构域叠合后分别报各域 RMSD 与域间相对取向(可用域间 Cα RMSD 或旋转角误差描述)。

柔性区在实验结构中可能缺失;与 NMR ensemble 或多构象 cryo-EM 对比时,宜报对 ensemble 中最接近构象的误差,而非单一构象。

Loop 与结构域示意

图 7 左:S1 loop 等柔性区单独报 Loop RMSD,避免被刚性核心「掩盖」;右:多结构域蛋白分别叠合各域并评估域间相对取向误差。

3.3 二级结构元素准确度

在有三维坐标的前提下,用 DSSP 注释预测与参考的二级结构,可报:

指标 含义
Q3 三态(H/E/C)分类准确率
SOV(Segment Overlap score) 对片段连续性更敏感的分段重叠分数

loop 被错误判为 $\alpha$ 螺旋或 $\beta$ 折叠,会直接影响口袋边界与体积估计。

DSSP Q3/SOV 示意

图 8 用 DSSP 注释预测与参考的三态二级结构(H/E/C),报 Q3 分类准确率与对片段连续性更敏感的 SOV 分数。

3.4 侧链与氢键几何(高精度要求时)

全原子预测或侧链 repacking 后,可进一步报:

  • 催化组原子(如 Ser Oγ、His Nε)到底物参考点的距离误差;
  • 氢键长度、角度偏差(需定义阈值,如 < 0.5 Å / 20°);
  • Rotamer 状态是否与参考一致(蛋白酶底物识别区 P1 侧链方向)。

计算成本高于 Cα 指标,多用于个案机制研究或方法 benchmark 的高精度子集。

侧链与氢键几何示意

图 9 全原子精度下评估 rotamer 状态、催化原子到底物参考点距离,以及氢键长度/角度是否落在阈值(如 < 0.5 Å / 20°)内。


4. 复合物与配体相关准确度

含抑制剂、肽段底物或核酸的 holo 结构:

指标 定义概要 常用阈值(经验)
配体 RMSD 叠合蛋白后,配体 heavy-atom RMSD < 2 Å 常认为结合模式大致正确
DockQ 综合界面与配体位置的单一分数 0–1 > 0.23 可接受;> 0.49 较好;> 0.8 近实验精度
界面 RMSD 仅界面残基 Cα 蛋白–蛋白、蛋白–核酸复合物

注意:holo 参考下 apo 预测必然误差大;比较时应统一 holo vs holo 或明确说明 apo 预测的局限。

配体 RMSD 与 DockQ 示意

图 10 左:蛋白叠合后配体 heavy-atom RMSD < 2 Å 常表示结合模式大致正确;右:DockQ 综合界面 Fnat、LRMSD、iRMSD 映射为 0–1 单一分数。

段末注释DockQ 由界面 FnatLRMSDiRMSD 等组合映射到 0–1,用于蛋白–蛋白或蛋白–配体对接评估。


5. 设计验证中的「结构准确度」变体

逆折叠、de novo 设计流程中,常用目标骨架作 reference(未必有实验结构):

指标 定义
scRMSD 设计序列经结构预测器再折叠,与设计目标骨架的 Cα RMSD
scTM 同上,报 TM-score

这仍属「对 reference 结构的准确度」,reference 是设计意图而非 PDB 实验结构。经验上 scTM > 0.5scRMSD < 2 Å 常作可合成候选的粗筛;与实验解析结构的 RMSD 不是同一层次的金标准。

scRMSD / scTM 示意

图 11 逆折叠设计流程:目标骨架 → 设计序列 → 结构预测再折叠 → 与目标骨架对比 scRMSD / scTM,评估设计自洽性。


6. 基准测试与分层报告(方法学论文惯例)

6.1 社区盲测

基准 说明
CASP withheld 靶标,主报 GDT-TS / GDT-HA、TM-score
CAMEO 持续自动评估,适合跟踪服务器版本

6.2 按难度分层

避免「测试集与训练集过近」导致准确度虚高:

分层维度 做法
序列相似度 MMseqs2 将测试样本按与训练集同一性分为 0–50%、50–90%、90–100%
结构相似度 Foldseek、US-align TM-score 分层
蛋白类型 单独统计蛋白酶、膜蛋白、大复合物
长度 短链(<100 aa)vs 长链

每层分别报 RMSD / TM-score / lDDT 的中位数与分位数,而非仅报全测试集平均。

6.3 统计报告建议

  • median90th percentile,不只 mean(少数失败案例会拉偏均值);
  • success rate:如 TM-score ≥ 0.5 的靶标比例;
  • 对蛋白酶子集单独给 活性位点 lDDT 分布。

7. 蛋白酶场景:推荐最小报告集

优先级 指标 说明
必报 全链 Cα RMSD + TM-score(或 GDT-TS 整体 fold 是否正确
必报 催化残基 局部 RMSDlDDT 功能几何
建议 关键 loop(如 S1)局部 RMSD 底物识别、诱导契合
holo 有参考时 配体 RMSDDockQ 口袋与抑制剂模式
方法学 序列相似度分层 的 TM-score / lDDT 泛化能力

不建议仅用全链 Cα RMSD < 2 Å 断言「活性位点可用于酶活建模」;丝氨酸蛋白酶等体系中,数 Å 的 loop 偏差即可改变口袋体积与催化几何。


8. 常用工具速查

任务 工具
叠合 + RMSD + TM-score TM-align、US-align、PyMOL align
GDT CASP 官方脚本、LGA
lDDT OpenStructure、BioPython 生态、CASP 评估包
二级结构对比 mkdssp + 自写 Q3/SOV
复合物 DockQ 程序
批量结构搜索 Foldseek

9. 指标对照总表

指标 需参考结构 越高/越低越好 主要看什么
Cα RMSD 越低越好 叠合后全局坐标偏差
TM-score 越高越好(≥0.5 拓扑对) 长度归一化的 fold 相似性
GDT-TS / GDT-HA 越高越好 CASP 标准全局准确度
lDDT / lDDT-Cα 越高越好 局部距离网络一致性
活性位点 RMSD 越低越好 催化几何
Q3 / SOV 越高越好 二级结构分类
配体 RMSD 越低越好 结合模式
DockQ 越高越好 复合物整体
scRMSD / scTM 是(目标骨架) RMSD↓ / TM↑ 设计自洽对目标结构

小结

结构准确度评价的核心是:在明确 reference 与叠合协议的前提下,用全局指标(RMSD、TM-score、GDT、lDDT)回答「fold 对不对」,用局部指标(活性位点 RMSD、loop、配体 RMSD)回答「功能位点能不能用」。蛋白酶改造应默认采用「全局 + 活性位点」双层报告,并按序列/结构相似度分层,避免被全链平均数掩盖关键 loop 错误。


概念索引

术语 含义
RMSD 叠合后对应原子坐标偏差的均方根
TM-score 0–1,长度归一化的 fold 相似度
GDT 多阈值 Cα 偏差比例平均,CASP 主指标
lDDT 局部距离矩阵与参考的一致性
DockQ 蛋白–配体/蛋白–蛋白复合物质量综合分
CASP 蛋白质结构预测社区盲测
CSA 催化位点残基数据库
-------------本文结束感谢您的阅读-------------