Embedding-02.蛋白Embedding模型评价标准与常用方法

蛋白 Embedding 指将氨基酸序列(或序列 + 结构/功能上下文)映射为稠密向量或逐残基表征,供同源检索、突变效应排序、功能注释、稳定性预测等任务使用。主流实现来自 蛋白质语言模型(Protein Language Model,PLM)——如 ESM-2ProtBERTProtT5Ankh 等——而非通用文本 Embedding(BGE、OpenAI text-embedding 等)。

通用文本 Embedding 的 MTEB 评测框架见 Embedding-01.模型性能对比与评测方法;PLM 背景见 酶改造-04.模型架构-PLMs。本文专述蛋白域的评价标准、公开基准与常用实践。

缩写体例:缩写首次出现写「中文全称(English,ABB)」;段末 段末注释 释义;后文沿用缩写。


1. 先区分「评什么模型」

蛋白相关模型常被混称「Embedding 模型」,但评测目标与接口不同,不可横向比单一分数:

类型 代表 主要输出 典型评测
序列 PLM ESM-2、ProtBERT、ProtT5、Ankh 残基/序列向量、MLM logits TAPE、ProteinGym、相似度检索
突变效应专精 ESM-1v、ESM-2 零样本打分 突变有害性/适应度排序 DMS Spearman、AUC
结构预测 ESMFold、AlphaFold2 三维坐标、pLDDT TM-score、lDDT(见结构预测篇)
逆折叠 ESM-IF1、ProteinMPNN 给定骨架的序列 序列恢复率、天然性
酶动力学监督 DeepEnzyme 等 $k_{\mathrm{cat}}$、$K_m$ 回归 $R^2$、Spearman(非通用 PLM 基准)

核心原则:序列表征 PLM 评的是嵌入空间是否编码进化与结构约束;结构模型评的是坐标准确度——二者互补,不能用一个排行榜替代另一个。

段末注释PLM 在蛋白序列上做自监督预训练;MLM(Masked Language Modeling,掩码语言建模)为遮盖残基再预测的训练目标;logits 为模型对各氨基酸类别的未归一化打分。


2. 评测维度总览

蛋白 Embedding 评测维度

图 1 蛋白 Embedding 评测维度:序列表征质量、结构/功能探针、进化与突变效应、公开基准与酶工程自有数据共同决定选型;ESMFold 结构分数不能替代 PLM 嵌入分数

维度 典型指标 适用场景
表征探针 Q3/Q8、Top-$L$ contact、Remote homology Acc 检验嵌入是否含结构与进化信息
突变/适应度 Spearman $\rho$、AUC、NDCG@$k$ 定向进化、DMS 辅助排序
序列相似度 余弦相似度、家族内/跨家族检索 同源库筛选、聚类
功能回归 $R^2$、Spearman(稳定性、荧光等) 代理任务,非酶活本身
酶工程落地 与实验读数(保真度、$k_{\mathrm{cat}}$、热稳定)相关 自有 DMS / 筛选数据
工程 最大序列长度、ms/残基、显存 长酶、批量 encode

3. 表征提取协议(对比前必须统一)

同一 PLM 的不同取法,TAPE 分数可差数个百分点。论文与内部报告须写清:

协议项 常见选择 影响
表征层级 最后一层 / 中间层(如 ESM-2 第 33 层)/ 多层加权 结构任务常中间层更优
池化 均值池化、CLS token、仅活性位点残基 序列级 vs 位点级任务
微调 冻结 + 线性探针 / 全参数微调 / LoRA 「零样本」与「微调」不可混报
序列截断 头截断、尾截断、居中窗口 长聚合酶常丢结构域
MSA 单序列 vs 含 MSA 的模型 AlphaFold 系与纯 PLM 输入不同
随机种子 探针训练 seed、数据划分 小数据集方差大

序列级嵌入(整条酶一个向量):

[
\mathbf{e}{\mathrm{seq}} = \frac{1}{L}\sum{i=1}^{L} \mathbf{h}_i
]

其中 $\mathbf{h}_i$ 为第 $i$ 个残基的 hidden state,$L$ 为有效序列长度(不含 special token 依实现而定)。

残基级嵌入用于接触预测、位点突变、活性口袋分析:直接取 $\mathbf{h}_i$,或拼接 $(\mathbf{h}_i, \mathbf{h}_j)$ 预测残基对关系。

段末注释MSA(Multiple Sequence Alignment,多序列比对)将同源序列按位对齐;CLS 为部分模型插入的聚合 token。


4. 公开基准与评价标准

4.1 TAPE — 蛋白质嵌入经典探针集

蛋白质嵌入评估任务集(Tasks Assessing Protein Embeddings,TAPE)是 PLM 领域最广泛引用的探针基准,不直接提供酶动力学标签。

子任务 标签类型 主指标 解读
Secondary Structure 每残基 Q3/Q8 Accuracy、F1 局部构象是否编码
Contact Prediction 残基对接触(Cβ 距离 < 8 Å) Precision@$L$Top-$L$ 共进化/长程依赖
Remote Homology fold / superfamily / family Accuracy 远缘分类,检验进化信号
Fluorescence 连续荧光强度 Spearman $\rho$ 稳定性代理,非酶活
Stability 熔解温度等 Spearman $\rho$、MSE 热稳定相关

Contact Prediction 常用 Top-$L/5$ 精度:对长度为 $L$ 的蛋白,取模型预测得分最高的 $L/5$ 对残基,计算其中真实接触的比例:

[
\mathrm{P@}L/5 = \frac{1}{L/5}\sum_{(i,j) \in \mathrm{Top}\text{-}L/5} \mathbb{1}[\text{contact}(i,j)]
]

Remote Homology 必须在官方 train/valid/test 划分上报告,防止同源泄漏。

1
2
3
4
5
6
7
8
9
# TAPE 探针示例(冻结 PLM + 线性头,以 secondary_structure 为例)
from tape import ProteinBertModel, TAPETaskRunner
from tape.tasks import SecondaryStructureTask

model = ProteinBertModel.from_pretrained("bert-base")
task = SecondaryStructureTask(model, num_labels=8)
runner = TAPETaskRunner(model=model, task=task, ...)
runner.train()
metrics = runner.evaluate() # 报告 valid/test Q8 accuracy

段末注释TAPE 由 Song 实验室提出;Q3/Q8 为 3 态/8 态二级结构分类;Remote Homology 测试远缘蛋白家族分类能力。

4.2 ProteinGym — 突变效应金标准

ProteinGym 汇总数百个 深度突变扫描(Deep Mutational Scanning,DMS)实验,是评估突变效应预测(含 PLM 零样本打分)的首选基准。

指标 含义 使用场景
Spearman $\rho$ 预测分与实验适应度排序相关 最常用,跨 assay 可比性较好
AUC 有害 vs 中性二分类 cut-off 明确时
NDCG@$k$ Top-$k$ 突变是否富集高适应度 定向进化「先筛后测」
MCC Matthews 相关系数 类别不平衡

零样本 PLM 打分(以 MLM 对数似然比为例):对位点 $i$ 将野生型氨基酸 $a_{\mathrm{wt}}$ 换为突变 $a_{\mathrm{mut}}$,

[
s(i, a_{\mathrm{mut}}) = \log P(a_{\mathrm{mut}} \mid \mathbf{x}{\mathrm{mut}}) - \log P(a{\mathrm{wt}} \mid \mathbf{x}_{\mathrm{wt}})
]

$s$ 越负通常表示越「不符合」进化约束(常对应有害突变);与实验 fitness 的 Spearman 越高,模型越好。多位点需按论文约定累加或联合打分,不可与单点协议混比。

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
# ESM-2 零样本突变打分示意(facebookresearch/esm)
import torch
import esm

model, alphabet = esm.pretrained.esm2_t33_650M_UR50D()
batch_converter = alphabet.get_batch_converter()
model.eval()

def score_mutation(sequence, position, mutant_aa):
"""position: 1-based; 返回 log-likelihood ratio"""
data = [("prot", sequence)]
_, _, tokens = batch_converter(data)
wt_aa = sequence[position - 1]
# 具体实现需按 esm 官方 variant scoring 脚本:掩码或 wild-type marginal
...

段末注释DMS 通过高通量实验测定大量突变体适应度;fitness 为适应度或酶活等实验读数的统称;ProteinGym 不保证覆盖每种 DNA 聚合酶,酶种需自有验证。

4.3 FLIP 与其他补充基准

基准 侧重点 主指标
FLIP 功能性蛋白(稳定性、结合、溶解度等) Spearman、AUC
ProteinNet 结构接触(TAPE 子集来源之一) P@L
SCOPe / CATH 远程同源、折叠分类 Accuracy
UniProt 子集 亚细胞定位、膜蛋白等 Accuracy、F1

FLIP(Functional Landscape Inference Benchmark for Proteins)强调功能 landscape 上的泛化,与 TAPE 的「结构探针」、ProteinGym 的「DMS 深扫」形成互补。选型时建议:TAPE 看表征通用性 → ProteinGym 看突变排序 → FLIP 看功能任务 → 自有酶数据定终选


5. 按下游任务选指标

5.1 序列检索与同源聚类

  • Within-family retrieval:同一家族内 hold-out 序列能否召回近邻 → Recall@$k$、MRR。
  • Clustering:按 CATH/SCOPe fold 聚类 → NMIV-measureARI(Adjusted Rand Index)。
  • 酶库筛选:以野生型或参考序列为 query,在突变库/同源库中找功能相近变体 → 报告 Recall@$k$ 与人工标注一致率。

相似度仍用余弦或 L2(归一化后等价):

[
\mathrm{sim}(\mathbf{e}_1, \mathbf{e}_2) = \frac{\mathbf{e}_1 \cdot \mathbf{e}_2}{|\mathbf{e}_1||\mathbf{e}_2|}
]

5.2 突变效应与定向进化

聚合酶改造中最常用 PLM 的场景。评价要点:

  1. 排序能力优先于绝对数值:Spearman、Top-10 富集实验阳性比例。
  2. 位点覆盖:活性位点、指状结构域、易错配 motif 分区报告。
  3. epistasis:单点高分组合不一定协同;多位点需单独 benchmark 或实验验证。
  4. 与实验读数对齐:保真度、延伸速率、热稳定、$k_{\mathrm{cat}}$ 等——PLM 零样本常只间接相关,必须在自有 DMS 或筛选数据上复测。

5.3 结构相关探针(非 ESMFold)

若只评 Embedding 是否含结构信息,用 TAPE Contact / SS,不要与 ESMFold 的 TM-score 混在一张「嵌入榜」里。结构准确度指标见 结构预测-01.结构准确度评价指标

5.4 酶动力学(超出纯 PLM)

DeepEnzyme序列 + 三维结构 监督模型预测 $k_{\mathrm{cat}}$、$K_m$,评测用回归 $R^2$、Spearman、RMSE——属于任务专用模型,不能用来否定或替代 ESM-2 在 ProteinGym 上的排名,反之亦然。


6. 零样本 vs 微调:两种评测协议

协议 做法 优点 局限
零样本 固定权重,logits/似然/嵌入距离直接打分 低成本、可复现、适合突变初筛 域外酶、非天然序列可能失效
线性探针 冻结 PLM,只训线性/MLP 头(TAPE 标准) 隔离「表征质量」 不反映端到端微调潜力
全量微调 更新全部或部分 PLM 参数 下游任务上限高 易过拟合小数据;不同模型 lr/epoch 不可比
LoRA / Adapter 低秩适配 算力友好 需报告 rank 与训练步数

报告规范:标题须写明 zero-shot / linear probe / fine-tuned;ProteinGym 默认多报 zero-shot Spearman;TAPE 默认 linear probe on frozen embeddings


7. 聚合酶 / 酶工程场景的落地评测

公开基准很少覆盖 Taq DNA 聚合酶等具体工业酶,推荐三层验证(类比 Embedding-01 的 Gold 集思路):

层级 内容 指标
L1 公开基准 TAPE + ProteinGym 子集 与社区可比
L2 酶种 DMS 自有或文献深扫(MaveDB、补充表) Spearman、Top-$k$ 命中率
L3 实验表型 保真度、错配模式、热稳定、processivity 与 PLM 排序的 Kendall $\tau$

Hard negative(酶域特有):

  • 同家族不同物种的保守 motif(序列高相似、功能不同);
  • 催化域 vs 非催化结构域片段;
  • 仅 1–2 个位点差异的变体对。

数据入口酶改造-03.聚合酶筛选的开源训练数据汇总(ProteinGym、MaveDB、BRENDA);实验指标定义酶改造-01.聚合酶的评估指标


8. 推荐对比流程

蛋白 PLM 评测流程

图 2 蛋白 PLM 评测流程:明确下游 → 固定表征协议 → 公开基准初筛 → 区分零样本/微调 → 酶种自有 DMS → 工程过滤 → 文档化。

Step 1 — 定任务:检索 / 突变排序 / 探针 / 结构先验(若结构先验,转 ESMFold/AlphaFold 指标)。

Step 2 — 固定协议:层级、池化、最大长度、单序列 vs MSA。

Step 3 — 公开基准:至少 1 个 TAPE 子任务 + ProteinGym Spearman(突变场景)或 FLIP(功能场景)。

Step 4 — 候选 3–5 个 PLM:ESM-2(650M/3B)、ProtT5、Ankh 等同量级对照。

Step 5 — 自有酶数据:200+ 突变或 50+ 实验验证变体再定终选。

Step 6 — 工程:报告 $L_{\max}$、encode 延迟、是否支持 batch 长序列。


9. 常见误区

误区 说明
用 MTEB 排名选 PLM 文本语义与氨基酸语法空间不同
ESMFold TM-score 当嵌入分 结构预测 ≠ 序列表征
ProteinGym 均分代替酶种验证 子集不含目标酶时无参考价值
混报 zero-shot 与 fine-tuned 提升来源不清
忽略序列长度截断 聚合酶常 > 800 aa,截断丢结构域
单点 PLM 分直接指导组合突变 epistasis 需实验或专用模型
不同层/池化混比 中间层 contact 可能优于最后一层

10. 模型对比报告模板

模型 参数量 TAPE SS Q8 P@L/5 ProteinGym $\rho$ 自有 DMS $\rho$ $L_{\max}$ ms/1000aa
ESM-2 650M 650M 0.73 0.42 0.48 0.55 1024 850
ProtT5 XL 3B 0.75 0.39 0.45 0.52 512 1200
Ankh-Large ~450M 0.72 0.44 0.49 0.51 1024 420

附:checkpoint 版本、ESM 层号、池化方式、TAPE/ProteinGym split、GPU 型号、随机种子


11. 工具链速查

工具 用途
facebookresearch/esm ESM 系列 encode、突变打分、ESMFold
songlab-cal/tape TAPE 探针训练与评估
OATML-Markslab/ProteinGym DMS 基准与 leaderboard
agemagician/ProtTrans ProtBERT / ProtT5
FlagOpen/FlagEmbedding 部分蛋白/多模 embed(需核对任务)
Hugging Face Transformers 统一 AutoModel 接口

12. 小结

  • 蛋白 Embedding 评测以 PLM 探针(TAPE)突变效应(ProteinGym/FLIP)酶种自有 DMS 三层为主;通用文本 MTEB 不能替代。
  • 对比前必须固定 表征层级、池化、微调协议、序列长度;零样本与线性探针 分表报告
  • 聚合酶等工业酶:公开基准初筛 + 保真度/稳定性等实验读数验证;PLM 是优先级排序工具,不是活性真值。
  • 结构预测(ESMFold/AlphaFold)与序列表征(ESM-2)联用常见,但分指标、分榜单评价。

系列:← Embedding-01 通用评测 · PLMs 架构 · ESM 框架详解 · 开源评测数据

-------------本文结束感谢您的阅读-------------