Embedding-02.蛋白Embedding模型评价标准与常用方法

蛋白 Embedding 指将氨基酸序列（或序列 + 结构/功能上下文）映射为稠密向量或逐残基表征，供同源检索、突变效应排序、功能注释、稳定性预测等任务使用。主流实现来自 蛋白质语言模型（Protein Language Model，PLM）——如 ESM-2、ProtBERT、ProtT5、Ankh 等——而非通用文本 Embedding（BGE、OpenAI text-embedding 等）。

通用文本 Embedding 的 MTEB 评测框架见 Embedding-01.模型性能对比与评测方法；PLM 背景见酶改造-04.模型架构-PLMs。本文专述蛋白域的评价标准、公开基准与常用实践。

缩写体例：缩写首次出现写「中文全称（English，ABB）」；段末 段末注释 释义；后文沿用缩写。

1. 先区分「评什么模型」

蛋白相关模型常被混称「Embedding 模型」，但评测目标与接口不同，不可横向比单一分数：

类型	代表	主要输出	典型评测
序列 PLM	ESM-2、ProtBERT、ProtT5、Ankh	残基/序列向量、MLM logits	TAPE、ProteinGym、相似度检索
突变效应专精	ESM-1v、ESM-2 零样本打分	突变有害性/适应度排序	DMS Spearman、AUC
结构预测	ESMFold、AlphaFold2	三维坐标、pLDDT	TM-score、lDDT（见结构预测篇）
逆折叠	ESM-IF1、ProteinMPNN	给定骨架的序列	序列恢复率、天然性
酶动力学监督	DeepEnzyme 等	$k_{\mathrm{cat}}$、$K_m$ 回归	$R^2$、Spearman（非通用 PLM 基准）

核心原则：序列表征 PLM 评的是嵌入空间是否编码进化与结构约束；结构模型评的是坐标准确度——二者互补，不能用一个排行榜替代另一个。

段末注释：PLM 在蛋白序列上做自监督预训练；MLM（Masked Language Modeling，掩码语言建模）为遮盖残基再预测的训练目标；logits 为模型对各氨基酸类别的未归一化打分。

2. 评测维度总览

蛋白 Embedding 评测维度

图 1 蛋白 Embedding 评测维度：序列表征质量、结构/功能探针、进化与突变效应、公开基准与酶工程自有数据共同决定选型；ESMFold 结构分数不能替代 PLM 嵌入分数。

维度	典型指标	适用场景
表征探针	Q3/Q8、Top-$L$ contact、Remote homology Acc	检验嵌入是否含结构与进化信息
突变/适应度	Spearman $\rho$、AUC、NDCG@$k$	定向进化、DMS 辅助排序
序列相似度	余弦相似度、家族内/跨家族检索	同源库筛选、聚类
功能回归	$R^2$、Spearman（稳定性、荧光等）	代理任务，非酶活本身
酶工程落地	与实验读数（保真度、$k_{\mathrm{cat}}$、热稳定）相关	自有 DMS / 筛选数据
工程	最大序列长度、ms/残基、显存	长酶、批量 encode

3. 表征提取协议（对比前必须统一）

同一 PLM 的不同取法，TAPE 分数可差数个百分点。论文与内部报告须写清：

协议项	常见选择	影响
表征层级	最后一层 / 中间层（如 ESM-2 第 33 层）/ 多层加权	结构任务常中间层更优
池化	均值池化、CLS token、仅活性位点残基	序列级 vs 位点级任务
微调	冻结 + 线性探针 / 全参数微调 / LoRA	「零样本」与「微调」不可混报
序列截断	头截断、尾截断、居中窗口	长聚合酶常丢结构域
MSA	单序列 vs 含 MSA 的模型	AlphaFold 系与纯 PLM 输入不同
随机种子	探针训练 seed、数据划分	小数据集方差大

序列级嵌入（整条酶一个向量）：

[
\mathbf{e}{\mathrm{seq}} = \frac{1}{L}\sum{i=1}^{L} \mathbf{h}_i
]

其中 $\mathbf{h}_i$ 为第 $i$ 个残基的 hidden state，$L$ 为有效序列长度（不含 special token 依实现而定）。

残基级嵌入用于接触预测、位点突变、活性口袋分析：直接取 $\mathbf{h}_i$，或拼接 $(\mathbf{h}_i, \mathbf{h}_j)$ 预测残基对关系。

段末注释：MSA（Multiple Sequence Alignment，多序列比对）将同源序列按位对齐；CLS 为部分模型插入的聚合 token。

4. 公开基准与评价标准

4.1 TAPE — 蛋白质嵌入经典探针集

蛋白质嵌入评估任务集（Tasks Assessing Protein Embeddings，TAPE）是 PLM 领域最广泛引用的探针基准，不直接提供酶动力学标签。

子任务	标签类型	主指标	解读
Secondary Structure	每残基 Q3/Q8	Accuracy、F1	局部构象是否编码
Contact Prediction	残基对接触（Cβ 距离 < 8 Å）	Precision@$L$、Top-$L$	共进化/长程依赖
Remote Homology	fold / superfamily / family	Accuracy	远缘分类，检验进化信号
Fluorescence	连续荧光强度	Spearman $\rho$	稳定性代理，非酶活
Stability	熔解温度等	Spearman $\rho$、MSE	热稳定相关

Contact Prediction 常用 Top-$L/5$ 精度：对长度为 $L$ 的蛋白，取模型预测得分最高的 $L/5$ 对残基，计算其中真实接触的比例：

[
\mathrm{P@}L/5 = \frac{1}{L/5}\sum_{(i,j) \in \mathrm{Top}\text{-}L/5} \mathbb{1}[\text{contact}(i,j)]
]

Remote Homology 必须在官方 train/valid/test 划分上报告，防止同源泄漏。

代码：songlab-cal/tape
数据下载与字段说明见酶改造-03.聚合酶筛选的开源训练数据汇总 §5

# TAPE 探针示例（冻结 PLM + 线性头，以 secondary_structure 为例）
from tape import ProteinBertModel, TAPETaskRunner
from tape.tasks import SecondaryStructureTask

model = ProteinBertModel.from_pretrained("bert-base")
task = SecondaryStructureTask(model, num_labels=8)
runner = TAPETaskRunner(model=model, task=task, ...)
runner.train()
metrics = runner.evaluate()  # 报告 valid/test Q8 accuracy

段末注释：TAPE 由 Song 实验室提出；Q3/Q8 为 3 态/8 态二级结构分类；Remote Homology 测试远缘蛋白家族分类能力。

4.2 ProteinGym — 突变效应金标准

ProteinGym 汇总数百个 深度突变扫描（Deep Mutational Scanning，DMS）实验，是评估突变效应预测（含 PLM 零样本打分）的首选基准。

指标	含义	使用场景
Spearman $\rho$	预测分与实验适应度排序相关	最常用，跨 assay 可比性较好
AUC	有害 vs 中性二分类	cut-off 明确时
NDCG@$k$	Top-$k$ 突变是否富集高适应度	定向进化「先筛后测」
MCC	Matthews 相关系数	类别不平衡

零样本 PLM 打分（以 MLM 对数似然比为例）：对位点 $i$ 将野生型氨基酸 $a_{\mathrm{wt}}$ 换为突变 $a_{\mathrm{mut}}$，

[
s(i, a_{\mathrm{mut}}) = \log P(a_{\mathrm{mut}} \mid \mathbf{x}{\mathrm{mut}}) - \log P(a{\mathrm{wt}} \mid \mathbf{x}_{\mathrm{wt}})
]

$s$ 越负通常表示越「不符合」进化约束（常对应有害突变）；与实验 fitness 的 Spearman 越高，模型越好。多位点需按论文约定累加或联合打分，不可与单点协议混比。

项目：proteingym.org
GitHub：OATML-Markslab/ProteinGym

# ESM-2 零样本突变打分示意（facebookresearch/esm）
import torch
import esm

model, alphabet = esm.pretrained.esm2_t33_650M_UR50D()
batch_converter = alphabet.get_batch_converter()
model.eval()

def score_mutation(sequence, position, mutant_aa):
    """position: 1-based; 返回 log-likelihood ratio"""
    data = [("prot", sequence)]
    _, _, tokens = batch_converter(data)
    wt_aa = sequence[position - 1]
    # 具体实现需按 esm 官方 variant scoring 脚本：掩码或 wild-type marginal
    ...

段末注释：DMS 通过高通量实验测定大量突变体适应度；fitness 为适应度或酶活等实验读数的统称；ProteinGym 不保证覆盖每种 DNA 聚合酶，酶种需自有验证。

4.3 FLIP 与其他补充基准

基准	侧重点	主指标
FLIP	功能性蛋白（稳定性、结合、溶解度等）	Spearman、AUC
ProteinNet	结构接触（TAPE 子集来源之一）	P@L
SCOPe / CATH	远程同源、折叠分类	Accuracy
UniProt 子集	亚细胞定位、膜蛋白等	Accuracy、F1

FLIP（Functional Landscape Inference Benchmark for Proteins）强调功能 landscape 上的泛化，与 TAPE 的「结构探针」、ProteinGym 的「DMS 深扫」形成互补。选型时建议：TAPE 看表征通用性 → ProteinGym 看突变排序 → FLIP 看功能任务 → 自有酶数据定终选。

5. 按下游任务选指标

5.1 序列检索与同源聚类

Within-family retrieval：同一家族内 hold-out 序列能否召回近邻 → Recall@$k$、MRR。
Clustering：按 CATH/SCOPe fold 聚类 → NMI、V-measure、ARI（Adjusted Rand Index）。
酶库筛选：以野生型或参考序列为 query，在突变库/同源库中找功能相近变体 → 报告 Recall@$k$ 与人工标注一致率。

相似度仍用余弦或 L2（归一化后等价）：

[
\mathrm{sim}(\mathbf{e}_1, \mathbf{e}_2) = \frac{\mathbf{e}_1 \cdot \mathbf{e}_2}{|\mathbf{e}_1||\mathbf{e}_2|}
]

5.2 突变效应与定向进化

聚合酶改造中最常用 PLM 的场景。评价要点：

排序能力优先于绝对数值：Spearman、Top-10 富集实验阳性比例。
位点覆盖：活性位点、指状结构域、易错配 motif 分区报告。
epistasis：单点高分组合不一定协同；多位点需单独 benchmark 或实验验证。
与实验读数对齐：保真度、延伸速率、热稳定、$k_{\mathrm{cat}}$ 等——PLM 零样本常只间接相关，必须在自有 DMS 或筛选数据上复测。

5.3 结构相关探针（非 ESMFold）

若只评 Embedding 是否含结构信息，用 TAPE Contact / SS，不要与 ESMFold 的 TM-score 混在一张「嵌入榜」里。结构准确度指标见结构预测-01.结构准确度评价指标。

5.4 酶动力学（超出纯 PLM）

DeepEnzyme 等 序列 + 三维结构 监督模型预测 $k_{\mathrm{cat}}$、$K_m$，评测用回归 $R^2$、Spearman、RMSE——属于任务专用模型，不能用来否定或替代 ESM-2 在 ProteinGym 上的排名，反之亦然。

6. 零样本 vs 微调：两种评测协议

协议	做法	优点	局限
零样本	固定权重，logits/似然/嵌入距离直接打分	低成本、可复现、适合突变初筛	域外酶、非天然序列可能失效
线性探针	冻结 PLM，只训线性/MLP 头（TAPE 标准）	隔离「表征质量」	不反映端到端微调潜力
全量微调	更新全部或部分 PLM 参数	下游任务上限高	易过拟合小数据；不同模型 lr/epoch 不可比
LoRA / Adapter	低秩适配	算力友好	需报告 rank 与训练步数

报告规范：标题须写明 zero-shot / linear probe / fine-tuned；ProteinGym 默认多报 zero-shot Spearman；TAPE 默认 linear probe on frozen embeddings。

7. 聚合酶 / 酶工程场景的落地评测

公开基准很少覆盖 Taq DNA 聚合酶等具体工业酶，推荐三层验证（类比 Embedding-01 的 Gold 集思路）：

层级	内容	指标
L1 公开基准	TAPE + ProteinGym 子集	与社区可比
L2 酶种 DMS	自有或文献深扫（MaveDB、补充表）	Spearman、Top-$k$ 命中率
L3 实验表型	保真度、错配模式、热稳定、processivity	与 PLM 排序的 Kendall $\tau$

Hard negative（酶域特有）：

同家族不同物种的保守 motif（序列高相似、功能不同）；
催化域 vs 非催化结构域片段；
仅 1–2 个位点差异的变体对。

数据入口：酶改造-03.聚合酶筛选的开源训练数据汇总（ProteinGym、MaveDB、BRENDA）；实验指标定义见酶改造-01.聚合酶的评估指标。

8. 推荐对比流程

蛋白 PLM 评测流程

图 2 蛋白 PLM 评测流程：明确下游 → 固定表征协议 → 公开基准初筛 → 区分零样本/微调 → 酶种自有 DMS → 工程过滤 → 文档化。

Step 1 — 定任务：检索 / 突变排序 / 探针 / 结构先验（若结构先验，转 ESMFold/AlphaFold 指标）。

Step 2 — 固定协议：层级、池化、最大长度、单序列 vs MSA。

Step 3 — 公开基准：至少 1 个 TAPE 子任务 + ProteinGym Spearman（突变场景）或 FLIP（功能场景）。

Step 4 — 候选 3–5 个 PLM：ESM-2（650M/3B）、ProtT5、Ankh 等同量级对照。

Step 5 — 自有酶数据：200+ 突变或 50+ 实验验证变体再定终选。

Step 6 — 工程：报告 $L_{\max}$、encode 延迟、是否支持 batch 长序列。

9. 常见误区

误区	说明
用 MTEB 排名选 PLM	文本语义与氨基酸语法空间不同
ESMFold TM-score 当嵌入分	结构预测 ≠ 序列表征
ProteinGym 均分代替酶种验证	子集不含目标酶时无参考价值
混报 zero-shot 与 fine-tuned	提升来源不清
忽略序列长度截断	聚合酶常 > 800 aa，截断丢结构域
单点 PLM 分直接指导组合突变	epistasis 需实验或专用模型
不同层/池化混比	中间层 contact 可能优于最后一层

10. 模型对比报告模板

模型	参数量	TAPE SS Q8	P@L/5	ProteinGym $\rho$	自有 DMS $\rho$	$L_{\max}$	ms/1000aa
ESM-2 650M	650M	0.73	0.42	0.48	0.55	1024	850
ProtT5 XL	3B	0.75	0.39	0.45	0.52	512	1200
Ankh-Large	~450M	0.72	0.44	0.49	0.51	1024	420

附：checkpoint 版本、ESM 层号、池化方式、TAPE/ProteinGym split、GPU 型号、随机种子。

11. 工具链速查

工具	用途
facebookresearch/esm	ESM 系列 encode、突变打分、ESMFold
songlab-cal/tape	TAPE 探针训练与评估
OATML-Markslab/ProteinGym	DMS 基准与 leaderboard
agemagician/ProtTrans	ProtBERT / ProtT5
FlagOpen/FlagEmbedding	部分蛋白/多模 embed（需核对任务）
Hugging Face Transformers	统一 `AutoModel` 接口

12. 小结

蛋白 Embedding 评测以 PLM 探针（TAPE）、突变效应（ProteinGym/FLIP） 与 酶种自有 DMS 三层为主；通用文本 MTEB 不能替代。
对比前必须固定 表征层级、池化、微调协议、序列长度；零样本与线性探针 分表报告。
聚合酶等工业酶：公开基准初筛 + 保真度/稳定性等实验读数验证；PLM 是优先级排序工具，不是活性真值。
结构预测（ESMFold/AlphaFold）与序列表征（ESM-2）联用常见，但分指标、分榜单评价。

系列：← Embedding-01 通用评测 · PLMs 架构 · ESM 框架详解 · 开源评测数据