酶改造-04.模型架构-PLMs

缩写体例:缩写首次出现写「中文全称(英文全称,缩写)」;在该段末尾用 段末注释 框简要解释概念,后文沿用缩写。

1. PLMs 指什么

在生物信息学与酶工程语境下,蛋白质语言模型(Protein Language Model,PLM) 常复数写作 PLMs:把蛋白质序列视为「由氨基酸字母组成的文本」,用自然语言处理(Natural Language Processing,NLP) 中成熟的 自监督学习 在大规模序列上预训练,再用于表征学习、结构预测、适应性(fitness)估计等下游任务。

它是一类方法论与模型族(如 ESM、ProtBERT/ProtT5 等),而不是某一个单一商业软件名称;工业界与论文中也常简称 PLM(与 NLP 里「预训练语言模型」的简称同名,需结合上下文区分)。

段末注释PLM/PLMs 指在蛋白质序列上预训练、输出序列表征或掩码预测的模型族;NLP 为自然语言处理,此处强调借用其 Transformer/BERT 等技术与训练范式。

为何正文未把 AlphaFold 当作「PLM 主线」展开

AlphaFoldAlphaFold2,2021;AlphaFold3,2024 等)在文献与工程里通常归入 蛋白质结构预测:输入序列与 多序列比对(Multiple Sequence Alignment,MSA) 等,经 Evoformer(AlphaFold2 核心模块的专有名,常不拆写)等模块输出 三维坐标 / 置信度,优化目标与「在氨基酸序列上做 掩码语言建模(Masked Language Modeling,MLM) / 因果语言建模(Causal Language Modeling,CLM) 自监督、得到通用序列表征」的 PLM 不是同一条技术谱系。换言之,AlphaFold 不是典型的蛋白质语言模型,故本篇以 ESM、ProtBERT、ProtT5、Ankh 等为时间线与参数表的主线;ESMFold 因在 ESM-2 同工作中与序列表征强绑定,放在 §2、§6.3 作为「PLM + 结构头」的代表。

酶改造实践中 PLM(突变效应、相似度、嵌入)AlphaFold/ESMFold(结构先验、口袋与界面)联用§7 已把 AlphaFold2 写在「结构先验」一行。若需与结构预测文献对齐,可按下表与 §2 时间线对照(并列参考,非 PLM 定义内条目)。

段末注释MSA 将多条同源蛋白序列按位对齐,提供共进化约束;MLM 为遮盖残基再预测、CLM 为按序预测下一残基,二者是序列 PLM 常见预训练目标;PLM 侧重序列表征,与以三维坐标为输出的结构预测路线不同。

名称 代表时间与出处(常见引用) 与 PLM 的分工(一句话)
AlphaFold2 2021,Nature(Jumper 等) MSA + Evoformer → 单体结构;社区事实标准之一,主流用法是结构/置信度而非替代 ESM 类序列表征。
AlphaFold3 2024,Nature(Abramson 等) 复合物、核酸、小分子等更广的折叠与相互作用;仍是 结构预测 路线,与「纯序列 PLM」范畴不同。
ESMFold ESM-2 同篇 Science(2023) 单序列折叠,与 ESM-2 共享预训练;本篇已在 PLM 演进与 §6.3 中收录。

结构预测侧:开源与工程实现(ColabFold、OpenFold 等)

下列项目不改变「PLM vs 结构预测」的学科划分,但决定你在实验室里能否批量、低成本、可复现地拿到结构,与 §7「结构先验」 直接衔接;权重与论文仍以 AlphaFold2 / ESMFold 等为准,工具链负责 MSA、推理部署与二次开发

名称 常见用途与特点
ColabFold MMseqs2(开源快速序列搜索与聚类套件,常用于 MSA 与同源聚类)等加速 MSA 构建,在 Google Colaboratory(Colab) 或本地环境调用 AlphaFold、AlphaFold-Multimer、ESMFold 等;降低单条序列结构预测的使用门槛,论文常引用 Mirdita 等(Nature Methods 2022)。
LocalColabFold ColabFold本地/命令行封装与安装方案(社区常称 localcolabfold),适合 批量预测、集群任务与 Snakemake/Nextflow 工作流 接入。
OpenFold AlphaFold2开源、可训练 PyTorch(开源深度学习框架)复现(Ahdritz 等,Nature Methods 2024),便于 从头训练、微调、消融与架构改动;与官方推理栈并行存在,选型时以任务(推理 vs 研究训练)为准。

段末注释ColabFold 把 MSA 构建与结构预测推理打包成易用管线;MMseqs2 用于加速同源搜索以生成 MSA;OpenFold 侧重可复现训练与算法研究;Colab 为谷歌托管的 Jupyter 式笔记本环境,便于零安装试用。


2. 发表与演进(时间线概览)

阶段 代表工作 发布时间 要点
早期表征学习 UniRep 等基于 RNN/LSTM 的序列模型 2019-10Nature Methods 用无标签序列学习向量表示,为后续 Transformer 铺路
基准与任务标准化 TAPE(Tasks Assessing Protein Embeddings) 2019(NeurIPS 2019;arXiv:1906.08230) 统一评估二级结构、接触图、remote homology 等,推动可比性
BERT 路线 ProtBERT(Rostlab 等) 2020-07(bioRxiv,ProtTrans 总论文) 将 BERT 式 MLM 用于蛋白质序列
编码器–解码器 / T5 路线 ProtT5、ProtTrans 系列 2020-07(bioRxiv 10.1101/2020.07.12.199554;arXiv:2007.06225) 文本到文本框架,便于序列到序列任务
大规模缩放 ESM-1(Rives 等) 2021-04PNAS;预印本约 2020-12) 规模化无监督学习,接触与结构信息从表征中涌现
大规模缩放 ESM-1b 与零样本突变效应 2021-12(NeurIPS 2021,Meier 等) 650M 参数量级 checkpoint 广泛沿用;零样本突变效应预测
高效通用 PLM Ankh(Elnaggar 等,Rost 组) 2023-01(bioRxiv 10.1101/2023.01.16.524265;arXiv:2301.06568) 远小于同期巨型 PLM 的参数量与算力下做架构与预训练策略优化;ProtTrans 路线延续,适合资源受限场景
规模化 PLM 与结构预测 ESM-2ESMFoldESM Metagenomic Atlas(Lin 等) 2023-03Science,10.1126/science.ade2574;预印本 2022-07-20,bioRxiv:2022.07.20.500902) 多档至 15B 级 Transformer(ESM-2);单序列原子级结构预测(ESMFold,不依赖 MSA);宏基因组大规模结构图谱
酶动力学与改造 DeepEnzyme(Wang 等) 2023-12(bioRxiv 10.1101/2023.12.09.570923;Briefings in Bioinformatics 2024-08 通用预训练基座,而是面向 kcat 的监督学习:Transformer + 图卷积,融合序列与 3D 结构特征,并可评估点突变对催化活性的影响

段末注释TAPE(Tasks Assessing Protein Embeddings)为蛋白质嵌入基准;表内 RNN/LSTM 分别为循环神经网络与长短期记忆网络;NeurIPS 为神经信息处理系统会议;BERT/T5 为 NLP 预训练架构,Prot 系列为其蛋白序列变体;Transformer 为自注意力堆叠网络;kcat 为催化周转数(每秒每活性位点转化底物分子数)。

综述类文献(例如近年 arXiv 上对 protein language models 的系统综述)常从架构、位置编码、缩放律、数据集与下游应用几方面整理 PLM 全貌,适合作为文献入口。


3. 框架结构(典型 PLM 在做什么)

绝大多数 PLM 共享同一套 NLP Transformer 骨架,差异主要在目标函数与是否因果。

3.1 骨干网络

  • 多头自注意力(Multi-Head Self-Attention,MHSA):全序列建模长程依赖(活性位点、远端接触等)。
  • 前馈层 + 残差 + 层归一化(Layer Normalization,LayerNorm):与 双向编码器表示(Bidirectional Encoder Representations from Transformers,BERT) / 生成式预训练 Transformer(Generative Pre-trained Transformer,GPT) 类模型结构同族。
  • 位置信息:一维序列位置编码(可学习或正弦等),把「序列顺序」注入模型。

段末注释MHSA 在多个子空间并行计算注意力再拼接;LayerNorm 对每层激活做归一化以稳定训练;BERT/GPT 为 NLP 中两类经典预训练骨架,蛋白质 PLM 常与之同构。

3.2 预训练目标(最常见两类)

  1. 掩码语言建模(Masked Language Modeling,MLM;BERT/ESM-2 类)
    随机遮盖部分氨基酸,根据上下文预测被掩位置的真实残基类型。强调双向上下文,适合提取整条序列的表征。

  2. 因果语言建模(Causal Language Modeling,CLM;自回归类)
    按序列方向预测下一个氨基酸。更贴近「生成」设定,部分工作研究蛋白质上的 缩放律(scaling laws) 时会对比 MLM 与 CLM。

段末注释MLM 同时利用左右上下文;CLM 仅利用一侧上下文(类似文本从左生成);scaling laws 描述模型规模、数据量与性能之间的经验关系。

3.3 输入表示

  • 词表通常以 20 种标准氨基酸为主,外加特殊 token(起始、掩码、未知等);部分模型将稀有残基映射到 X 等统一符号。
  • 序列长度上限由显存与训练策略决定(常见数百到上千残基;长序列会配合截断、滑动窗口或 Longformer 类思路,依具体实现而定)。

3.4 输出怎么用

  • 序列级:池化得到整条酶的嵌入向量,用于分类、聚类、相似度检索。
  • 残基级:每个位置一个向量,用于接触预测、溶剂可及性、突变效应(如用 embedding 差分或专用头)。
  • 与结构/功能头结合:在 PLM 之上接小型网络做微调或零样本启发式评分。

4. 模型参数与代表模型族(量级与可复现资源)

以下为文献与官方发布中常见的数量级(具体层数、hidden size、checkpoint 名称以各模型 Card 为准)。

系列 参数量级(示例) 备注
ESM-2 8M~15B 等多档 checkpoint 家族内从小到大多规格,便于在精度与算力间折中;大模型用于更强表征与 ESMFold 相关研究
ProtBERT 420M 量级(BERT-large 类配置) Hugging Face Rostlab/prot_bert 等便于直接调用
ProtT5 较大 T5 变体(如 XL 档约 3B ProtTrans;编码器—解码器骨架与 UniRef50 checkpoint 构建细节见《酶改造-modelpaper-ProtT5框架详解
Ankh(Base / Large 等) 刻意小型化的通用 PLM(论文称在显著更少参数下达到有竞争力表现,具体以 Hugging Face 卡为准) Rost 组在 ProtBERT/ProtT5 之后的「高效」路线;agemagician/Ankh

选择建议(实践向):先从中等体量 ESM-2、ProtBERT 或 Ankh 做基线,再按需换大模型;聚合酶等长序列酶需注意最大长度批大小对显存的限制。


5. 训练数据(从哪来、长什么样)

PLM 的通用范式是:无监督或弱监督、海量序列

常见数据来源包括:

  • UniRef(如 UniRef50/UniRef100):聚类去冗余后的序列库,控制冗余度、扩大覆盖。
  • 大型宏基因组序列库(Big Fantastic Database,BFD)宏基因组补充数据:提升多样性,缓解对模式生物的过拟合。
  • 部分研究在 数亿~数十亿条序列、千亿级氨基酸 token 规模上讨论 缩放律(scaling law) 与算力最优训练。

数据预处理通常包括:去重、按相似度聚类、长度过滤、以及(在部分工作中)与结构数据库对齐用于多任务学习——纯序列预训练仍是最普遍的配置。

段末注释BFD 为面向宏基因组的大规模蛋白序列资源,常与 MSA/折叠管线一并提及;token 指模型词表中的最小单元(此处多为单残基或特殊符号);scaling law§3.2 段末注释。


6. 训练成果(模型到底学到了什么)

6.1 在标准基准上的表现

TAPE 等任务上,PLM 嵌入在接触预测、远程同源性、二级结构等任务上相对早期手工特征与浅层模型有明显提升;不同 PLM 互有胜负,与模型大小、微调方式、任务是否匹配强相关。

6.2 表征层面的发现

  • 层次语义:较深层往往更偏向功能与结构 motif;有工作指出取中间层或多层融合有时优于仅用最后一层。
  • 与进化信息的关系:大模型在一定程度上内隐地编码共进化与约束,故可用于突变效应排序、稳定性粗估等。

6.3 与结构预测结合

ESMFold 等表明:在足够规模下,单一序列输入即可推断合理折叠,极大加速宏基因组蛋白的结构覆盖;ESM Metagenomic Atlas 类资源为未知蛋白家族提供了可检索的结构假设。


7. 应用领域(与酶改造的直接关系)

应用方向 说明
序列嵌入与相似度检索 用 PLM 向量做聚类、同源家族划分、候选序列库筛选。
突变效应与适应性预测 零样本或轻量微调:对位点突变打分,辅助定向进化位点优先级排序。
稳定性与可溶性 作为特征输入下游回归/分类模型,或与实验数据联合建模。
结构先验 对接 AlphaFold2、ESMFold 等(工程上常用 ColabFold / LocalColabFold 跑推理,OpenFold 多用于可训练复现),为聚合酶催化域、指状结构域等提供初始结构假设
功能注释与定位 结合 ProtBERT/ProtT5 文献中的任务:亚细胞定位、膜蛋白 vs 可溶蛋白等,辅助重组表达设计。
聚合酶专项 保真度(fidelity)、延伸速率、热稳定性、引物延伸 等目标上,PLM 常作为通用序列先验,与实验筛选、高通量测序标签联合使用;具体聚合酶变体仍需实验验证
高效嵌入与下游 Ankh 等轻量 PLM 可在有限图形处理器(Graphics Processing Unit,GPU) 上提取序列嵌入,再接任务头做分类、生成或变异分析。
周转数与催化效率 DeepEnzyme 针对 kcat(及突变效应)显式建模,序列 + 结构联合输入,与「仅序列 PLM」互补;适用于关心 催化周转 的酶改造评估(含聚合酶相关催化步骤的类比思路,仍以任务定义与数据为准)。

8. 小结

  • PLMs 是以 Transformer + 大规模蛋白质序列自监督预训练为核心的技术体系,ESM-2、ProtBERT、ProtT5、Ankh 等是开放权重中较常用的代表;AlphaFold2/3结构预测 谱系,与 PLM 定义不同但常与 PLM 联用(见 §1 模型对照表与 ColabFold / OpenFold 等工程表)。酶学场景还可对接 DeepEnzyme序列–结构联合的监督模型以预测 kcat 等动力学指标。
  • 框架上主要是 MLM 或 CLM 目标 + 可缩放 Transformer参数从百万级到百亿级可选;数据以 UniRef/BFD/宏基因组等海量序列为主。
  • 成果体现在基准任务、隐式结构/进化信息、以及与折叠模型结合的大规模结构资源。
  • 酶与聚合酶改造中,PLM 适合作为序列表征与突变优先级的通用引擎,与实验与领域指标(见本系列其他篇)结合使用最为稳妥。

9. 延伸阅读(检索关键词)

  • 论文关键词:protein language model, ESM-2, ProtBERT, ProtTrans, Ankh, DeepEnzyme, kcat, TAPE benchmark, ESMFold, AlphaFold2, AlphaFold3, ColabFold, OpenFold, MMseqs2, zero-shot protein fitness
  • 开源实现:GitHub facebookresearch/esm,Hugging Face Rostlab/prot_*agemagician/ProtTransagemagician/Ankhhongzhonglu/DeepEnzyme;结构预测工具链 sokrypton/ColabFoldYoshitakaMo/localcolabfold(或同类本地封装),aqlaboratory/openfold

本系列评估指标 · 筛选脉络 · 开源数据 · ESM 框架详解

-------------本文结束感谢您的阅读-------------