酶改造-04.模型架构-PLMs

缩写体例：缩写首次出现写「中文全称（英文全称，缩写）」；在该段末尾用 段末注释 框简要解释概念，后文沿用缩写。

1. PLMs 指什么

在生物信息学与酶工程语境下，蛋白质语言模型（Protein Language Model，PLM） 常复数写作 PLMs：把蛋白质序列视为「由氨基酸字母组成的文本」，用自然语言处理（Natural Language Processing，NLP） 中成熟的 自监督学习 在大规模序列上预训练，再用于表征学习、结构预测、适应性（fitness）估计等下游任务。

它是一类方法论与模型族（如 ESM、ProtBERT/ProtT5 等），而不是某一个单一商业软件名称；工业界与论文中也常简称 PLM（与 NLP 里「预训练语言模型」的简称同名，需结合上下文区分）。

段末注释：PLM/PLMs 指在蛋白质序列上预训练、输出序列表征或掩码预测的模型族；NLP 为自然语言处理，此处强调借用其 Transformer/BERT 等技术与训练范式。

为何正文未把 AlphaFold 当作「PLM 主线」展开

AlphaFold（AlphaFold2，2021；AlphaFold3，2024 等）在文献与工程里通常归入 蛋白质结构预测：输入序列与 多序列比对（Multiple Sequence Alignment，MSA） 等，经 Evoformer（AlphaFold2 核心模块的专有名，常不拆写）等模块输出 三维坐标 / 置信度，优化目标与「在氨基酸序列上做 掩码语言建模（Masked Language Modeling，MLM） / 因果语言建模（Causal Language Modeling，CLM） 自监督、得到通用序列表征」的 PLM 不是同一条技术谱系。换言之，AlphaFold 不是典型的蛋白质语言模型，故本篇以 ESM、ProtBERT、ProtT5、Ankh 等为时间线与参数表的主线；ESMFold 因在 ESM-2 同工作中与序列表征强绑定，放在 §2、§6.3 作为「PLM + 结构头」的代表。

酶改造实践中 PLM（突变效应、相似度、嵌入） 与 AlphaFold/ESMFold（结构先验、口袋与界面） 常联用：§7 已把 AlphaFold2 写在「结构先验」一行。若需与结构预测文献对齐，可按下表与 §2 时间线对照（并列参考，非 PLM 定义内条目）。

段末注释：MSA 将多条同源蛋白序列按位对齐，提供共进化约束；MLM 为遮盖残基再预测、CLM 为按序预测下一残基，二者是序列 PLM 常见预训练目标；PLM 侧重序列表征，与以三维坐标为输出的结构预测路线不同。

名称	代表时间与出处（常见引用）	与 PLM 的分工（一句话）
AlphaFold2	2021，Nature（Jumper 等）	MSA + Evoformer → 单体结构；社区事实标准之一，主流用法是结构/置信度而非替代 ESM 类序列表征。
AlphaFold3	2024，Nature（Abramson 等）	复合物、核酸、小分子等更广的折叠与相互作用；仍是结构预测路线，与「纯序列 PLM」范畴不同。
ESMFold	与 ESM-2 同篇 Science（2023）	单序列折叠，与 ESM-2 共享预训练；本篇已在 PLM 演进与 §6.3 中收录。

结构预测侧：开源与工程实现（ColabFold、OpenFold 等）

下列项目不改变「PLM vs 结构预测」的学科划分，但决定你在实验室里能否批量、低成本、可复现地拿到结构，与 §7「结构先验」 直接衔接；权重与论文仍以 AlphaFold2 / ESMFold 等为准，工具链负责 MSA、推理部署与二次开发。

名称	常见用途与特点
ColabFold	以 MMseqs2（开源快速序列搜索与聚类套件，常用于 MSA 与同源聚类）等加速 MSA 构建，在 Google Colaboratory（Colab）或本地环境调用 AlphaFold、AlphaFold-Multimer、ESMFold 等；降低单条序列结构预测的使用门槛，论文常引用 Mirdita 等（Nature Methods 2022）。
LocalColabFold	ColabFold 的本地/命令行封装与安装方案（社区常称 localcolabfold），适合批量预测、集群任务与 Snakemake/Nextflow 工作流接入。
OpenFold	AlphaFold2 的开源、可训练 PyTorch（开源深度学习框架）复现（Ahdritz 等，Nature Methods 2024），便于从头训练、微调、消融与架构改动；与官方推理栈并行存在，选型时以任务（推理 vs 研究训练）为准。

段末注释：ColabFold 把 MSA 构建与结构预测推理打包成易用管线；MMseqs2 用于加速同源搜索以生成 MSA；OpenFold 侧重可复现训练与算法研究；Colab 为谷歌托管的 Jupyter 式笔记本环境，便于零安装试用。

2. 发表与演进（时间线概览）

阶段	代表工作	发布时间	要点
早期表征学习	UniRep 等基于 RNN/LSTM 的序列模型	2019-10（Nature Methods）	用无标签序列学习向量表示，为后续 Transformer 铺路
基准与任务标准化	TAPE（Tasks Assessing Protein Embeddings）	2019（NeurIPS 2019；arXiv:1906.08230）	统一评估二级结构、接触图、remote homology 等，推动可比性
BERT 路线	ProtBERT（Rostlab 等）	2020-07（bioRxiv，ProtTrans 总论文）	将 BERT 式 MLM 用于蛋白质序列
编码器–解码器 / T5 路线	ProtT5、ProtTrans 系列	2020-07（bioRxiv 10.1101/2020.07.12.199554；arXiv:2007.06225）	文本到文本框架，便于序列到序列任务
大规模缩放	ESM-1（Rives 等）	2021-04（PNAS；预印本约 2020-12）	规模化无监督学习，接触与结构信息从表征中涌现
大规模缩放	ESM-1b 与零样本突变效应	2021-12（NeurIPS 2021，Meier 等）	650M 参数量级 checkpoint 广泛沿用；零样本突变效应预测
高效通用 PLM	Ankh（Elnaggar 等，Rost 组）	2023-01（bioRxiv 10.1101/2023.01.16.524265；arXiv:2301.06568）	在远小于同期巨型 PLM 的参数量与算力下做架构与预训练策略优化；ProtTrans 路线延续，适合资源受限场景
规模化 PLM 与结构预测	ESM-2、ESMFold、ESM Metagenomic Atlas（Lin 等）	2023-03（Science，10.1126/science.ade2574；预印本 2022-07-20，bioRxiv:2022.07.20.500902）	多档至 15B 级 Transformer（ESM-2）；单序列原子级结构预测（ESMFold，不依赖 MSA）；宏基因组大规模结构图谱
酶动力学与改造	DeepEnzyme（Wang 等）	2023-12（bioRxiv 10.1101/2023.12.09.570923；Briefings in Bioinformatics 2024-08）	非通用预训练基座，而是面向 kcat 的监督学习：Transformer + 图卷积，融合序列与 3D 结构特征，并可评估点突变对催化活性的影响

段末注释：TAPE（Tasks Assessing Protein Embeddings）为蛋白质嵌入基准；表内 RNN/LSTM 分别为循环神经网络与长短期记忆网络；NeurIPS 为神经信息处理系统会议；BERT/T5 为 NLP 预训练架构，Prot 系列为其蛋白序列变体；Transformer 为自注意力堆叠网络；kcat 为催化周转数（每秒每活性位点转化底物分子数）。

综述类文献（例如近年 arXiv 上对 protein language models 的系统综述）常从架构、位置编码、缩放律、数据集与下游应用几方面整理 PLM 全貌，适合作为文献入口。

3. 框架结构（典型 PLM 在做什么）

绝大多数 PLM 共享同一套 NLP Transformer 骨架，差异主要在目标函数与是否因果。

3.1 骨干网络

多头自注意力（Multi-Head Self-Attention，MHSA）：全序列建模长程依赖（活性位点、远端接触等）。
前馈层 + 残差 + 层归一化（Layer Normalization，LayerNorm）：与 双向编码器表示（Bidirectional Encoder Representations from Transformers，BERT） / 生成式预训练 Transformer（Generative Pre-trained Transformer，GPT） 类模型结构同族。
位置信息：一维序列位置编码（可学习或正弦等），把「序列顺序」注入模型。

段末注释：MHSA 在多个子空间并行计算注意力再拼接；LayerNorm 对每层激活做归一化以稳定训练；BERT/GPT 为 NLP 中两类经典预训练骨架，蛋白质 PLM 常与之同构。

3.2 预训练目标（最常见两类）

掩码语言建模（Masked Language Modeling，MLM；BERT/ESM-2 类）
随机遮盖部分氨基酸，根据上下文预测被掩位置的真实残基类型。强调双向上下文，适合提取整条序列的表征。
因果语言建模（Causal Language Modeling，CLM；自回归类）
按序列方向预测下一个氨基酸。更贴近「生成」设定，部分工作研究蛋白质上的 缩放律（scaling laws） 时会对比 MLM 与 CLM。

段末注释：MLM 同时利用左右上下文；CLM 仅利用一侧上下文（类似文本从左生成）；scaling laws 描述模型规模、数据量与性能之间的经验关系。

3.3 输入表示

词表通常以 20 种标准氨基酸为主，外加特殊 token（起始、掩码、未知等）；部分模型将稀有残基映射到 X 等统一符号。
序列长度上限由显存与训练策略决定（常见数百到上千残基；长序列会配合截断、滑动窗口或 Longformer 类思路，依具体实现而定）。

3.4 输出怎么用

序列级：池化得到整条酶的嵌入向量，用于分类、聚类、相似度检索。
残基级：每个位置一个向量，用于接触预测、溶剂可及性、突变效应（如用 embedding 差分或专用头）。
与结构/功能头结合：在 PLM 之上接小型网络做微调或零样本启发式评分。

4. 模型参数与代表模型族（量级与可复现资源）

以下为文献与官方发布中常见的数量级（具体层数、hidden size、checkpoint 名称以各模型 Card 为准）。

系列	参数量级（示例）	备注
ESM-2	约 8M～15B 等多档 checkpoint	家族内从小到大多规格，便于在精度与算力间折中；大模型用于更强表征与 ESMFold 相关研究
ProtBERT	约 420M 量级（BERT-large 类配置）	Hugging Face `Rostlab/prot_bert` 等便于直接调用
ProtT5	较大 T5 变体（如 XL 档约 3B）	ProtTrans；编码器—解码器骨架与 UniRef50 checkpoint 构建细节见《酶改造-modelpaper-ProtT5框架详解》
Ankh（Base / Large 等）	刻意小型化的通用 PLM（论文称在显著更少参数下达到有竞争力表现，具体以 Hugging Face 卡为准）	Rost 组在 ProtBERT/ProtT5 之后的「高效」路线；`agemagician/Ankh`

选择建议（实践向）：先从中等体量 ESM-2、ProtBERT 或 Ankh 做基线，再按需换大模型；聚合酶等长序列酶需注意最大长度与批大小对显存的限制。

5. 训练数据（从哪来、长什么样）

PLM 的通用范式是：无监督或弱监督、海量序列。

常见数据来源包括：

UniRef（如 UniRef50/UniRef100）：聚类去冗余后的序列库，控制冗余度、扩大覆盖。
大型宏基因组序列库（Big Fantastic Database，BFD） 等宏基因组补充数据：提升多样性，缓解对模式生物的过拟合。
部分研究在 数亿～数十亿条序列、千亿级氨基酸 token 规模上讨论 缩放律（scaling law） 与算力最优训练。

数据预处理通常包括：去重、按相似度聚类、长度过滤、以及（在部分工作中）与结构数据库对齐用于多任务学习——纯序列预训练仍是最普遍的配置。

段末注释：BFD 为面向宏基因组的大规模蛋白序列资源，常与 MSA/折叠管线一并提及；token 指模型词表中的最小单元（此处多为单残基或特殊符号）；scaling law 见 §3.2 段末注释。

6. 训练成果（模型到底学到了什么）

6.1 在标准基准上的表现

在 TAPE 等任务上，PLM 嵌入在接触预测、远程同源性、二级结构等任务上相对早期手工特征与浅层模型有明显提升；不同 PLM 互有胜负，与模型大小、微调方式、任务是否匹配强相关。

6.2 表征层面的发现

层次语义：较深层往往更偏向功能与结构 motif；有工作指出取中间层或多层融合有时优于仅用最后一层。
与进化信息的关系：大模型在一定程度上内隐地编码共进化与约束，故可用于突变效应排序、稳定性粗估等。

6.3 与结构预测结合

ESMFold 等表明：在足够规模下，单一序列输入即可推断合理折叠，极大加速宏基因组蛋白的结构覆盖；ESM Metagenomic Atlas 类资源为未知蛋白家族提供了可检索的结构假设。

7. 应用领域（与酶改造的直接关系）

应用方向	说明
序列嵌入与相似度检索	用 PLM 向量做聚类、同源家族划分、候选序列库筛选。
突变效应与适应性预测	零样本或轻量微调：对位点突变打分，辅助定向进化位点优先级排序。
稳定性与可溶性	作为特征输入下游回归/分类模型，或与实验数据联合建模。
结构先验	对接 AlphaFold2、ESMFold 等（工程上常用 ColabFold / LocalColabFold 跑推理，OpenFold 多用于可训练复现），为聚合酶催化域、指状结构域等提供初始结构假设。
功能注释与定位	结合 ProtBERT/ProtT5 文献中的任务：亚细胞定位、膜蛋白 vs 可溶蛋白等，辅助重组表达设计。
聚合酶专项	在保真度（fidelity）、延伸速率、热稳定性、引物延伸等目标上，PLM 常作为通用序列先验，与实验筛选、高通量测序标签联合使用；具体聚合酶变体仍需实验验证。
高效嵌入与下游	Ankh 等轻量 PLM 可在有限图形处理器（Graphics Processing Unit，GPU）上提取序列嵌入，再接任务头做分类、生成或变异分析。
周转数与催化效率	DeepEnzyme 针对 kcat（及突变效应）显式建模，序列 + 结构联合输入，与「仅序列 PLM」互补；适用于关心催化周转的酶改造评估（含聚合酶相关催化步骤的类比思路，仍以任务定义与数据为准）。

8. 小结

PLMs 是以 Transformer + 大规模蛋白质序列自监督预训练为核心的技术体系，ESM-2、ProtBERT、ProtT5、Ankh 等是开放权重中较常用的代表；AlphaFold2/3 属 结构预测 谱系，与 PLM 定义不同但常与 PLM 联用（见 §1 模型对照表与 ColabFold / OpenFold 等工程表）。酶学场景还可对接 DeepEnzyme 等序列–结构联合的监督模型以预测 kcat 等动力学指标。
框架上主要是 MLM 或 CLM 目标 + 可缩放 Transformer；参数从百万级到百亿级可选；数据以 UniRef/BFD/宏基因组等海量序列为主。
成果体现在基准任务、隐式结构/进化信息、以及与折叠模型结合的大规模结构资源。
在 酶与聚合酶改造中，PLM 适合作为序列表征与突变优先级的通用引擎，与实验与领域指标（见本系列其他篇）结合使用最为稳妥。

9. 延伸阅读（检索关键词）

论文关键词：protein language model, ESM-2, ProtBERT, ProtTrans, Ankh, DeepEnzyme, kcat, TAPE benchmark, ESMFold, AlphaFold2, AlphaFold3, ColabFold, OpenFold, MMseqs2, zero-shot protein fitness
开源实现：GitHub facebookresearch/esm，Hugging Face Rostlab/prot_*，agemagician/ProtTrans，agemagician/Ankh，hongzhonglu/DeepEnzyme；结构预测工具链 sokrypton/ColabFold，YoshitakaMo/localcolabfold（或同类本地封装），aqlaboratory/openfold

本系列：评估指标 · 筛选脉络 · 开源数据 · ESM 框架详解