酶改造-05.ESM 框架详解

缩写体例：缩写首次出现写「中文全称（English Full Name，ABB）」；在该段末尾用 段末注释（引用块）解释概念；后文沿用缩写。

进化尺度建模（Evolutionary Scale Modeling，ESM） 是 Meta（原 Facebook）基础人工智能研究（Fundamental AI Research，FAIR） 团队提出的 蛋白质序列基础模型系列：用 Transformer（以自注意力堆叠为核心的网络结构，见 §0.4）编码器在大量序列上做 掩码语言建模（Masked Language Modeling，MLM） 预训练，再把学到的向量用于嵌入、突变打分、逆折叠或结构预测等。下文先建立不依赖自然语言处理（Natural Language Processing，NLP）背景的直观，再进入实现细节与家族对比。

段末注释：ESM 为 Meta 开源的序列预训练模型族名称；FAIR 为 Meta 人工智能实验室旧称；MLM 指随机遮盖残基并预测原残基的自监督目标；NLP 为自然语言处理，本文借其 Transformer/BERT 类技术处理蛋白「字母串」；Transformer 为 Vaswani 等提出的编码器/解码器骨干网络。

读前说明

不必先会「大模型」课：你只要把蛋白质看成一排字母、把神经网络看成可训练的函数，就能跟上 §0 与 §2。
插图不单独成章：Fig.1～Fig.4 嵌在 §1～§2 对应段落之后，Fig.5 嵌在 §4（ESMFold） 开头；顺读正文即可图文对照。图为独立 可缩放矢量图形（Scalable Vector Graphics，SVG）（酶改造-05.ESM框架详解/esm05-fig0*.svg），白底科研示意风格；图内 英文标题 便于字体兼容，释义见各图下中文说明。若站点对 SVG 支持不佳，同路径替换为 便携式网络图形（Portable Network Graphics，PNG） 即可。

段末注释：SVG 为矢量图格式，任意缩放清晰；PNG 为栅格图格式，兼容性通常更好；§ 表示节号。

0. 没有 Transformer 基础时：先建立四个直观

0.1 序列就是「一排氨基酸字母」

一条蛋白质序列可以写成 M K V ...（每个字母是一种氨基酸）。模型不做化学反应仿真，而是在计算机里用数字向量表示每个位置，再通过层与层之间的运算，让网络学会「哪些位置经常一起出现、哪些组合像真实蛋白」。

0.2 「模型」在算什么

可以把预训练理解成：给定一个很大的、可调的数学函数（里面成百万上千万个参数），用海量真实序列做「填空」练习；猜错就按梯度微调参数，使得在没见过的序列上填空也更准。这个过程不需要人工标注每个残基的功能，所以叫 自监督学习（self-supervised learning）（标签来自输入序列本身构造的任务）。

段末注释：自监督学习指从输入数据自动生成监督信号（如 MLM 的「被掩真实残基」），无需人工逐条标注功能类别。

0.3 「编码器」是什么意思

**编码器（encoder）**在这里指：输入一整条序列，输出同样长度（外加可选特殊位）的一串向量，每个向量概括「当前残基在整条链上下文里」的信息。ESM 主线用的是 双向编码器表示（Bidirectional Encoder Representations from Transformers，BERT）式编码器（双向看全序列），而不是 生成式预训练 Transformer（Generative Pre-trained Transformer，GPT） 那种「只从左往右生成」的解码器——因此特别适合 MLM 填空 与 每个位置的表征。

段末注释：BERT 式指可同时利用序列两侧上下文的堆叠编码器；GPT 式常用于逐残基自左向右生成；二者与 §1 中 MLM/CLM 目标对应关系见 酶改造-04 中 PLM 框架一节。

0.4 「Transformer」可以只记一句

Transformer 是一类网络结构的名字：用 自注意力（self-attention） 让每一个位置都能直接看到其他所有位置（再经多层叠加），比早期 循环神经网络（Recurrent Neural Network，RNN）/ 长短期记忆网络（Long Short-Term Memory，LSTM） 更容易建模长距离依赖（例如活性位点与远端残基的共进化线索）。你不需要先会手推所有公式，Fig.3 的直觉足够支撑阅读应用文献。

段末注释：RNN/LSTM 按时间步递归更新隐状态，长链易出现梯度衰减；自注意力让任意两位置直接交互，更利于捕捉长程共进化信号。

1. 核心范式：把蛋白质序列当作「可掩码的文本」

1.1 训练目标（MLM）

与 BERT（全称见 §0.3）同类：对输入序列随机盖住一部分位置（视觉上常显示为 [MASK] 或随机字母），模型根据两侧及远处的上下文预测「被盖住的原来是哪一种氨基酸」。训练时把预测分布与真实序列中的字母对比，用 交叉熵（cross-entropy）损失 作为优化目标，在海量无标签序列上反复迭代。

图 1　掩码语言建模：遮盖位置经 ESM 编码器后，在被掩位置输出对 20 种氨基酸的概率；训练时用交叉熵对齐真实残基

段末注释：交叉熵衡量预测分布与真实 one-hot 标签之间的差异，是分类与 MLM 最常用的训练损失。

实现层面的典型设定（具体比例以各版本代码与论文为准）：

掩码比例：常见讨论区间约 15% 量级（与 NLP BERT 类似思想；不同 checkpoint 可微调策略略有差异）。
掩码策略：可混合 替换为 [MASK]、替换为另一随机氨基酸、小概率保持原字母，减轻「训练时全是掩码、推理时没有掩码」的分布差异（细节见 facebookresearch/esm）。

推理时若要做突变打分，常见做法不是继续随机掩码整链，而是对单个位点尝试替换并看模型赋予的似然或未归一化对数几率（logits）变化（与 Meier 等 神经信息处理系统大会（Conference on Neural Information Processing Systems，NeurIPS）2021 的零样本设定一致，具体 应用程序接口（Application Programming Interface，API） 以仓库为准）。

段末注释：logits 为分类层输出的未归一化得分，经 softmax 可得概率；NeurIPS 为机器学习顶会；API 指软件调用接口（如 Python 函数）。

1.2 词表与序列边界

词表：以 20 种标准氨基酸为核心，外加 分类占位符（classification token，[CLS]）/ 起始、序列结束（End Of Sequence，[EOS]）、填充（padding）、[MASK]、未知残基 等；不同代际模型 token 集合略有扩展，编程时务必使用与模型检查点（checkpoint）配套的 alphabet（字母表/词表对象）。
长度：受 最大序列长度 与显存限制；超长链常见 截断、分块或滑动窗口式推理（依脚本与版本而定）。

段末注释：[CLS] 常用于汇聚整条序列信息；[EOS] 标记序列结束；checkpoint 指保存的模型权重与优化状态快照。

2. 网络结构：从图示到实现要点

以下 Fig.2～Fig.4 按「数据从哪进 → 注意力做什么 → 一层里有什么」插在对应小节末尾。若你只关心应用，读到 2.4 即可；2.5 供需要对照论文或源码的读者。

2.1 输入：每个字母先变成向量

计算机不能直接「吃字母」，需要两步查表：

词元嵌入（token embedding）：每种氨基酸（及特殊符号）对应 隐层维度（hidden size，常记为 d_model）维空间里的一根向量，类似「可学习的字典」。
位置嵌入（position embedding）：再为第 1、2、…、N 个位置各加一段向量，让模型区分「序列第几位」，否则同一字母在链首与链尾无法区分。

两者相加（或等价实现）后，得到每个位置一个向量，作为 第 1 层 Transformer 的输入。下图从「氨基酸 ID」一直画到 L 层堆叠之后 每个残基一条 d 维向量，便于和上文逐句对照。

段末注释：d_model 为模型隐藏向量宽度；token 指词表中的最小符号单位（此处多为单残基或特殊符）。

图 2　编码器数据流：token + 位置嵌入 → 第 1…L 层 Transformer → 每个残基输出一条隐向量（另可选用 [CLS] 或池化得到序列级向量）

2.2 自注意力：每个位置如何「看见」全序列

一句话：第 i 个残基的新表示，由所有位置 j 的旧向量做加权平均得到，权重由网络根据 i 与 j 是否相关自动学习。

多头（multi-head） 是把上述过程在多个子空间里并行做几遍，再拼起来，等价于让模型同时捕捉多种关系（局部接触、长程模式等），不必一开始就区分「氢键」「疏水」——这些化学概念是事后解释。

图 3　自注意力直觉：位置 i 的新向量由全体位置 j 加权混合；权重由 query–key 相容度经 softmax 得到（多头则为多组并行再拼接）

段末注释：query/key/value 为注意力三元组，由输入线性映射得到；softmax 将权重归一化为概率分布；多头（multi-head） 指并行多组注意力再拼接。

2.3 一层里还有哪些块

残差连接（residual connection，常记为 Add）：把子层的输入加回子层输出上，缓解深层网络难训练的问题，信息更容易跨层传递。
层归一化（Layer Normalization，LayerNorm）：把向量尺度归一，训练更稳。
前馈网络（Feed-Forward Network，FFN）：对每个位置单独做两层全连接（中间常加 高斯误差线性单元（Gaussian Error Linear Unit，GELU） 激活），相当于在注意力已经「全局沟通过」之后，再做位置内的非线性变换。

下图是单层编码块的典型顺序：多头自注意力 → 残差与 LayerNorm → 逐位置前馈 → 再残差与 LayerNorm（具体 前置层归一化（Pre-LayerNorm，Pre-LN）/ 后置层归一化（Post-LayerNorm，Post-LN） 依实现而定）。ESM-2 将此类层堆叠 L 次（如 t33 表示 33 层），得到深层表征。

段末注释：FFN 通常为「线性 → 激活 → 线性」的两层 MLP；GELU 为光滑非线性激活函数；Pre-LN/Post-LN 指 LayerNorm 放在残差支路前或后的两种排布。

图 4　单层 Transformer 编码块（概念）：MHSA 与 FFN 各带残差与归一化；深层网络重复此模块

2.4 堆叠之后：表征怎么用

序列级向量：常用 [CLS] 位的向量，或对 N 个残基向量做平均池化，得到整条酶的嵌入，用于聚类、检索。
残基级向量：第 l 层、第 i 个位置的 d 维向量，可用于接触探针、溶剂可及性、突变效应等。
层级：不少工作发现 中间层到后段层 在功能聚类上有时优于盲目只用最后一层，与任务相关，需自行验证。

2.5 进阶：公式与实现细节（可选读）

以下与 ESM-1 / ESM-1b / ESM-2 公开叙述一致；具体 层数 L、隐层维度 d_model、头数 h、FFN 中间维 以官方模型卡为准。

输入嵌入（对每个 token）：

[
\mathbf{x}i = \mathbf{E}{\text{tok}}(s_i) + \mathbf{E}_{\text{pos}}(i)
]

自注意力（单头示意；多头为并行多组 (Q,K,V) 再拼接）：

[
\mathrm{Attention}(Q,K,V)=\mathrm{softmax}\left(\frac{QK^\top}{\sqrt{d_h}}\right)V
]

其中 (Q,K,V) 由输入向量经线性层得到。生物学直觉：深层中可能隐式编码长程依赖（别构、远端接触、功能 motif），但并非显式物理势能。

从注意力到接触的说明：早期工作曾用注意力图对称化与后处理近似接触，属启发式；ESMFold 出现后，端到端结构预测更依赖 结构头与几何损失（见 §4），而非手工从 attention 抠接触图。

段末注释：公式中 Q/K/V 分别称查询、键、值向量，由输入经不同线性层得到；d_h 为每个注意力头的维度。

3. ESM 家族谱系与各自分工

下表便于「选型」：同一品牌下不同模型目标函数与接口不同，不可混用训练代码。预期用途列概括各模型在部署时主要用来预测或产出哪类信息（与训练损失不完全等同）。

名称	代表文献/时间	主要任务	预期用途（主要预测/产出什么信息）	一句话定位
ESM-1	Rives 等，PNAS 2021	MLM 预训练 + 表征	序列表征向量（残基级/序列级）；被掩位置的氨基酸类别分布；表征可间接用于接触、远程同源、二级结构等 TAPE 类探针（非直接输出坐标）	证明规模化序列训练可涌现结构相关信息
ESM-1b	与 ESM-1 同系列	同上（更强/更稳 checkpoint）	与 ESM-1 同型输出；作为更常用的嵌入与 MLM logits 来源，供下游分类、聚类、相似度检索	社区长期使用的 650M 级别基线之一
ESM-1v	Meier 等，NeurIPS 2021（Language models enable zero-shot prediction of the effects of mutations on protein function）	基于 ESM-1 的突变效应模型族（零样本打分与相关微调实践）	单点或多位点突变的相对有害性/适应性排序（与 DMS 实验度量对齐；不直接输出绝对 k_cat 或具体动力学常数）	变异效应 / fitness 与 DMS 对照的主流基线之一
ESM-IF1	Hsu 等，Science 2022	逆折叠：给定骨架生成序列	在给定主链/骨架几何约束下的氨基酸序列（条件生成）；用于序列设计而非预测结构	结构条件序列设计
ESM-2	Lin 等，Science 2023	多规格 MLM（约 8M～15B）	通用序列表征与掩码位置残基分布；广泛用于零样本突变打分、嵌入检索、与探针结合的功能/定位/稳定性等下游（具体头需另接）	当前序列表征与 scaling 主参考
ESMFold	Lin 等，同上	单序列三维结构预测	三维结构（主链/全原子坐标）、置信度（如 pLDDT 等）、PAE 类误差估计；输入为序列，输出为结构而非仅向量	与 ESM-2 共享预训练思想，结构模块输出坐标
ESM Metagenomic Atlas	同 Science 工作延伸	宏基因组规模结构覆盖	对海量未知蛋白序列批量给出结构假设与置信度，用于宏基因组注释、家族发现、药物/酶靶点初筛（计算资源与数据库版本依发布说明）	「序列宇宙」上的结构资源层
ESM3	Hayes 等，Science 2025（Simulating 500 million years of evolution with a language model；DOI 10.1126/science.ads0018）；产品与权重由进化规模（EvolutionaryScale，ES）运营	多模态生成式掩码建模：在序列（sequence）、结构（structure）、功能/注释（function）等轨道上做联合推理与补全	给定部分序列/结构/功能提示，迭代预测或补全其余轨道；面向远离天然分布的蛋白设计与功能探索（具体 API、许可与模型卡以官方为准）	从「单序列 MLM + 可选结构头」跃迁到「三轨道对齐的生成式生物基础模型」

段末注释：TAPE（Tasks Assessing Protein Embeddings）为蛋白质嵌入基准任务集；DMS（Deep Mutational Scanning，深度突变扫描）为高通量测定大量突变体效应的实验范式；k_cat 为催化周转数；pLDDT（predicted Local Distance Difference Test）与 PAE（Predicted Aligned Error）为结构模型输出的置信度/误差类指标；logits 见 §1.1；fitness 为适应度或酶活等实验读数的统称。

3.1 代际迭代：从 ESM-1 到 ESM-3（范式怎么变）

下面按时间线与组织主体概括各代「相对上一代多做了什么」，便于和论文/模型卡对照选型。Meta FAIR 开源主线（ESM-1 → ESM-1b → ESM-1v / ESM-IF1 → ESM-2 / ESMFold）与 EvolutionaryScale 的 ESM3 是同一学术品牌名下的两条产品与授权线：前者以 facebookresearch/esm 与公开权重为主；后者以多模态生成与商业/API 条款为主，不可简单当作「ESM-2 的更大 checkpoint」直接替换。

阶段	代表模型	相对前一代的主要变化	典型能力边界（读者预期）
第一代	ESM-1	把 Transformer 编码器 + MLM 推到亿级参数与大规模 UniRef 类语料，证明表征可涌现接触、远程同源等信号	输出序列表征与 MLM logits；不内建原子坐标头
第一代+	ESM-1b	在同类目标下提供更稳定、更大（如 650M 量级）的通用 checkpoint，社区工具链更成熟	同上；常作嵌入基线与下游探针
变异专精	ESM-1v	在 ESM-1 系上聚焦突变位点似然/效应，与 DMS 实验对齐（Meier 等 NeurIPS 2021）	零样本突变排序；不保证与任意实验读出一一对应
结构条件生成	ESM-IF1	目标从「序列填空」转为给定骨架条件下的序列生成（逆折叠），损失与数据形态与纯 MLM 不同	序列设计；需 PDB 等结构–序列对训练
第二代主干	ESM-2	多档缩放（约 8M～15B）、更大语料与系统 scaling 研究，TAPE 等基准整体提升	通用嵌入与 MLM；仍是单序列为主的表征模型
结构预测分支	ESMFold	在 ESM-2 表征上接几何模块，端到端输出 3D 坐标与置信度；推理路径强调单序列可用性	结构；与 AlphaFold2 范式差异见 §4
宏基因组覆盖	ESM Metagenomic Atlas	将 ESMFold 类能力推到海量序列的批量预测与资源层建设	注释与发现导向，非单一酶模型微调
第三代（多模态）	ESM3	将序列 / 结构 / 功能统一进可掩码、可迭代补全的生成框架；训练与推理强调跨轨道一致性与远离天然序列的设计空间	联合生成与推理；部署与许可以 EvolutionaryScale 为准，不等同于 Meta 仓库里的 `esm2_*` 权重

段末注释：scaling（缩放律）指参数量、数据量与下游性能的经验关系；checkpoint 为保存的模型权重快照；ES 此处为商业主体 EvolutionaryScale 的常用简称，与论文中 ESM 模型名勿混。

与酶改造阅读的关系：若你的文献写「用 ESM 做突变打分」，多数指 ESM-1v / ESM-2 logits 路线；若写「ESM3 生成新酶」，需区分其多模态提示与采样与经典 MLM 掩码在接口与许可上的差异。

4. 延伸一：ESMFold——在 ESM 表征之上的结构头

ESMFold 在 ESM-2 序列表征之上接 结构模块，端到端输出 三维坐标与置信度；与 §1～§2 仅产出向量或 MLM logits 的用法不同。先总览数据流，再分点与 AlphaFold2 对比。

图 5　ESMFold 高层管线：单条序列 → ESM-2 编码器（序列表征 + 配对表示）→ 结构模块（IPA、迭代细化等）→ 三维坐标与 pLDDT 等；细节以 Lin 等 *Science* 2023 为准

4.1 与 AlphaFold2 的范式差异（为何算「ESM 延伸」）

输入：强调 单条序列 即可工作（不依赖外部 多序列比对（Multiple Sequence Alignment，MSA） 流水线时仍能给可用结构），推理路径与「先搜库做多序列比对再进 Evoformer」的管线不同。
骨干：利用 ESM-2 类编码器产生的序列表征，再接 配对表示、三角更新、不变点注意力（Invariant Point Attention，IPA） 等与 AlphaFold2 思想同族的几何模块，迭代细化 主链及全原子坐标（实现细节以论文与附录为准）。上图只画信息流向，模块内部请参阅原文。

段末注释：MSA 为多条同源序列的列对齐结果，传统 AlphaFold2 强依赖 MSA 共进化信号；IPA 在三维点集上更新刚体/主链几何，是结构模块的核心注意力变体之一。

4.2 优势与代价（实践向）

维度	常见观点
优势	免 MSA 的批处理友好；与 ESM-2 嵌入体系一致，便于「序列任务 + 结构任务」同一生态。
代价	对极难折叠/缺同源蛋白，MSA 驱动方法有时仍更强；置信度与实验结构需交叉验证。

5. 延伸二：ESM-IF1（逆折叠）

目标：给定 骨架几何约束（如主链坐标或侧链 pack 的简化输入，以论文为准），自回归或条件生成 可折叠、可表达的序列。
与正向 PLM 的关系：不再是「预测被掩氨基酸」的纯 MLM，而是 条件生成；训练数据常依赖 蛋白质数据银行（Protein Data Bank，PDB） 等结构–序列对。
酶工程意义：可用于 活性位点周围序列 redesign、稳定性与表达 的候选序列生成，再经 蛋白质语言模型（Protein Language Model，PLM）打分 + 实验 闭环。

段末注释：PDB 为实验解析蛋白三维结构的数据库；PLM 在此指序列前向模型输出的似然或嵌入，用于筛选候选序列。

6. 延伸三：ESM-1v 与突变效应预测

出发点：Meier 等（NeurIPS 2021，会议全称见 §1.2）系统展示了用 ESM-1 系模型对突变做 零样本（zero-shot，无任务专用再训练） 打分即可与 深度突变扫描（Deep Mutational Scanning，DMS）实验度量 高度相关；ESM-1v 作为面向该任务的模型族命名，常与「掩码位置似然差分」等打分规则一起使用（实现以官方仓库为准）。
优势：无需为每个蛋白重新训练即可做 位点优先级 粗排；局限：蛋白家族、位点环境与实验 读出（readout，实验读数/表型） 差异大时 相关性会掉，与 ESM-2 logits 启发式、实验筛选 交叉验证更稳妥。

段末注释：DMS 产出大量「突变—效应」配对，用于检验模型排序是否与实验一致；readout 指实验测量的表型（生长、荧光、酶活等）。

7. 进阶模型：相对前代「改了什么、好在哪」

7.1 ESM-2 相对 ESM-1b（序列主干）

改进点	说明
规模谱系	提供从约 8M 到 15B 多档模型，便于在精度、延迟、显存间折中，并系统研究缩放律（scaling law）。
数据与训练	在更大、更多样的进化相关序列语料上训练（细节见 Science 与补充材料）；提升远程同源、表示质量的上限。
任务表现	在 TAPE、接触/结构相关探针、零样本突变效应等基准上整体强于早期 ESM-1b（具体任务需看榜单与版本）。

段末注释：scaling law（缩放律）描述参数量、数据量与下游性能之间的经验关系；TAPE 全称见 §3 表下段末注释。

7.2 ESMFold 相对「仅 ESM-2 嵌入 + 外接启发式」

改进点	说明
端到端结构监督	直接优化三维（3D）坐标/辅助损失，比「从 attention 猜接触」更贴近物理几何。
推理集成	一条管线完成序列 → 结构（Fig.5），利于宏基因组与高通量计算机模拟（in silico）筛选。

段末注释：in silico 拉丁语「在硅片上」，指纯计算模拟；相对 in vitro（体外实验）、in vivo（体内/细胞实验）。

7.3 ESM-IF1 相对「仅序列 PLM 做设计」

改进点	说明
结构条件	显式利用几何信息，对活性口袋、主链约束更敏感。
生成机制	序列空间搜索更贴近「在给定骨架下可制造」的序列流形。

7.4 ESM3 相对 ESM-2 / ESMFold 主线（组织与范式）

维度	ESM-2 / ESMFold（Meta `facebookresearch/esm`）	ESM3（ES 产品与 API）
建模对象	以单条（或多条）氨基酸序列为主；ESMFold 在序列表征上接结构头输出坐标	序列、结构、功能/注释多轨道联合建模，强调跨模态对齐与迭代补全
训练/推理接口	MLM 或结构端到端等相对单一任务头；社区多通过 *`esm2_` 权重**本地推理	多模态提示与采样策略与经典 MLM 脚本不互换；权重、Forge 类 API 与条款以 ES 官方为准
读者在酶文献中的典型表述	「零样本突变 logits」「ESMFold 结构」	「生成/设计」「功能约束与 ESM3」——需核对是否指 ES 产品线而非 Meta 仓库

段末注释：Forge 为 ES 侧公开的模型推理/实验平台名称（具体能力以官方文档为准）；与 §8 中 HF 托管的 facebook/esm2_* 不是同一路径。

8. 开源资源与复现入口

官方实现：GitHub facebookresearch/esm（模型权重、推理示例、部分结构预测脚本）。
模型标识：常用命名如 esm2_t33_650M_UR50D 等，t33 表示层数，650M 表示参数量级，UR50D 表示基于 UniRef 聚类（50% 相似度等）的训练数据设定；以仓库说明为准。
Hugging Face（常简称 HF，机器学习模型与数据集托管平台）：社区常封装 facebook/esm2_* 等权重，便于与开源深度学习框架 PyTorch 流水线拼接。

段末注释：PyTorch 为 Meta 主导的 Python 深度学习框架；UniRef 为 UniProt 下的聚类序列库名称；命名中 UR50D 等为数据版本/聚类阈值缩写，以官方 README 为准。

9. 与聚合酶改造相关的使用建议（极简）

需求	可优先考虑
突变优先级 / fitness 粗排	ESM-2 零样本 logits 差分，或 ESM-1v 系掩码似然打分（与 Meier 等 NeurIPS 2021 流程对齐）。
长程同源与家族划分	ESM-2 嵌入聚类 + 传统比对交叉验证。
催化域结构假设（无 MSA 条件）	ESMFold（Fig.5）快速出结构，再对接分子对接 / 分子动力学（Molecular Dynamics，MD）模拟 / 实验。
口袋或主链约束下的序列生成	ESM-IF1 类逆折叠 + 实验迭代。

段末注释：分子对接（docking） 指配体/底物与蛋白结合姿态的计算预测；MD（分子动力学）指在力场下模拟原子运动以考察稳定性或构象变化。

10. 小结

ESM 主线是 Transformer 编码器 + MLM，用进化尺度序列数据学习通用序列表征；ESM-2 通过多档缩放成为当前最常用的开放权重序列基座之一。
§1～§2 内嵌 Fig.1～Fig.4，分别对应「怎么训、整网数据流、自注意力、单层结构」；§4 内嵌 Fig.5，对应 ESMFold 与纯序列表征的分工。
ESMFold、ESM-IF1、ESM-1v 等是在同一研究脉络上的任务特化延伸：分别指向 结构预测、逆折叠、突变效应。
ESM3（§3 表、§3.1、§7.4）将范式推向 序列–结构–功能 多轨道生成；与 Meta 开源 ESM-2 线在权重位置与许可上分离，阅读文献与选型时需显式区分。
进阶优势集中在 scaling、端到端几何、结构条件生成、多模态联合生成 四条轴；落地时仍以 任务匹配度 + 实验验证 为准绳。

11. 延伸阅读（检索关键词）

论文与报告：ESM-2, ESMFold, ESM-IF1, ESM-1v, ESM3, Hayes Science ads0018, EvolutionaryScale, evolutionary scale modeling, masked language modeling protein, inverse folding, zero-shot mutational effects, multimodal protein generation
代码：facebookresearch/esm，关键词 esmfold, esm_if1, esm1v；ESM3 以 EvolutionaryScale 官方发布与 API 文档为准（与 facebookresearch/esm 非同一权重路径）

本系列：评估指标 · 筛选脉络 · 开源数据 · PLMs 总览