酶改造-05.ESM 框架详解

缩写体例:缩写首次出现写「中文全称(English Full Name,ABB)」;在该段末尾用 段末注释(引用块)解释概念;后文沿用缩写。

进化尺度建模(Evolutionary Scale Modeling,ESM) 是 Meta(原 Facebook)基础人工智能研究(Fundamental AI Research,FAIR) 团队提出的 蛋白质序列基础模型系列:用 Transformer(以自注意力堆叠为核心的网络结构,见 §0.4编码器在大量序列上做 掩码语言建模(Masked Language Modeling,MLM) 预训练,再把学到的向量用于嵌入、突变打分、逆折叠或结构预测等。下文先建立不依赖自然语言处理(Natural Language Processing,NLP)背景的直观,再进入实现细节与家族对比。

段末注释ESM 为 Meta 开源的序列预训练模型族名称;FAIR 为 Meta 人工智能实验室旧称;MLM 指随机遮盖残基并预测原残基的自监督目标;NLP 为自然语言处理,本文借其 Transformer/BERT 类技术处理蛋白「字母串」;Transformer 为 Vaswani 等提出的编码器/解码器骨干网络。

读前说明

  • 不必先会「大模型」课:你只要把蛋白质看成一排字母、把神经网络看成可训练的函数,就能跟上 §0§2
  • 插图不单独成章Fig.1~Fig.4 嵌在 §1~§2 对应段落之后,Fig.5 嵌在 §4(ESMFold) 开头;顺读正文即可图文对照。图为独立 可缩放矢量图形(Scalable Vector Graphics,SVG)酶改造-05.ESM框架详解/esm05-fig0*.svg),白底科研示意风格;图内 英文标题 便于字体兼容,释义见各图下中文说明。若站点对 SVG 支持不佳,同路径替换为 便携式网络图形(Portable Network Graphics,PNG) 即可。

段末注释SVG 为矢量图格式,任意缩放清晰;PNG 为栅格图格式,兼容性通常更好;§ 表示节号。


0. 没有 Transformer 基础时:先建立四个直观

0.1 序列就是「一排氨基酸字母」

一条蛋白质序列可以写成 M K V ...(每个字母是一种氨基酸)。模型不做化学反应仿真,而是在计算机里用数字向量表示每个位置,再通过层与层之间的运算,让网络学会「哪些位置经常一起出现、哪些组合像真实蛋白」。

0.2 「模型」在算什么

可以把预训练理解成:给定一个很大的、可调的数学函数(里面成百万上千万个参数),用海量真实序列做「填空」练习;猜错就按梯度微调参数,使得在没见过的序列上填空也更准。这个过程不需要人工标注每个残基的功能,所以叫 自监督学习(self-supervised learning)(标签来自输入序列本身构造的任务)。

段末注释自监督学习指从输入数据自动生成监督信号(如 MLM 的「被掩真实残基」),无需人工逐条标注功能类别。

0.3 「编码器」是什么意思

**编码器(encoder)**在这里指:输入一整条序列,输出同样长度(外加可选特殊位)的一串向量,每个向量概括「当前残基在整条链上下文里」的信息。ESM 主线用的是 双向编码器表示(Bidirectional Encoder Representations from Transformers,BERT)式编码器(双向看全序列),而不是 生成式预训练 Transformer(Generative Pre-trained Transformer,GPT) 那种「只从左往右生成」的解码器——因此特别适合 MLM 填空每个位置的表征

段末注释BERT 式指可同时利用序列两侧上下文的堆叠编码器;GPT 式常用于逐残基自左向右生成;二者与 §1 中 MLM/CLM 目标对应关系见 酶改造-04 中 PLM 框架一节。

0.4 「Transformer」可以只记一句

Transformer 是一类网络结构的名字:用 自注意力(self-attention)每一个位置都能直接看到其他所有位置(再经多层叠加),比早期 循环神经网络(Recurrent Neural Network,RNN)/ 长短期记忆网络(Long Short-Term Memory,LSTM) 更容易建模长距离依赖(例如活性位点与远端残基的共进化线索)。你不需要先会手推所有公式,Fig.3 的直觉足够支撑阅读应用文献。

段末注释RNN/LSTM 按时间步递归更新隐状态,长链易出现梯度衰减;自注意力让任意两位置直接交互,更利于捕捉长程共进化信号。


1. 核心范式:把蛋白质序列当作「可掩码的文本」

1.1 训练目标(MLM)

BERT(全称见 §0.3)同类:对输入序列随机盖住一部分位置(视觉上常显示为 [MASK] 或随机字母),模型根据两侧及远处的上下文预测「被盖住的原来是哪一种氨基酸」。训练时把预测分布与真实序列中的字母对比,用 交叉熵(cross-entropy)损失 作为优化目标,在海量无标签序列上反复迭代。

图 1 掩码语言建模:遮盖位置经 ESM 编码器后,在被掩位置输出对 20 种氨基酸的概率;训练时用交叉熵对齐真实残基

段末注释交叉熵衡量预测分布与真实 one-hot 标签之间的差异,是分类与 MLM 最常用的训练损失。

实现层面的典型设定(具体比例以各版本代码与论文为准):

  • 掩码比例:常见讨论区间约 15% 量级(与 NLP BERT 类似思想;不同 checkpoint 可微调策略略有差异)。
  • 掩码策略:可混合 替换为 [MASK]替换为另一随机氨基酸小概率保持原字母,减轻「训练时全是掩码、推理时没有掩码」的分布差异(细节见 facebookresearch/esm)。

推理时若要做突变打分,常见做法不是继续随机掩码整链,而是对单个位点尝试替换并看模型赋予的似然或未归一化对数几率(logits)变化(与 Meier 等 神经信息处理系统大会(Conference on Neural Information Processing Systems,NeurIPS)2021 的零样本设定一致,具体 应用程序接口(Application Programming Interface,API) 以仓库为准)。

段末注释logits 为分类层输出的未归一化得分,经 softmax 可得概率;NeurIPS 为机器学习顶会;API 指软件调用接口(如 Python 函数)。

1.2 词表与序列边界

  • 词表:以 20 种标准氨基酸为核心,外加 分类占位符(classification token,[CLS])/ 起始、序列结束(End Of Sequence,[EOS])、填充(padding)、[MASK]、未知残基 等;不同代际模型 token 集合略有扩展,编程时务必使用与模型检查点(checkpoint)配套的 alphabet(字母表/词表对象)
  • 长度:受 最大序列长度 与显存限制;超长链常见 截断、分块或滑动窗口式推理(依脚本与版本而定)。

段末注释[CLS] 常用于汇聚整条序列信息;[EOS] 标记序列结束;checkpoint 指保存的模型权重与优化状态快照。


2. 网络结构:从图示到实现要点

以下 Fig.2~Fig.4 按「数据从哪进 → 注意力做什么 → 一层里有什么」插在对应小节末尾。若你只关心应用,读到 2.4 即可;2.5 供需要对照论文或源码的读者。

2.1 输入:每个字母先变成向量

计算机不能直接「吃字母」,需要两步查表:

  1. 词元嵌入(token embedding):每种氨基酸(及特殊符号)对应 隐层维度(hidden size,常记为 d_model)维空间里的一根向量,类似「可学习的字典」。
  2. 位置嵌入(position embedding):再为第 1、2、…、N 个位置各加一段向量,让模型区分「序列第几位」,否则同一字母在链首与链尾无法区分。

两者相加(或等价实现)后,得到每个位置一个向量,作为 第 1 层 Transformer 的输入。下图从「氨基酸 ID」一直画到 L 层堆叠之后 每个残基一条 d 维向量,便于和上文逐句对照。

段末注释d_model 为模型隐藏向量宽度;token 指词表中的最小符号单位(此处多为单残基或特殊符)。

图 2 编码器数据流:token + 位置嵌入 → 第 1…L 层 Transformer → 每个残基输出一条隐向量(另可选用 [CLS] 或池化得到序列级向量)

2.2 自注意力:每个位置如何「看见」全序列

一句话:第 i 个残基的新表示,由所有位置 j 的旧向量做加权平均得到,权重由网络根据 i 与 j 是否相关自动学习。

多头(multi-head) 是把上述过程在多个子空间里并行做几遍,再拼起来,等价于让模型同时捕捉多种关系(局部接触、长程模式等),不必一开始就区分「氢键」「疏水」——这些化学概念是事后解释。

图 3 自注意力直觉:位置 i 的新向量由全体位置 j 加权混合;权重由 query–key 相容度经 softmax 得到(多头则为多组并行再拼接)

段末注释query/key/value 为注意力三元组,由输入线性映射得到;softmax 将权重归一化为概率分布;多头(multi-head) 指并行多组注意力再拼接。

2.3 一层里还有哪些块

  • 残差连接(residual connection,常记为 Add):把子层的输入加回子层输出上,缓解深层网络难训练的问题,信息更容易跨层传递。
  • 层归一化(Layer Normalization,LayerNorm):把向量尺度归一,训练更稳。
  • 前馈网络(Feed-Forward Network,FFN):对每个位置单独做两层全连接(中间常加 高斯误差线性单元(Gaussian Error Linear Unit,GELU) 激活),相当于在注意力已经「全局沟通过」之后,再做位置内的非线性变换

下图是单层编码块的典型顺序:多头自注意力 → 残差与 LayerNorm → 逐位置前馈 → 再残差与 LayerNorm(具体 前置层归一化(Pre-LayerNorm,Pre-LN)/ 后置层归一化(Post-LayerNorm,Post-LN) 依实现而定)。ESM-2 将此类层堆叠 L 次(如 t33 表示 33 层),得到深层表征。

段末注释FFN 通常为「线性 → 激活 → 线性」的两层 MLP;GELU 为光滑非线性激活函数;Pre-LN/Post-LN 指 LayerNorm 放在残差支路前或后的两种排布。

图 4 单层 Transformer 编码块(概念):MHSA 与 FFN 各带残差与归一化;深层网络重复此模块

2.4 堆叠之后:表征怎么用

  • 序列级向量:常用 [CLS]的向量,或对 N 个残基向量做平均池化,得到整条酶的嵌入,用于聚类、检索。
  • 残基级向量:第 l 层、第 i 个位置的 d 维向量,可用于接触探针、溶剂可及性、突变效应等。
  • 层级:不少工作发现 中间层到后段层 在功能聚类上有时优于盲目只用最后一层,与任务相关,需自行验证。

2.5 进阶:公式与实现细节(可选读)

以下与 ESM-1 / ESM-1b / ESM-2 公开叙述一致;具体 层数 L、隐层维度 d_model、头数 h、FFN 中间维 以官方模型卡为准。

输入嵌入(对每个 token):

[
\mathbf{x}i = \mathbf{E}{\text{tok}}(s_i) + \mathbf{E}_{\text{pos}}(i)
]

自注意力(单头示意;多头为并行多组 (Q,K,V) 再拼接):

[
\mathrm{Attention}(Q,K,V)=\mathrm{softmax}\left(\frac{QK^\top}{\sqrt{d_h}}\right)V
]

其中 (Q,K,V) 由输入向量经线性层得到。生物学直觉:深层中可能隐式编码长程依赖(别构、远端接触、功能 motif),但并非显式物理势能。

从注意力到接触的说明:早期工作曾用注意力图对称化后处理近似接触,属启发式ESMFold 出现后,端到端结构预测更依赖 结构头与几何损失(见 §4),而非手工从 attention 抠接触图。

段末注释:公式中 Q/K/V 分别称查询、键、值向量,由输入经不同线性层得到;d_h 为每个注意力头的维度。


3. ESM 家族谱系与各自分工

下表便于「选型」:同一品牌下不同模型目标函数与接口不同,不可混用训练代码。预期用途列概括各模型在部署时主要用来预测或产出哪类信息(与训练损失不完全等同)。

名称 代表文献/时间 主要任务 预期用途(主要预测/产出什么信息) 一句话定位
ESM-1 Rives 等,PNAS 2021 MLM 预训练 + 表征 序列表征向量(残基级/序列级);被掩位置的氨基酸类别分布;表征可间接用于接触、远程同源、二级结构等 TAPE 类探针(非直接输出坐标) 证明规模化序列训练可涌现结构相关信息
ESM-1b 与 ESM-1 同系列 同上(更强/更稳 checkpoint) ESM-1 同型输出;作为更常用的 嵌入与 MLM logits 来源,供下游分类、聚类、相似度检索 社区长期使用的 650M 级别基线之一
ESM-1v Meier 等,NeurIPS 2021Language models enable zero-shot prediction of the effects of mutations on protein function 基于 ESM-1突变效应 模型族(零样本打分与相关微调实践) 单点或多位点突变的相对有害性/适应性排序(与 DMS 实验度量对齐;不直接输出绝对 k_cat 或具体动力学常数) 变异效应 / fitness 与 DMS 对照的主流基线之一
ESM-IF1 Hsu 等,Science 2022 逆折叠:给定骨架生成序列 在给定 主链/骨架几何约束下的 氨基酸序列(条件生成);用于序列设计而非预测结构 结构条件序列设计
ESM-2 Lin 等,Science 2023 多规格 MLM(约 8M~15B 通用序列表征掩码位置残基分布;广泛用于 零样本突变打分、嵌入检索、与探针结合的 功能/定位/稳定性 等下游(具体头需另接) 当前序列表征与 scaling 主参考
ESMFold Lin 等,同上 单序列三维结构预测 三维结构(主链/全原子坐标)、置信度(如 pLDDT 等)、PAE 类误差估计;输入为序列输出为结构而非仅向量 ESM-2 共享预训练思想,结构模块输出坐标
ESM Metagenomic Atlas Science 工作延伸 宏基因组规模结构覆盖 对海量 未知蛋白序列 批量给出 结构假设与置信度,用于宏基因组注释、家族发现、药物/酶靶点初筛(计算资源与数据库版本依发布说明) 「序列宇宙」上的结构资源层
ESM3 Hayes 等,Science 2025Simulating 500 million years of evolution with a language model;DOI 10.1126/science.ads0018);产品与权重由 进化规模(EvolutionaryScale,ES) 运营 多模态生成式掩码建模:在序列(sequence)结构(structure)功能/注释(function) 等轨道上做联合推理与补全 给定部分序列/结构/功能提示,迭代预测或补全其余轨道;面向远离天然分布的蛋白设计与功能探索(具体 API、许可与模型卡以官方为准) 从「单序列 MLM + 可选结构头」跃迁到「三轨道对齐的生成式生物基础模型」

段末注释TAPE(Tasks Assessing Protein Embeddings)为蛋白质嵌入基准任务集;DMS(Deep Mutational Scanning,深度突变扫描)为高通量测定大量突变体效应的实验范式;k_cat 为催化周转数;pLDDT(predicted Local Distance Difference Test)与 PAE(Predicted Aligned Error)为结构模型输出的置信度/误差类指标;logits§1.1fitness 为适应度或酶活等实验读数的统称。

3.1 代际迭代:从 ESM-1 到 ESM-3(范式怎么变)

下面按时间线与组织主体概括各代「相对上一代多做了什么」,便于和论文/模型卡对照选型。Meta FAIR 开源主线(ESM-1 → ESM-1b → ESM-1v / ESM-IF1 → ESM-2 / ESMFold)与 EvolutionaryScaleESM3同一学术品牌名下的两条产品与授权线:前者以 facebookresearch/esm 与公开权重为主;后者以多模态生成商业/API 条款为主,不可简单当作「ESM-2 的更大 checkpoint」直接替换。

阶段 代表模型 相对前一代的主要变化 典型能力边界(读者预期)
第一代 ESM-1 Transformer 编码器 + MLM 推到亿级参数与大规模 UniRef 类语料,证明表征可涌现接触、远程同源等信号 输出序列表征MLM logits内建原子坐标头
第一代+ ESM-1b 在同类目标下提供更稳定、更大(如 650M 量级)的通用 checkpoint,社区工具链更成熟 同上;常作嵌入基线与下游探针
变异专精 ESM-1v ESM-1 系上聚焦突变位点似然/效应,与 DMS 实验对齐(Meier 等 NeurIPS 2021 零样本突变排序;保证与任意实验读出一一对应
结构条件生成 ESM-IF1 目标从「序列填空」转为给定骨架条件下的序列生成(逆折叠),损失与数据形态与纯 MLM 不同 序列设计;需 PDB 等结构–序列对训练
第二代主干 ESM-2 多档缩放(约 8M~15B)、更大语料与系统 scaling 研究,TAPE 等基准整体提升 通用嵌入MLM;仍是单序列为主的表征模型
结构预测分支 ESMFold ESM-2 表征上接几何模块,端到端输出 3D 坐标与置信度;推理路径强调单序列可用性 结构;与 AlphaFold2 范式差异见 §4
宏基因组覆盖 ESM Metagenomic Atlas ESMFold 类能力推到海量序列的批量预测与资源层建设 注释与发现导向,非单一酶模型微调
第三代(多模态) ESM3 序列 / 结构 / 功能 统一进可掩码、可迭代补全的生成框架;训练与推理强调跨轨道一致性远离天然序列的设计空间 联合生成与推理;部署与许可以 EvolutionaryScale 为准,不等同于 Meta 仓库里的 esm2_* 权重

段末注释scaling(缩放律)指参数量、数据量与下游性能的经验关系;checkpoint 为保存的模型权重快照;ES 此处为商业主体 EvolutionaryScale 的常用简称,与论文中 ESM 模型名勿混。

与酶改造阅读的关系:若你的文献写「用 ESM 做突变打分」,多数指 ESM-1v / ESM-2 logits 路线;若写「ESM3 生成新酶」,需区分其多模态提示与采样与经典 MLM 掩码接口与许可上的差异。


4. 延伸一:ESMFold——在 ESM 表征之上的结构头

ESMFoldESM-2 序列表征之上接 结构模块,端到端输出 三维坐标与置信度;与 §1~§2 仅产出向量或 MLM logits 的用法不同。先总览数据流,再分点与 AlphaFold2 对比。

图 5 ESMFold 高层管线:单条序列 → ESM-2 编码器(序列表征 + 配对表示)→ 结构模块(IPA、迭代细化等)→ 三维坐标与 pLDDT 等;细节以 Lin 等 *Science* 2023 为准

4.1 与 AlphaFold2 的范式差异(为何算「ESM 延伸」)

  • 输入:强调 单条序列 即可工作(不依赖外部 多序列比对(Multiple Sequence Alignment,MSA) 流水线时仍能给可用结构),推理路径与「先搜库做多序列比对再进 Evoformer」的管线不同。
  • 骨干:利用 ESM-2 类编码器产生的序列表征,再接 配对表示、三角更新、不变点注意力(Invariant Point Attention,IPA)与 AlphaFold2 思想同族的几何模块,迭代细化 主链及全原子坐标(实现细节以论文与附录为准)。上图只画信息流向,模块内部请参阅原文。

段末注释MSA 为多条同源序列的列对齐结果,传统 AlphaFold2 强依赖 MSA 共进化信号;IPA 在三维点集上更新刚体/主链几何,是结构模块的核心注意力变体之一。

4.2 优势与代价(实践向)

维度 常见观点
优势 免 MSA 的批处理友好;与 ESM-2 嵌入体系一致,便于「序列任务 + 结构任务」同一生态。
代价 极难折叠/缺同源蛋白,MSA 驱动方法有时仍更强;置信度与实验结构需交叉验证。

5. 延伸二:ESM-IF1(逆折叠)

  • 目标:给定 骨架几何约束(如主链坐标或侧链 pack 的简化输入,以论文为准),自回归或条件生成 可折叠、可表达的序列
  • 与正向 PLM 的关系:不再是「预测被掩氨基酸」的纯 MLM,而是 条件生成;训练数据常依赖 蛋白质数据银行(Protein Data Bank,PDB) 等结构–序列对。
  • 酶工程意义:可用于 活性位点周围序列 redesign稳定性与表达 的候选序列生成,再经 蛋白质语言模型(Protein Language Model,PLM)打分 + 实验 闭环。

段末注释PDB 为实验解析蛋白三维结构的数据库;PLM 在此指序列前向模型输出的似然或嵌入,用于筛选候选序列。


6. 延伸三:ESM-1v 与突变效应预测

  • 出发点:Meier 等(NeurIPS 2021,会议全称见 §1.2)系统展示了用 ESM-1 系模型对突变做 零样本(zero-shot,无任务专用再训练) 打分即可与 深度突变扫描(Deep Mutational Scanning,DMS)实验度量 高度相关;ESM-1v 作为面向该任务的模型族命名,常与「掩码位置似然差分」等打分规则一起使用(实现以官方仓库为准)。
  • 优势:无需为每个蛋白重新训练即可做 位点优先级 粗排;局限:蛋白家族、位点环境与实验 读出(readout,实验读数/表型) 差异大时 相关性会掉,与 ESM-2 logits 启发式实验筛选 交叉验证更稳妥。

段末注释DMS 产出大量「突变—效应」配对,用于检验模型排序是否与实验一致;readout 指实验测量的表型(生长、荧光、酶活等)。


7. 进阶模型:相对前代「改了什么、好在哪」

7.1 ESM-2 相对 ESM-1b(序列主干)

改进点 说明
规模谱系 提供从 约 8M 到 15B 多档模型,便于在精度、延迟、显存间折中,并系统研究 缩放律(scaling law)
数据与训练 更大、更多样的进化相关序列语料上训练(细节见 Science 与补充材料);提升远程同源、表示质量的上限。
任务表现 TAPE、接触/结构相关探针、零样本突变效应 等基准上整体强于早期 ESM-1b(具体任务需看榜单与版本)。

段末注释scaling law(缩放律)描述参数量、数据量与下游性能之间的经验关系;TAPE 全称见 §3 表下段末注释。

7.2 ESMFold 相对「仅 ESM-2 嵌入 + 外接启发式」

改进点 说明
端到端结构监督 直接优化 三维(3D)坐标/辅助损失,比「从 attention 猜接触」更贴近物理几何。
推理集成 一条管线完成 序列 → 结构Fig.5),利于宏基因组与高通量 计算机模拟(in silico) 筛选。

段末注释in silico 拉丁语「在硅片上」,指纯计算模拟;相对 in vitro(体外实验)in vivo(体内/细胞实验)

7.3 ESM-IF1 相对「仅序列 PLM 做设计」

改进点 说明
结构条件 显式利用 几何信息,对 活性口袋、主链约束 更敏感。
生成机制 序列空间搜索 更贴近「在给定骨架下可制造」的序列流形。

7.4 ESM3 相对 ESM-2 / ESMFold 主线(组织与范式)

维度 ESM-2 / ESMFold(Meta facebookresearch/esm ESM3(ES 产品与 API)
建模对象 单条(或多条)氨基酸序列为主;ESMFold 在序列表征上接结构头输出坐标 序列、结构、功能/注释 多轨道联合建模,强调跨模态对齐迭代补全
训练/推理接口 MLM结构端到端 等相对单一任务头;社区多通过 esm2_* 权重本地推理 多模态提示采样策略与经典 MLM 脚本不互换;权重、Forge 类 API 与条款以 ES 官方为准
读者在酶文献中的典型表述 零样本突变 logits」「ESMFold 结构」 生成/设计」「功能约束ESM3」——需核对是否指 ES 产品线而非 Meta 仓库

段末注释ForgeES 侧公开的模型推理/实验平台名称(具体能力以官方文档为准);与 §8HF 托管的 facebook/esm2_* 不是同一路径。


8. 开源资源与复现入口

  • 官方实现:GitHub facebookresearch/esm(模型权重、推理示例、部分结构预测脚本)。
  • 模型标识:常用命名如 esm2_t33_650M_UR50D 等,t33 表示层数,650M 表示参数量级,UR50D 表示基于 UniRef 聚类(50% 相似度等)的训练数据设定;以仓库说明为准
  • Hugging Face(常简称 HF,机器学习模型与数据集托管平台):社区常封装 facebook/esm2_* 等权重,便于与开源深度学习框架 PyTorch 流水线拼接。

段末注释PyTorch 为 Meta 主导的 Python 深度学习框架;UniRef 为 UniProt 下的聚类序列库名称;命名中 UR50D 等为数据版本/聚类阈值缩写,以官方 README 为准。


9. 与聚合酶改造相关的使用建议(极简)

需求 可优先考虑
突变优先级 / fitness 粗排 ESM-2 零样本 logits 差分,或 ESM-1v 系掩码似然打分(与 Meier 等 NeurIPS 2021 流程对齐)。
长程同源与家族划分 ESM-2 嵌入聚类 + 传统比对交叉验证。
催化域结构假设(无 MSA 条件) ESMFoldFig.5)快速出结构,再对接分子对接 / 分子动力学(Molecular Dynamics,MD) 模拟 / 实验。
口袋或主链约束下的序列生成 ESM-IF1 类逆折叠 + 实验迭代。

段末注释分子对接(docking) 指配体/底物与蛋白结合姿态的计算预测;MD(分子动力学)指在力场下模拟原子运动以考察稳定性或构象变化。


10. 小结

  • ESM 主线是 Transformer 编码器 + MLM,用进化尺度序列数据学习通用序列表征;ESM-2 通过多档缩放成为当前最常用的开放权重序列基座之一。
  • §1~§2 内嵌 Fig.1~Fig.4,分别对应「怎么训、整网数据流、自注意力、单层结构」;§4 内嵌 Fig.5,对应 ESMFold 与纯序列表征的分工。
  • ESMFold、ESM-IF1、ESM-1v 等是在同一研究脉络上的任务特化延伸:分别指向 结构预测、逆折叠、突变效应
  • ESM3§3 表、§3.1§7.4)将范式推向 序列–结构–功能 多轨道生成;与 Meta 开源 ESM-2 线在权重位置与许可上分离,阅读文献与选型时需显式区分
  • 进阶优势集中在 scaling、端到端几何、结构条件生成、多模态联合生成 四条轴;落地时仍以 任务匹配度 + 实验验证 为准绳。

11. 延伸阅读(检索关键词)

  • 论文与报告:ESM-2, ESMFold, ESM-IF1, ESM-1v, ESM3, Hayes Science ads0018, EvolutionaryScale, evolutionary scale modeling, masked language modeling protein, inverse folding, zero-shot mutational effects, multimodal protein generation
  • 代码:facebookresearch/esm,关键词 esmfold, esm_if1, esm1vESM3EvolutionaryScale 官方发布与 API 文档为准(与 facebookresearch/esm 非同一权重路径)

本系列评估指标 · 筛选脉络 · 开源数据 · PLMs 总览

-------------本文结束感谢您的阅读-------------