缩写体例:缩写首次出现写「中文全称(English Full Name,ABB)」;在该段末尾用 段末注释(引用块)解释概念;后文沿用缩写。
进化尺度建模(Evolutionary Scale Modeling,ESM) 是 Meta(原 Facebook)基础人工智能研究(Fundamental AI Research,FAIR) 团队提出的 蛋白质序列基础模型系列:用 Transformer(以自注意力堆叠为核心的网络结构,见 §0.4)编码器在大量序列上做 掩码语言建模(Masked Language Modeling,MLM) 预训练,再把学到的向量用于嵌入、突变打分、逆折叠或结构预测等。下文先建立不依赖自然语言处理(Natural Language Processing,NLP)背景的直观,再进入实现细节与家族对比。
段末注释:ESM 为 Meta 开源的序列预训练模型族名称;FAIR 为 Meta 人工智能实验室旧称;MLM 指随机遮盖残基并预测原残基的自监督目标;NLP 为自然语言处理,本文借其 Transformer/BERT 类技术处理蛋白「字母串」;Transformer 为 Vaswani 等提出的编码器/解码器骨干网络。
读前说明
- 不必先会「大模型」课:你只要把蛋白质看成一排字母、把神经网络看成可训练的函数,就能跟上 §0 与 §2。
- 插图不单独成章:Fig.1~Fig.4 嵌在 §1~§2 对应段落之后,Fig.5 嵌在 §4(ESMFold) 开头;顺读正文即可图文对照。图为独立 可缩放矢量图形(Scalable Vector Graphics,SVG)(
酶改造-05.ESM框架详解/esm05-fig0*.svg),白底科研示意风格;图内 英文标题 便于字体兼容,释义见各图下中文说明。若站点对 SVG 支持不佳,同路径替换为 便携式网络图形(Portable Network Graphics,PNG) 即可。
段末注释:SVG 为矢量图格式,任意缩放清晰;PNG 为栅格图格式,兼容性通常更好;§ 表示节号。
0. 没有 Transformer 基础时:先建立四个直观
0.1 序列就是「一排氨基酸字母」
一条蛋白质序列可以写成 M K V ...(每个字母是一种氨基酸)。模型不做化学反应仿真,而是在计算机里用数字向量表示每个位置,再通过层与层之间的运算,让网络学会「哪些位置经常一起出现、哪些组合像真实蛋白」。
0.2 「模型」在算什么
可以把预训练理解成:给定一个很大的、可调的数学函数(里面成百万上千万个参数),用海量真实序列做「填空」练习;猜错就按梯度微调参数,使得在没见过的序列上填空也更准。这个过程不需要人工标注每个残基的功能,所以叫 自监督学习(self-supervised learning)(标签来自输入序列本身构造的任务)。
段末注释:自监督学习指从输入数据自动生成监督信号(如 MLM 的「被掩真实残基」),无需人工逐条标注功能类别。
0.3 「编码器」是什么意思
**编码器(encoder)**在这里指:输入一整条序列,输出同样长度(外加可选特殊位)的一串向量,每个向量概括「当前残基在整条链上下文里」的信息。ESM 主线用的是 双向编码器表示(Bidirectional Encoder Representations from Transformers,BERT)式编码器(双向看全序列),而不是 生成式预训练 Transformer(Generative Pre-trained Transformer,GPT) 那种「只从左往右生成」的解码器——因此特别适合 MLM 填空 与 每个位置的表征。
段末注释:BERT 式指可同时利用序列两侧上下文的堆叠编码器;GPT 式常用于逐残基自左向右生成;二者与 §1 中 MLM/CLM 目标对应关系见 酶改造-04 中 PLM 框架一节。
0.4 「Transformer」可以只记一句
Transformer 是一类网络结构的名字:用 自注意力(self-attention) 让每一个位置都能直接看到其他所有位置(再经多层叠加),比早期 循环神经网络(Recurrent Neural Network,RNN)/ 长短期记忆网络(Long Short-Term Memory,LSTM) 更容易建模长距离依赖(例如活性位点与远端残基的共进化线索)。你不需要先会手推所有公式,Fig.3 的直觉足够支撑阅读应用文献。
段末注释:RNN/LSTM 按时间步递归更新隐状态,长链易出现梯度衰减;自注意力让任意两位置直接交互,更利于捕捉长程共进化信号。
1. 核心范式:把蛋白质序列当作「可掩码的文本」
1.1 训练目标(MLM)
与 BERT(全称见 §0.3)同类:对输入序列随机盖住一部分位置(视觉上常显示为 [MASK] 或随机字母),模型根据两侧及远处的上下文预测「被盖住的原来是哪一种氨基酸」。训练时把预测分布与真实序列中的字母对比,用 交叉熵(cross-entropy)损失 作为优化目标,在海量无标签序列上反复迭代。
段末注释:交叉熵衡量预测分布与真实 one-hot 标签之间的差异,是分类与 MLM 最常用的训练损失。
实现层面的典型设定(具体比例以各版本代码与论文为准):
- 掩码比例:常见讨论区间约 15% 量级(与 NLP BERT 类似思想;不同 checkpoint 可微调策略略有差异)。
- 掩码策略:可混合 替换为
[MASK]、替换为另一随机氨基酸、小概率保持原字母,减轻「训练时全是掩码、推理时没有掩码」的分布差异(细节见facebookresearch/esm)。
推理时若要做突变打分,常见做法不是继续随机掩码整链,而是对单个位点尝试替换并看模型赋予的似然或未归一化对数几率(logits)变化(与 Meier 等 神经信息处理系统大会(Conference on Neural Information Processing Systems,NeurIPS)2021 的零样本设定一致,具体 应用程序接口(Application Programming Interface,API) 以仓库为准)。
段末注释:logits 为分类层输出的未归一化得分,经 softmax 可得概率;NeurIPS 为机器学习顶会;API 指软件调用接口(如 Python 函数)。
1.2 词表与序列边界
- 词表:以 20 种标准氨基酸为核心,外加 分类占位符(classification token,
[CLS])/ 起始、序列结束(End Of Sequence,[EOS])、填充(padding)、[MASK]、未知残基 等;不同代际模型 token 集合略有扩展,编程时务必使用与模型检查点(checkpoint)配套的 alphabet(字母表/词表对象)。 - 长度:受 最大序列长度 与显存限制;超长链常见 截断、分块或滑动窗口式推理(依脚本与版本而定)。
段末注释:
[CLS]常用于汇聚整条序列信息;[EOS]标记序列结束;checkpoint 指保存的模型权重与优化状态快照。
2. 网络结构:从图示到实现要点
以下 Fig.2~Fig.4 按「数据从哪进 → 注意力做什么 → 一层里有什么」插在对应小节末尾。若你只关心应用,读到 2.4 即可;2.5 供需要对照论文或源码的读者。
2.1 输入:每个字母先变成向量
计算机不能直接「吃字母」,需要两步查表:
- 词元嵌入(token embedding):每种氨基酸(及特殊符号)对应 隐层维度(hidden size,常记为 d_model)维空间里的一根向量,类似「可学习的字典」。
- 位置嵌入(position embedding):再为第 1、2、…、N 个位置各加一段向量,让模型区分「序列第几位」,否则同一字母在链首与链尾无法区分。
两者相加(或等价实现)后,得到每个位置一个向量,作为 第 1 层 Transformer 的输入。下图从「氨基酸 ID」一直画到 L 层堆叠之后 每个残基一条 d 维向量,便于和上文逐句对照。
段末注释:d_model 为模型隐藏向量宽度;token 指词表中的最小符号单位(此处多为单残基或特殊符)。
2.2 自注意力:每个位置如何「看见」全序列
一句话:第 i 个残基的新表示,由所有位置 j 的旧向量做加权平均得到,权重由网络根据 i 与 j 是否相关自动学习。
多头(multi-head) 是把上述过程在多个子空间里并行做几遍,再拼起来,等价于让模型同时捕捉多种关系(局部接触、长程模式等),不必一开始就区分「氢键」「疏水」——这些化学概念是事后解释。
段末注释:query/key/value 为注意力三元组,由输入线性映射得到;softmax 将权重归一化为概率分布;多头(multi-head) 指并行多组注意力再拼接。
2.3 一层里还有哪些块
- 残差连接(residual connection,常记为 Add):把子层的输入加回子层输出上,缓解深层网络难训练的问题,信息更容易跨层传递。
- 层归一化(Layer Normalization,LayerNorm):把向量尺度归一,训练更稳。
- 前馈网络(Feed-Forward Network,FFN):对每个位置单独做两层全连接(中间常加 高斯误差线性单元(Gaussian Error Linear Unit,GELU) 激活),相当于在注意力已经「全局沟通过」之后,再做位置内的非线性变换。
下图是单层编码块的典型顺序:多头自注意力 → 残差与 LayerNorm → 逐位置前馈 → 再残差与 LayerNorm(具体 前置层归一化(Pre-LayerNorm,Pre-LN)/ 后置层归一化(Post-LayerNorm,Post-LN) 依实现而定)。ESM-2 将此类层堆叠 L 次(如 t33 表示 33 层),得到深层表征。
段末注释:FFN 通常为「线性 → 激活 → 线性」的两层 MLP;GELU 为光滑非线性激活函数;Pre-LN/Post-LN 指 LayerNorm 放在残差支路前或后的两种排布。
2.4 堆叠之后:表征怎么用
- 序列级向量:常用
[CLS]位的向量,或对 N 个残基向量做平均池化,得到整条酶的嵌入,用于聚类、检索。 - 残基级向量:第 l 层、第 i 个位置的 d 维向量,可用于接触探针、溶剂可及性、突变效应等。
- 层级:不少工作发现 中间层到后段层 在功能聚类上有时优于盲目只用最后一层,与任务相关,需自行验证。
2.5 进阶:公式与实现细节(可选读)
以下与 ESM-1 / ESM-1b / ESM-2 公开叙述一致;具体 层数 L、隐层维度 d_model、头数 h、FFN 中间维 以官方模型卡为准。
输入嵌入(对每个 token):
[
\mathbf{x}i = \mathbf{E}{\text{tok}}(s_i) + \mathbf{E}_{\text{pos}}(i)
]
自注意力(单头示意;多头为并行多组 (Q,K,V) 再拼接):
[
\mathrm{Attention}(Q,K,V)=\mathrm{softmax}\left(\frac{QK^\top}{\sqrt{d_h}}\right)V
]
其中 (Q,K,V) 由输入向量经线性层得到。生物学直觉:深层中可能隐式编码长程依赖(别构、远端接触、功能 motif),但并非显式物理势能。
从注意力到接触的说明:早期工作曾用注意力图对称化与后处理近似接触,属启发式;ESMFold 出现后,端到端结构预测更依赖 结构头与几何损失(见 §4),而非手工从 attention 抠接触图。
段末注释:公式中 Q/K/V 分别称查询、键、值向量,由输入经不同线性层得到;d_h 为每个注意力头的维度。
3. ESM 家族谱系与各自分工
下表便于「选型」:同一品牌下不同模型目标函数与接口不同,不可混用训练代码。预期用途列概括各模型在部署时主要用来预测或产出哪类信息(与训练损失不完全等同)。
| 名称 | 代表文献/时间 | 主要任务 | 预期用途(主要预测/产出什么信息) | 一句话定位 |
|---|---|---|---|---|
| ESM-1 | Rives 等,PNAS 2021 | MLM 预训练 + 表征 | 序列表征向量(残基级/序列级);被掩位置的氨基酸类别分布;表征可间接用于接触、远程同源、二级结构等 TAPE 类探针(非直接输出坐标) | 证明规模化序列训练可涌现结构相关信息 |
| ESM-1b | 与 ESM-1 同系列 | 同上(更强/更稳 checkpoint) | 与 ESM-1 同型输出;作为更常用的 嵌入与 MLM logits 来源,供下游分类、聚类、相似度检索 | 社区长期使用的 650M 级别基线之一 |
| ESM-1v | Meier 等,NeurIPS 2021(Language models enable zero-shot prediction of the effects of mutations on protein function) | 基于 ESM-1 的 突变效应 模型族(零样本打分与相关微调实践) | 单点或多位点突变的相对有害性/适应性排序(与 DMS 实验度量对齐;不直接输出绝对 k_cat 或具体动力学常数) | 变异效应 / fitness 与 DMS 对照的主流基线之一 |
| ESM-IF1 | Hsu 等,Science 2022 | 逆折叠:给定骨架生成序列 | 在给定 主链/骨架几何约束下的 氨基酸序列(条件生成);用于序列设计而非预测结构 | 结构条件序列设计 |
| ESM-2 | Lin 等,Science 2023 | 多规格 MLM(约 8M~15B) | 通用序列表征与 掩码位置残基分布;广泛用于 零样本突变打分、嵌入检索、与探针结合的 功能/定位/稳定性 等下游(具体头需另接) | 当前序列表征与 scaling 主参考 |
| ESMFold | Lin 等,同上 | 单序列三维结构预测 | 三维结构(主链/全原子坐标)、置信度(如 pLDDT 等)、PAE 类误差估计;输入为序列,输出为结构而非仅向量 | 与 ESM-2 共享预训练思想,结构模块输出坐标 |
| ESM Metagenomic Atlas | 同 Science 工作延伸 | 宏基因组规模结构覆盖 | 对海量 未知蛋白序列 批量给出 结构假设与置信度,用于宏基因组注释、家族发现、药物/酶靶点初筛(计算资源与数据库版本依发布说明) | 「序列宇宙」上的结构资源层 |
| ESM3 | Hayes 等,Science 2025(Simulating 500 million years of evolution with a language model;DOI 10.1126/science.ads0018);产品与权重由 进化规模(EvolutionaryScale,ES) 运营 | 多模态生成式掩码建模:在序列(sequence)、结构(structure)、功能/注释(function) 等轨道上做联合推理与补全 | 给定部分序列/结构/功能提示,迭代预测或补全其余轨道;面向远离天然分布的蛋白设计与功能探索(具体 API、许可与模型卡以官方为准) | 从「单序列 MLM + 可选结构头」跃迁到「三轨道对齐的生成式生物基础模型」 |
段末注释:TAPE(Tasks Assessing Protein Embeddings)为蛋白质嵌入基准任务集;DMS(Deep Mutational Scanning,深度突变扫描)为高通量测定大量突变体效应的实验范式;k_cat 为催化周转数;pLDDT(predicted Local Distance Difference Test)与 PAE(Predicted Aligned Error)为结构模型输出的置信度/误差类指标;logits 见 §1.1;fitness 为适应度或酶活等实验读数的统称。
3.1 代际迭代:从 ESM-1 到 ESM-3(范式怎么变)
下面按时间线与组织主体概括各代「相对上一代多做了什么」,便于和论文/模型卡对照选型。Meta FAIR 开源主线(ESM-1 → ESM-1b → ESM-1v / ESM-IF1 → ESM-2 / ESMFold)与 EvolutionaryScale 的 ESM3 是同一学术品牌名下的两条产品与授权线:前者以 facebookresearch/esm 与公开权重为主;后者以多模态生成与商业/API 条款为主,不可简单当作「ESM-2 的更大 checkpoint」直接替换。
| 阶段 | 代表模型 | 相对前一代的主要变化 | 典型能力边界(读者预期) |
|---|---|---|---|
| 第一代 | ESM-1 | 把 Transformer 编码器 + MLM 推到亿级参数与大规模 UniRef 类语料,证明表征可涌现接触、远程同源等信号 | 输出序列表征与 MLM logits;不内建原子坐标头 |
| 第一代+ | ESM-1b | 在同类目标下提供更稳定、更大(如 650M 量级)的通用 checkpoint,社区工具链更成熟 | 同上;常作嵌入基线与下游探针 |
| 变异专精 | ESM-1v | 在 ESM-1 系上聚焦突变位点似然/效应,与 DMS 实验对齐(Meier 等 NeurIPS 2021) | 零样本突变排序;不保证与任意实验读出一一对应 |
| 结构条件生成 | ESM-IF1 | 目标从「序列填空」转为给定骨架条件下的序列生成(逆折叠),损失与数据形态与纯 MLM 不同 | 序列设计;需 PDB 等结构–序列对训练 |
| 第二代主干 | ESM-2 | 多档缩放(约 8M~15B)、更大语料与系统 scaling 研究,TAPE 等基准整体提升 | 通用嵌入与 MLM;仍是单序列为主的表征模型 |
| 结构预测分支 | ESMFold | 在 ESM-2 表征上接几何模块,端到端输出 3D 坐标与置信度;推理路径强调单序列可用性 | 结构;与 AlphaFold2 范式差异见 §4 |
| 宏基因组覆盖 | ESM Metagenomic Atlas | 将 ESMFold 类能力推到海量序列的批量预测与资源层建设 | 注释与发现导向,非单一酶模型微调 |
| 第三代(多模态) | ESM3 | 将 序列 / 结构 / 功能 统一进可掩码、可迭代补全的生成框架;训练与推理强调跨轨道一致性与远离天然序列的设计空间 | 联合生成与推理;部署与许可以 EvolutionaryScale 为准,不等同于 Meta 仓库里的 esm2_* 权重 |
段末注释:scaling(缩放律)指参数量、数据量与下游性能的经验关系;checkpoint 为保存的模型权重快照;ES 此处为商业主体 EvolutionaryScale 的常用简称,与论文中 ESM 模型名勿混。
与酶改造阅读的关系:若你的文献写「用 ESM 做突变打分」,多数指 ESM-1v / ESM-2 logits 路线;若写「ESM3 生成新酶」,需区分其多模态提示与采样与经典 MLM 掩码在接口与许可上的差异。
4. 延伸一:ESMFold——在 ESM 表征之上的结构头
ESMFold 在 ESM-2 序列表征之上接 结构模块,端到端输出 三维坐标与置信度;与 §1~§2 仅产出向量或 MLM logits 的用法不同。先总览数据流,再分点与 AlphaFold2 对比。
4.1 与 AlphaFold2 的范式差异(为何算「ESM 延伸」)
- 输入:强调 单条序列 即可工作(不依赖外部 多序列比对(Multiple Sequence Alignment,MSA) 流水线时仍能给可用结构),推理路径与「先搜库做多序列比对再进 Evoformer」的管线不同。
- 骨干:利用 ESM-2 类编码器产生的序列表征,再接 配对表示、三角更新、不变点注意力(Invariant Point Attention,IPA) 等与 AlphaFold2 思想同族的几何模块,迭代细化 主链及全原子坐标(实现细节以论文与附录为准)。上图只画信息流向,模块内部请参阅原文。
段末注释:MSA 为多条同源序列的列对齐结果,传统 AlphaFold2 强依赖 MSA 共进化信号;IPA 在三维点集上更新刚体/主链几何,是结构模块的核心注意力变体之一。
4.2 优势与代价(实践向)
| 维度 | 常见观点 |
|---|---|
| 优势 | 免 MSA 的批处理友好;与 ESM-2 嵌入体系一致,便于「序列任务 + 结构任务」同一生态。 |
| 代价 | 对极难折叠/缺同源蛋白,MSA 驱动方法有时仍更强;置信度与实验结构需交叉验证。 |
5. 延伸二:ESM-IF1(逆折叠)
- 目标:给定 骨架几何约束(如主链坐标或侧链 pack 的简化输入,以论文为准),自回归或条件生成 可折叠、可表达的序列。
- 与正向 PLM 的关系:不再是「预测被掩氨基酸」的纯 MLM,而是 条件生成;训练数据常依赖 蛋白质数据银行(Protein Data Bank,PDB) 等结构–序列对。
- 酶工程意义:可用于 活性位点周围序列 redesign、稳定性与表达 的候选序列生成,再经 蛋白质语言模型(Protein Language Model,PLM)打分 + 实验 闭环。
段末注释:PDB 为实验解析蛋白三维结构的数据库;PLM 在此指序列前向模型输出的似然或嵌入,用于筛选候选序列。
6. 延伸三:ESM-1v 与突变效应预测
- 出发点:Meier 等(NeurIPS 2021,会议全称见 §1.2)系统展示了用 ESM-1 系模型对突变做 零样本(zero-shot,无任务专用再训练) 打分即可与 深度突变扫描(Deep Mutational Scanning,DMS)实验度量 高度相关;ESM-1v 作为面向该任务的模型族命名,常与「掩码位置似然差分」等打分规则一起使用(实现以官方仓库为准)。
- 优势:无需为每个蛋白重新训练即可做 位点优先级 粗排;局限:蛋白家族、位点环境与实验 读出(readout,实验读数/表型) 差异大时 相关性会掉,与 ESM-2 logits 启发式、实验筛选 交叉验证更稳妥。
段末注释:DMS 产出大量「突变—效应」配对,用于检验模型排序是否与实验一致;readout 指实验测量的表型(生长、荧光、酶活等)。
7. 进阶模型:相对前代「改了什么、好在哪」
7.1 ESM-2 相对 ESM-1b(序列主干)
| 改进点 | 说明 |
|---|---|
| 规模谱系 | 提供从 约 8M 到 15B 多档模型,便于在精度、延迟、显存间折中,并系统研究 缩放律(scaling law)。 |
| 数据与训练 | 在更大、更多样的进化相关序列语料上训练(细节见 Science 与补充材料);提升远程同源、表示质量的上限。 |
| 任务表现 | 在 TAPE、接触/结构相关探针、零样本突变效应 等基准上整体强于早期 ESM-1b(具体任务需看榜单与版本)。 |
段末注释:scaling law(缩放律)描述参数量、数据量与下游性能之间的经验关系;TAPE 全称见 §3 表下段末注释。
7.2 ESMFold 相对「仅 ESM-2 嵌入 + 外接启发式」
| 改进点 | 说明 |
|---|---|
| 端到端结构监督 | 直接优化 三维(3D)坐标/辅助损失,比「从 attention 猜接触」更贴近物理几何。 |
| 推理集成 | 一条管线完成 序列 → 结构(Fig.5),利于宏基因组与高通量 计算机模拟(in silico) 筛选。 |
段末注释:in silico 拉丁语「在硅片上」,指纯计算模拟;相对 in vitro(体外实验)、in vivo(体内/细胞实验)。
7.3 ESM-IF1 相对「仅序列 PLM 做设计」
| 改进点 | 说明 |
|---|---|
| 结构条件 | 显式利用 几何信息,对 活性口袋、主链约束 更敏感。 |
| 生成机制 | 序列空间搜索 更贴近「在给定骨架下可制造」的序列流形。 |
7.4 ESM3 相对 ESM-2 / ESMFold 主线(组织与范式)
| 维度 | ESM-2 / ESMFold(Meta facebookresearch/esm) |
ESM3(ES 产品与 API) |
|---|---|---|
| 建模对象 | 以单条(或多条)氨基酸序列为主;ESMFold 在序列表征上接结构头输出坐标 | 序列、结构、功能/注释 多轨道联合建模,强调跨模态对齐与迭代补全 |
| 训练/推理接口 | MLM 或 结构端到端 等相对单一任务头;社区多通过 esm2_* 权重本地推理 |
多模态提示与采样策略与经典 MLM 脚本不互换;权重、Forge 类 API 与条款以 ES 官方为准 |
| 读者在酶文献中的典型表述 | 「零样本突变 logits」「ESMFold 结构」 | 「生成/设计」「功能约束与 ESM3」——需核对是否指 ES 产品线而非 Meta 仓库 |
段末注释:Forge 为 ES 侧公开的模型推理/实验平台名称(具体能力以官方文档为准);与 §8 中 HF 托管的
facebook/esm2_*不是同一路径。
8. 开源资源与复现入口
- 官方实现:GitHub
facebookresearch/esm(模型权重、推理示例、部分结构预测脚本)。 - 模型标识:常用命名如
esm2_t33_650M_UR50D等,t33表示层数,650M表示参数量级,UR50D表示基于 UniRef 聚类(50% 相似度等)的训练数据设定;以仓库说明为准。 - Hugging Face(常简称 HF,机器学习模型与数据集托管平台):社区常封装
facebook/esm2_*等权重,便于与开源深度学习框架 PyTorch 流水线拼接。
段末注释:PyTorch 为 Meta 主导的 Python 深度学习框架;UniRef 为 UniProt 下的聚类序列库名称;命名中 UR50D 等为数据版本/聚类阈值缩写,以官方 README 为准。
9. 与聚合酶改造相关的使用建议(极简)
| 需求 | 可优先考虑 |
|---|---|
| 突变优先级 / fitness 粗排 | ESM-2 零样本 logits 差分,或 ESM-1v 系掩码似然打分(与 Meier 等 NeurIPS 2021 流程对齐)。 |
| 长程同源与家族划分 | ESM-2 嵌入聚类 + 传统比对交叉验证。 |
| 催化域结构假设(无 MSA 条件) | ESMFold(Fig.5)快速出结构,再对接分子对接 / 分子动力学(Molecular Dynamics,MD) 模拟 / 实验。 |
| 口袋或主链约束下的序列生成 | ESM-IF1 类逆折叠 + 实验迭代。 |
段末注释:分子对接(docking) 指配体/底物与蛋白结合姿态的计算预测;MD(分子动力学)指在力场下模拟原子运动以考察稳定性或构象变化。
10. 小结
- ESM 主线是 Transformer 编码器 + MLM,用进化尺度序列数据学习通用序列表征;ESM-2 通过多档缩放成为当前最常用的开放权重序列基座之一。
- §1~§2 内嵌 Fig.1~Fig.4,分别对应「怎么训、整网数据流、自注意力、单层结构」;§4 内嵌 Fig.5,对应 ESMFold 与纯序列表征的分工。
- ESMFold、ESM-IF1、ESM-1v 等是在同一研究脉络上的任务特化延伸:分别指向 结构预测、逆折叠、突变效应。
- ESM3(§3 表、§3.1、§7.4)将范式推向 序列–结构–功能 多轨道生成;与 Meta 开源 ESM-2 线在权重位置与许可上分离,阅读文献与选型时需显式区分。
- 进阶优势集中在 scaling、端到端几何、结构条件生成、多模态联合生成 四条轴;落地时仍以 任务匹配度 + 实验验证 为准绳。
11. 延伸阅读(检索关键词)
- 论文与报告:
ESM-2,ESMFold,ESM-IF1,ESM-1v,ESM3,Hayes Science ads0018,EvolutionaryScale,evolutionary scale modeling,masked language modeling protein,inverse folding,zero-shot mutational effects,multimodal protein generation - 代码:
facebookresearch/esm,关键词esmfold,esm_if1,esm1v;ESM3 以 EvolutionaryScale 官方发布与 API 文档为准(与facebookresearch/esm非同一权重路径)