酶改造-模型论文-ESMFold2 与 ESM Atlas:一张 11 亿蛋白结构的暗物质地图

前置阅读酶改造-模型论文-ESMFold2全面解读。本文配套公众号版本为「ESMFold2 全面解读」下篇。

缩写体例:缩写首次出现写「中文全称(英文全称,缩写)」;在该段末尾用 段末注释 框简要解释概念,后文沿用缩写。

2026 年 5 月,Nature报道了 ESMFold2。

但如果你只关注模型本身,你可能会错过这场发布中真正有意思的部分——ESM Atlas,一个包含 11 亿个预测结构的蛋白序列宇宙,以及 Sparse Autoencoder(SAE)——一套用来解析蛋白质语言模型「脑子里在想什么」的工具。

这篇不讲架构,不跑 benchmark,我们来聊聊 ESM Atlas 里的发现,以及那些藏在模型 latent space 里的「蛋白概念词典」。


一、ESM Atlas:11 亿蛋白结构的宇宙

ESM Atlas 是 EvolutionaryScale 同时发布的大规模蛋白结构数据库。它的规模是:

指标 数字
蛋白序列总数 68 亿条
预测结构数 11 亿个
相比 AlphaFold DB 多 8 亿条
相比上一版 ESM Atlas 多 3 亿条

这是目前世界上最大的公开预测蛋白结构数据库。

打个比方:如果把每个蛋白结构想象成宇宙中的一个星系,AlphaFold DB 覆盖的只是银河系内几千颗恒星。而 ESM Atlas 覆盖的,是整整一个星系团——而且还在扩张。

ESM Atlas 提供了 UMAP 可视化:把 11 亿个蛋白结构投影到二维平面,相似的结构聚集在一起,形成清晰的蛋白家族聚类。你可以在地图上看到 Kinase 家族、GPCR 家族、抗体家族、酶家族各自占据的区域。

ESM Atlas 11亿蛋白宇宙

数据来源包括大量宏基因组(metagenomics)数据——这些来自土壤、海洋、深海的微生物蛋白,在实验室里从未被表征过,但它们在自然界中无处不在。宏基因组数据的引入,让 ESM Atlas 极大地扩展了对「非典型蛋白折叠」的了解。


二、一个意外发现:真菌里的 CRISPR

ESM Atlas 最有意思的发现,是用它做「结构相似性检索」时无意中找到的:

在 2023 年发现的土壤真菌中,研究者找到了与 CRISPR 系统极其相似的蛋白结构。

这是一个真核生物(eukaryote)中的 CRISPR-like 蛋白。

CRISPR 系统长期以来被认为主要存在于原核生物(细菌、古菌)中,是它们对抗病毒和质粒的免疫机制。真核生物中是否存在类似的系统,一直是悬而未决的问题。

ESM Atlas 通过结构比对发现:土壤真菌里有一种蛋白折叠,与 CRISPR-Cas9 的关键结构域高度相似。这可能意味着:

  • 真核生物拥有自己版本的 CRISPR样系统
  • 或者,这是一个趋同进化(convergent evolution)的案例,类似的防御机制独立演化过多次

这个发现目前还是初步的结构预测,需要湿实验验证。但它展示了 ESM Atlas 作为「发现工具」的价值——不是被动存储数据,而是主动引导新假设。

CRISPR-like 蛋白在真菌中的发现


三、Sparse Autoencoder:破解模型的「概念词典」

这是 ESMFold2 论文中最具哲学意味的部分。

论文用 Sparse Autoencoder 对 ESMC 的 latent space 进行了分解,试图回答一个问题:蛋白质语言模型内部,到底在表示什么?

结果让人意外:模型在训练过程中,自发地形成了可解释的「概念方向」。

3.1 找到了哪些概念?

SAE 解析出来的方向包括:

概念方向 生物学含义
Catalytic motif 催化位点特征
Disulfide bond 二硫键模式
Beta barrel β-桶折叠
DNA polymerase clamp domain DNA 聚合酶夹结构域
Membrane helix transition 膜螺旋过渡区
Glycoside hydrolase active sites 糖苷水解酶活性位点

这些不是人为定义的标签,而是模型在训练过程中自发形成的表征方向。SAE 的作用相当于一把钥匙,把这些隐藏在神经网络参数里的「概念」显式地提取出来。

3.2 一个层级组织

更有意思的是,这些概念之间存在层级组织

局部氨基酸性质 → 二级结构(α螺旋/β折叠)→ 三级 motif → Domain/Fold → 亚细胞定位 → 功能位点

从最底层的氨基酸性质开始,模型逐步构建起对蛋白质结构的高层理解。这与人类生物学家理解蛋白质的方式,有着奇妙的相似性。

SAE 概念分解图

3.3 这意味着什么?

论文的标题是 Language Modeling Materializes a World Model of Protein Biology——「语言建模使蛋白质生物学的世界模型具象化」。

这个说法并不夸张。如果模型能在 latent space 中自组织出「催化位点」「膜螺旋」「DNA聚合酶夹」这样的概念,并且这些概念按层级排列,那么模型确实学到了关于蛋白质世界的某种结构性知识,而不仅仅是记住了序列。

但这里有一个重要的提醒:这些「概念」是模型空间中的统计结构,不等于真实的物理机制。它们是模型对训练数据规律的压缩表示,用来预测结构可能很有效,但「为什么有效」仍然是开放的科学问题。


四、与 AlphaFold3 的关系:补充,不是替代

ESMFold2 发布后,MIT 的 Sergey Ovchinnikov(AlphaFold 系列的核心贡献者)给出了一个评价:ESMFold2 是对 AlphaFold3 的补充,不是替代

两者的技术路线有本质差异:

维度 ESMFold2 AlphaFold3
技术路线 语言模型表示优先 显式结构建模路线
MSA 依赖 单序列即可很强 依赖 MSA(进化信息)
强项 宏基因组泛化、高通量筛选、抗体设计 高精度小分子/离子/配体结合
训练数据 28 亿条(含宏基因组) ~20 万条 PDB + 大量 MSA

ESMFold2 vs AlphaFold3 路线对比

Sergey Ovchinnikov 的原话大致是:ESMFold2 在宏基因组和非典型蛋白上有明显优势,但 AF3 在有高质量 MSA 的场景下仍然是 gold standard。两者结合使用才是最优策略。


五、ESM Atlas 能做什么?

ESM Atlas 不只是一个数据库,它是一个生态系统的入口

几个实际的使用场景:

1. 结构相似性检索

上传你的蛋白序列,ESM Atlas 可以告诉你:在11 亿个已知结构中,哪些与你的序列最相似?这对于预测功能、发现 homolog、找结合口袋都非常有用。

2. 蛋白家族调查

想知道某个蛋白家族在自然界中有多大的多样性?ESM Atlas 的聚类可视化可以帮你快速了解家族成员的分布和进化关系。

3. 新发现加速

土壤真菌 CRISPR-like 蛋白的发现证明:当你有一个足够大的结构数据库,再加上高效的相似性检索,新的生物学发现会自动浮现。

4. 训练数据来源

ESM Atlas 的 68 亿条序列和 11 亿个预测结构,是未来蛋白质语言模型训练的重要数据来源。更大的训练集 → 更好的泛化能力 → 更好的结构预测——这个正循环是 ESMFold2 路线最核心的优势。


六、结语

ESMFold2 的发布,不只是一个新模型的问世。

它背后是三条相互交织的线索:

  • 更大的语言模型(ESMC,28 亿条序列训练)
  • 更大的结构数据库(ESM Atlas,11 亿个预测结构)
  • 更深的可解释性工具(SAE,破解模型的「概念词典」)

这三条线索合在一起,指向一个更大的愿景:不是让 AI 来预测蛋白质结构,而是让 AI 来理解蛋白质——以一种可解释、可验证、可以引导新发现的方式。

「Move over, AlphaFold」——这个标题或许有些夸张。但 ESMFold2 确实在告诉我们:蛋白质的世界里,还有一大片从未被系统探索过的暗物质。而 ESM Atlas,正在打开那张地图。

GitHub:github.com/EvolutionaryScale/ESMFold
ESM Atlas:atlas.evolutionaryscale.com

-------------本文结束感谢您的阅读-------------