酶改造-模型论文-ESMFold2 与 ESM Atlas：一张 11 亿蛋白结构的暗物质地图

前置阅读：酶改造-模型论文-ESMFold2全面解读。本文配套公众号版本为「ESMFold2 全面解读」下篇。

缩写体例：缩写首次出现写「中文全称（英文全称，缩写）」；在该段末尾用 段末注释 框简要解释概念，后文沿用缩写。

2026 年 5 月，Nature报道了 ESMFold2。

但如果你只关注模型本身，你可能会错过这场发布中真正有意思的部分——ESM Atlas，一个包含 11 亿个预测结构的蛋白序列宇宙，以及 Sparse Autoencoder（SAE）——一套用来解析蛋白质语言模型「脑子里在想什么」的工具。

这篇不讲架构，不跑 benchmark，我们来聊聊 ESM Atlas 里的发现，以及那些藏在模型 latent space 里的「蛋白概念词典」。

一、ESM Atlas：11 亿蛋白结构的宇宙

ESM Atlas 是 EvolutionaryScale 同时发布的大规模蛋白结构数据库。它的规模是：

指标	数字
蛋白序列总数	68 亿条
预测结构数	11 亿个
相比 AlphaFold DB	多 8 亿条
相比上一版 ESM Atlas	多 3 亿条

这是目前世界上最大的公开预测蛋白结构数据库。

打个比方：如果把每个蛋白结构想象成宇宙中的一个星系，AlphaFold DB 覆盖的只是银河系内几千颗恒星。而 ESM Atlas 覆盖的，是整整一个星系团——而且还在扩张。

ESM Atlas 提供了 UMAP 可视化：把 11 亿个蛋白结构投影到二维平面，相似的结构聚集在一起，形成清晰的蛋白家族聚类。你可以在地图上看到 Kinase 家族、GPCR 家族、抗体家族、酶家族各自占据的区域。

ESM Atlas 11亿蛋白宇宙

数据来源包括大量宏基因组（metagenomics）数据——这些来自土壤、海洋、深海的微生物蛋白，在实验室里从未被表征过，但它们在自然界中无处不在。宏基因组数据的引入，让 ESM Atlas 极大地扩展了对「非典型蛋白折叠」的了解。

二、一个意外发现：真菌里的 CRISPR

ESM Atlas 最有意思的发现，是用它做「结构相似性检索」时无意中找到的：

在 2023 年发现的土壤真菌中，研究者找到了与 CRISPR 系统极其相似的蛋白结构。

这是一个真核生物（eukaryote）中的 CRISPR-like 蛋白。

CRISPR 系统长期以来被认为主要存在于原核生物（细菌、古菌）中，是它们对抗病毒和质粒的免疫机制。真核生物中是否存在类似的系统，一直是悬而未决的问题。

ESM Atlas 通过结构比对发现：土壤真菌里有一种蛋白折叠，与 CRISPR-Cas9 的关键结构域高度相似。这可能意味着：

真核生物拥有自己版本的 CRISPR样系统
或者，这是一个趋同进化（convergent evolution）的案例，类似的防御机制独立演化过多次

这个发现目前还是初步的结构预测，需要湿实验验证。但它展示了 ESM Atlas 作为「发现工具」的价值——不是被动存储数据，而是主动引导新假设。

CRISPR-like 蛋白在真菌中的发现

三、Sparse Autoencoder：破解模型的「概念词典」

这是 ESMFold2 论文中最具哲学意味的部分。

论文用 Sparse Autoencoder 对 ESMC 的 latent space 进行了分解，试图回答一个问题：蛋白质语言模型内部，到底在表示什么？

结果让人意外：模型在训练过程中，自发地形成了可解释的「概念方向」。

3.1 找到了哪些概念？

SAE 解析出来的方向包括：

概念方向	生物学含义
Catalytic motif	催化位点特征
Disulfide bond	二硫键模式
Beta barrel	β-桶折叠
DNA polymerase clamp domain	DNA 聚合酶夹结构域
Membrane helix transition	膜螺旋过渡区
Glycoside hydrolase active sites	糖苷水解酶活性位点

这些不是人为定义的标签，而是模型在训练过程中自发形成的表征方向。SAE 的作用相当于一把钥匙，把这些隐藏在神经网络参数里的「概念」显式地提取出来。

3.2 一个层级组织

更有意思的是，这些概念之间存在层级组织：

局部氨基酸性质 → 二级结构（α螺旋/β折叠）→ 三级 motif → Domain/Fold → 亚细胞定位 → 功能位点

从最底层的氨基酸性质开始，模型逐步构建起对蛋白质结构的高层理解。这与人类生物学家理解蛋白质的方式，有着奇妙的相似性。

SAE 概念分解图

3.3 这意味着什么？

论文的标题是 Language Modeling Materializes a World Model of Protein Biology——「语言建模使蛋白质生物学的世界模型具象化」。

这个说法并不夸张。如果模型能在 latent space 中自组织出「催化位点」「膜螺旋」「DNA聚合酶夹」这样的概念，并且这些概念按层级排列，那么模型确实学到了关于蛋白质世界的某种结构性知识，而不仅仅是记住了序列。

但这里有一个重要的提醒：这些「概念」是模型空间中的统计结构，不等于真实的物理机制。它们是模型对训练数据规律的压缩表示，用来预测结构可能很有效，但「为什么有效」仍然是开放的科学问题。

四、与 AlphaFold3 的关系：补充，不是替代

ESMFold2 发布后，MIT 的 Sergey Ovchinnikov（AlphaFold 系列的核心贡献者）给出了一个评价：ESMFold2 是对 AlphaFold3 的补充，不是替代。

两者的技术路线有本质差异：

维度	ESMFold2	AlphaFold3
技术路线	语言模型表示优先	显式结构建模路线
MSA 依赖	单序列即可很强	依赖 MSA（进化信息）
强项	宏基因组泛化、高通量筛选、抗体设计	高精度小分子/离子/配体结合
训练数据	28 亿条（含宏基因组）	~20 万条 PDB + 大量 MSA

ESMFold2 vs AlphaFold3 路线对比

Sergey Ovchinnikov 的原话大致是：ESMFold2 在宏基因组和非典型蛋白上有明显优势，但 AF3 在有高质量 MSA 的场景下仍然是 gold standard。两者结合使用才是最优策略。

五、ESM Atlas 能做什么？

ESM Atlas 不只是一个数据库，它是一个生态系统的入口。

几个实际的使用场景：

1. 结构相似性检索

上传你的蛋白序列，ESM Atlas 可以告诉你：在11 亿个已知结构中，哪些与你的序列最相似？这对于预测功能、发现 homolog、找结合口袋都非常有用。

2. 蛋白家族调查

想知道某个蛋白家族在自然界中有多大的多样性？ESM Atlas 的聚类可视化可以帮你快速了解家族成员的分布和进化关系。

3. 新发现加速

土壤真菌 CRISPR-like 蛋白的发现证明：当你有一个足够大的结构数据库，再加上高效的相似性检索，新的生物学发现会自动浮现。

4. 训练数据来源

ESM Atlas 的 68 亿条序列和 11 亿个预测结构，是未来蛋白质语言模型训练的重要数据来源。更大的训练集 → 更好的泛化能力 → 更好的结构预测——这个正循环是 ESMFold2 路线最核心的优势。

六、结语

ESMFold2 的发布，不只是一个新模型的问世。

它背后是三条相互交织的线索：

更大的语言模型（ESMC，28 亿条序列训练）
更大的结构数据库（ESM Atlas，11 亿个预测结构）
更深的可解释性工具（SAE，破解模型的「概念词典」）

这三条线索合在一起，指向一个更大的愿景：不是让 AI 来预测蛋白质结构，而是让 AI 来理解蛋白质——以一种可解释、可验证、可以引导新发现的方式。

「Move over, AlphaFold」——这个标题或许有些夸张。但 ESMFold2 确实在告诉我们：蛋白质的世界里，还有一大片从未被系统探索过的暗物质。而 ESM Atlas，正在打开那张地图。

GitHub：github.com/EvolutionaryScale/ESMFold
ESM Atlas：atlas.evolutionaryscale.com