5003.大模型-架构-0.大模型架构范式综述

在生物信息学项目中选型「基础模型(Foundation Model)」时,常见困惑不是「哪个模型最新」,而是「它属于哪类架构范式」——同一任务下,自回归 Transformer掩码编码器状态空间模型(State-Space Model,SSM)图神经网络(Graph Neural Network,GNN)扩散模型(Diffusion Model) 的归纳偏置、上下文长度、训练目标与推理成本差异巨大。本文作为 5003.大模型-架构 系列的总览入口,按四个正交维度梳理当前主流范式,列出代表实现,并映射到 DNA/RNA、蛋白质、分子与单细胞等场景;各子主题的算法细节见本目录专题文章。

段末注释:Foundation Model 指在大规模无标注或弱标注数据上预训练、可迁移至多种下游任务的模型;归纳偏置指架构先验地偏好某类函数或不变性,影响样本效率与外推。


1. 如何读一张「架构范式地图」

大模型架构可从四个相对独立的维度理解(见图 1):

维度 回答的问题 典型选项
序列混合机制 信息如何在序列/图上传播? 自注意力、SSM/卷积、混合、消息传递
训练目标 模型学什么分布/表示? 自回归(AR)、掩码语言建模(MLM)、对比学习、扩散/流
结构归纳偏置 如何利用领域对称性/拓扑? plain Transformer、图结构、SE(3)/E(3) 等变
规模与路由 参数如何组织与激活? 稠密(Dense)、混合专家(Mixture of Experts,MoE)

同一产品名可能跨维度组合:例如 Evo = SSM 混合 + AR;RFdiffusion = Transformer 骨干 + 扩散目标 + 结构等变;DeepSeek-V3 = MoE + AR Transformer。

图 1 大模型架构范式四维分类(序列混合 × 训练目标 × 结构偏置 × 规模路由)


2. 范式一:自注意力 Transformer 族

核心机制:每个 token 通过 Query-Key-Value(QKV) 与全局(或窗口内)token 计算注意力权重,实现内容依赖的软路由;复杂度对序列长度 (L) 通常为 (O(L^2))(全注意力)或 (O(Lw))(窗口 (w))。

2.1 解码器-only + 自回归(Decoder-only AR)

  • 训练目标:(p(x)=\prod_i p(x_i\mid x_{<i})),下一 token 交叉熵。
  • 代表实现
    • 通用 LLM:GPT 系列LLaMA / LLaMA 3QwenDeepSeek(见 DeepSeek 概述
    • 生物序列:ProGen / ProGen2(蛋白质 AR)、Evo / Evo 1.5(基因组 AR + 长上下文混合骨干)
  • 优势:生成自然;KV Cache 使自回归推理高效;生态(HuggingFace、vLLM)成熟。
  • 局限:双向上下文需另训;全注意力长序列预填充贵;因果掩码限制「全局一次看清」。

生物信息学典型用途:蛋白质/引物/密码子优化序列生成、LLM 式基因组补全、Agent 工具链中的推理主干。

2.2 编码器-only + MLM(Encoder-only)

  • 训练目标:随机遮盖 token,预测被遮盖内容(Masked Language Model,MLM)。
  • 代表实现
    • 通用:BERTRoBERTa
    • 蛋白质:ESM-2ESM-C
    • DNA/RNA:DNABERTDNABERT-2Nucleotide Transformer(见 DNABERT 选型指南
  • 优势双向上下文,嵌入质量高;适合分类、回归、变异效应、启动子/剪接预测。
  • 局限:原生非生成器(需迭代 mask 或另接解码头);最大长度受训练窗口限制。

2.3 编码器–解码器(Encoder–Decoder)

  • 训练目标:序列到序列(Seq2Seq),如 span corruption(T5)或 denoising(BART)。
  • 代表实现T5 / Flan-T5BART;生物:ProtT5(蛋白质序列↔注释)、部分 AlphaFold 模块中的 pair/stack 思想。
  • 优势:统一「理解 + 生成」;条件生成(序列翻译、注释生成)友好。
  • 局限:推理常比 decoder-only AR 慢;大规模预训练以 decoder-only 为主流后,相对式微但仍活跃于特定任务。

2.4 工程变体(仍属 Transformer 族)

变体 作用 代表
GQA / MQA 减少 KV 头,省缓存 LLaMA 2/3、StripedHyena 的注意力块
RoPE / ALiBi 相对位置外推 多数现代 LLM
Sliding Window 局部注意力降复杂度 Mistral、部分长文本模型
Ring Attention 分布式长上下文 训练级系统优化

本目录延伸Transformer 概述PipelineModelTokenizer


3. 范式二:亚线性序列混合(SSM / Hyena / 线性注意力)

动机:全注意力在 (L>32\text{k}) 时预填充与显存成为瓶颈;DNA 整染色体、长读长、多物种比对等需要 (O(L))(O(L\log L)) 混合算子。

3.1 状态空间模型(SSM)

  • 机制:隐状态 (h_t = A h_{t-1} + B x_t),输出 (y_t = C h_t);长卷积等价形式,用递推FFT 实现亚二次计算。
  • 代表实现S4MambaMamba-2Jamba 中的 Mamba 块;基因组 Caduceus(双向 SSM)。
  • 优势:长序列训练/解码渐近线性;常数大小状态,缓存友好。
  • 局限联想回忆(associative recall) 弱于注意力;纯 SSM 栈在部分合成任务上落后 hybrid。

3.2 Hyena 与门控长卷积

  • 机制:多阶门控隐式卷积,用 FFT 实现大范围依赖;可视为 attention 的 subquadratic 替代。
  • 代表实现HyenaHyenaDNA(131k 单碱基上下文)、StripedHyena(注意力 + Hyena 交替,见 StripedHyena 介绍)、Hyena 原理笔记
  • 优势:长 DNA 建模;与少量注意力层混合后接近 Transformer 质量。
  • 局限:实现依赖 CUDA 内核;超参(Hyena 阶数、层配比)调优门槛高。

3.3 其他亚二次方案

方案 代表 备注
线性注意力 / RetNet RetNet、Based 核技巧或 retention 机制
RWKV RWKV-6 RNN 形式 + 时间混合,推理极快
混合栈 Hybrid JambaZambaGriffinEvo 交替 Attention + SSM/Conv

图 2 四种序列混合机制对比:自注意力、SSM、混合架构、消息传递

选型直觉(基因组):(L<512) bp 调控元件 → **DNABERT/NT**;(L>10) kb 系上下文 → HyenaDNA / Caduceus / Evo


4. 范式三:混合专家(MoE)

机制:前馈层由 (N) 个「专家(Expert)」子网络组成,门控网络(Router) 对每个 token 激活 Top-(k) 个专家;总参数量大但每 token 激活参数量(active params) 可控。

  • 代表实现Switch TransformerMixtral 8×7BDeepSeek-V2/V3DBRX;生物领域 MoE 专用基础模型仍少,但通用 LLM + 领域微调/RAG 常见。
  • 优势:固定推理 FLOPs 下扩大模型容量;适合多任务路由。
  • 局限:负载均衡、专家坍缩(见 概念解析-01);训练与部署复杂(EP 并行);生物小样本微调时 MoE 未必优于同 active 参数的 Dense。

段末注释:MoE 通过稀疏激活扩大参数量而不线性增加每 token 计算;EP 为 Expert Parallelism 专家并行。


5. 范式四:图与几何结构模型

当输入是分子图蛋白接触图知识图谱三维坐标时,序列 Transformer 需强行展平,丢失对称性与拓扑。

5.1 消息传递神经网络(MPNN / GNN)

  • 机制:节点–边局部消息传递 + 置换不变聚合(见 MPNN 概述)。
  • 代表实现GCNGraphSAGEGATSchNetDimeNet;分子性质预测、口袋检测。
  • 优势:天然处理 irregular 图;参数效率较高。
  • 局限:(k) 层感受野仅 (k) 跳;长程依赖需深堆叠或 rewiring。

5.2 SE(3) / E(3) 等变网络

  • 机制:网络输出随输入坐标旋转/平移(及反射)协变或不变。
  • 代表实现AlphaFold2(Evoformer + 结构模块)、ESMFoldOpenFold;分子 EGNNTensor Field Networks;生成侧 RFdiffusionFrameDiff
  • 优势:三维结构任务的样本效率与物理合理性。
  • 局限:实现与数据预处理复杂;全原子生成仍贵。

与 Transformer 关系EvoformerPairformer 可视为在「残基对图」上的特化注意力AlphaFold3 进一步统一 biomolecule 图建模。


6. 范式五:扩散与流匹配生成

机制:学习逐步去噪向量场,从噪声采样数据(见 Diffusion 系列 0–5)。

子类 训练信号 代表 生物场景
连续扩散 DDPM/SDE 去噪 MSE / 得分匹配 Stable DiffusionEDM 分子 3D、蛋白骨架
离散扩散 D3PM 分类去噪 Diffusion-LM DNA motif-flanking
流匹配 Flow Matching 向量场回归 Rectified FlowCFM 结构/分子(新兴)
潜扩散 LDM 潜空间扩散 + VAE Stable DiffusionscDiff 图像、单细胞扰动
  • 代表实现(生物)RFdiffusionChroma(蛋白 design);GeoDiff(分子 3D);scDiff(单细胞 counterfactual)。
  • 优势:训练稳定;inpainting 与条件生成强;多模态覆盖好。
  • 局限:推理多步;需 DDIM/CFG 等工程技巧(第 3 篇)。

7. 范式六:对比学习与多模态统一

7.1 对比学习(Contrastive Learning)

  • 机制:拉近正样本对、推远负样本;学习嵌入空间而非逐 token 生成。
  • 代表实现CLIP(图文)、DNABERT-S(DNA 物种感知嵌入,见 C2LR)、ProteinCLIP
  • 生物用途:检索、聚类、零样本分类、数据库搜索。

7.2 多模态基础模型

  • 代表实现ESM3(序列+结构+功能 token 统一)、AlphaFold3(多 polymer + 配体);通用侧 LLaVAGPT-4V
  • 趋势:把序列、结构、文本、功能注释** token 化**进同一 Transformer 栈——范式上仍多为 AR 或 MLM + 多模态嵌入

8. 范式对照总表

范式 混合/归纳偏置 主训练目标 代表(通用) 代表(生物信息) 推理特点
Decoder AR Transformer 全/窗注意力 下一 token CE GPT-4、LLaMA 3 ProGen2、Evo 自回归,KV Cache
Encoder MLM 双向注意力 MLM BERT ESM-2、DNABERT-2 编码一次,非原生生成
Encoder–Decoder 交叉注意力 Span/Seq2Seq T5、BART ProtT5 条件生成
SSM / Mamba 线性递推/卷积 AR 或 MLM Mamba-2 Caduceus 线性长序列
Hyena / Hybrid 门控卷积 + 注意力 AR StripedHyena HyenaDNA、Evo 长 DNA 友好
MoE Transformer 稀疏 FFN 路由 AR DeepSeek-V3、Mixtral (通用 LLM 微调) Active params ≪ total
GNN / MPNN 图拓扑 监督/自监督 SchNet、GCN 分子 图级/节点级
SE(3) 等变 3D 对称 结构监督 AlphaFold2、ESMFold 一次前向折叠
扩散 / 流 多步马尔可夫/ODE 去噪/流匹配 Stable Diffusion RFdiffusion、GeoDiff 多步迭代
对比学习 嵌入空间 InfoNCE 等 CLIP DNABERT-S 编码 + 相似度

9. 时间线与范式演进

图 3 基础模型架构范式演进时间线(2017–2026)

粗略阶段:

  1. 2017–2019Transformer 确立;BERT/GPT 分叉「理解 vs 生成」。
  2. 2020–2021DDPM 复兴生成;AlphaFold2 证明深度学习 + 等变注意力可解结构生物学核心问题;ESM 开启蛋白质语言模型。
  3. 2022–2023Chinchilla 缩放律;Hyena/Mamba 挑战注意力垄断;LLaMA 降低开源门槛;Nucleotide Transformer / DNABERT-2 基因组基础模型爆发。
  4. 2024–2026MoE 大规模商用(DeepSeek);Hybrid 成为长序列默认配方;Evo 跨尺度基因组生成;RFdiffusion/Chroma 结构 design 工业化;Flow Matching 与扩散并驾齐驱。

10. 生物信息学选型决策

图 4 生物信息学场景下的架构范式选型决策树

10.1 按数据形态

你的数据 首选范式 代表模型 本目录阅读
短 DNA/RNA 片段、变异 Encoder MLM DNABERT-2、NT DNABERT 系列
长基因组、操纵子 Hybrid SSM/AR HyenaDNA、Evo、Caduceus Hyena / StripedHyena
蛋白质序列嵌入 Encoder MLM ESM-2
蛋白质序列生成 Decoder AR ProGen2、Evo(DNA 区段)
结构预测(折叠) 等变 Transformer AlphaFold2、ESMFold
结构 de novo design 扩散 + 逆折叠 RFdiffusion → ProteinMPNN Diffusion 5
小分子 3D E(3) 扩散 / GNN GeoDiff、EDM Diffusion + MPNN
分子性质(图) GNN SchNet、GAT MPNN
单细胞扰动 潜扩散 / VAE scDiff、scVI Diffusion 0
物种聚类/检索 对比学习 DNABERT-S DNABERT-1

10.2 按任务类型

  • 判别(分类/回归/嵌入) → Encoder MLM / GNN / 对比学习
  • 生成(序列/结构) → AR 或 扩散(连续几何优先扩散)
  • 条件 design(motif/binder) → 条件扩散 + CFG + inpainting
  • 长上下文理解 → Hybrid SSM,而非纯 BERT
  • 聊天/Agent/文献 → 通用 Decoder AR LLM + RAG(架构外检索层)

10.3 常见误区

  1. 「参数越大越好」 — Chinchilla 律:数据量、active params、训练 token 数需匹配;生物微调常小数据,过大模型易过拟合。
  2. 「用 GPT 直接做 DNA」 — 未在基因组预训练的 LLM 缺乏碱基分布先验;应选 GFM 或继续预训练。
  3. 「扩散一定优于 AR 做序列」 — 长序列 AR 生态更成熟;扩散优势在 3D、inpainting、多模态
  4. 「忽视等变性与中心化」 — 结构坐标模型必须处理 SE(3) 与物理单位。

11. 本目录系列导读

系列 入口 覆盖范式
Transformer transformer-0.概述 自注意力、Encoder/Decoder
Hyena / StripedHyena StripedHyena-0 门控卷积、混合栈
DNABERT / 基因组 FM DNABERT-0 MLM、对比学习
MPNN / GNN MPNN-0ProteinMPNN-0 图消息传递;逆折叠序列设计
Diffusion Diffusion-0 连续/离散扩散、结构 design
DeepSeek DeepSeek-0 MoE、工程优化
LLM 概念解析 概念解析-0.系列导读 专家坍缩、过平滑等术语短文

建议路径:本文 → 按场景跳转对应系列 → 遇术语查 概念解析 → 需要部署时读 Transformer pipeline 篇。


12. 前沿趋势(2025–2026 观察)

  • Hybrid 默认化:纯 Attention 或纯 SSM 栈减少;「少量注意力 + 大量 SSM/Conv」 成为长序列共识。
  • Test-time compute:推理侧增加搜索/反思/多样本聚合(o1 类),架构与 AR 耦合而非替换。
  • 统一 biomolecule 图:AlphaFold3、RoseTTAFold3 式「一张图建模多 polymer」挤压单任务专用架构空间。
  • Flow + Diffusion 融合:训练稳定与步数减少并重。
  • 生物专用 scaling law:基因组 token 与蛋白质结构 token 的最优参数量–数据量关系仍在校准,不可直接照搬 NLP Chinchilla 数字

13. 小结

当前大模型架构并非「Transformer 一统天下」,而是多维范式并存注意力擅长灵活关联;SSM/Hyena 攻克长 DNA;GNN/等变网络 编码拓扑与三维对称;扩散/流 支撑可控生成;MoE 在固定算力下扩容。生物信息学选型应先定数据形态与任务(判别 vs 生成 vs design),再选范式,最后挑具体 checkpoint——本文图 4 的决策树可作为团队讨论的第一张白板。

段末注释:GFM(Genome Foundation Model)指基因组预训练基础模型;RAG(Retrieval-Augmented Generation)为检索增强生成,非序列混合范式但在 Agent 系统中普遍与 AR LLM 组合。


参考与延伸阅读

  • Vaswani et al., Attention Is All You NeedTransformer).
  • Devlin et al., BERT;Brown et al., GPT-3MLM vs AR).
  • Gu & Dao, Mamba;Poli et al., Hyena HierarchySSM / Hyena).
  • Fedus et al., Switch TransformersMoE).
  • Gilmer et al., Neural Message PassingMPNN).
  • Jumper et al., AlphaFold2;Watson et al., RFdiffusion.
  • Ho et al., DDPM;Liu et al., Flow Straight and Fast.
  • Hoffmann et al., Training Compute-Optimal Large Language ModelsChinchilla).
-------------本文结束感谢您的阅读-------------