5003.大模型-架构-0.大模型架构范式综述

在生物信息学项目中选型「基础模型（Foundation Model）」时，常见困惑不是「哪个模型最新」，而是「它属于哪类架构范式」——同一任务下，自回归 Transformer、掩码编码器、状态空间模型（State-Space Model，SSM）、图神经网络（Graph Neural Network，GNN） 与 扩散模型（Diffusion Model） 的归纳偏置、上下文长度、训练目标与推理成本差异巨大。本文作为 5003.大模型-架构 系列的总览入口，按四个正交维度梳理当前主流范式，列出代表实现，并映射到 DNA/RNA、蛋白质、分子与单细胞等场景；各子主题的算法细节见本目录专题文章。

段末注释：Foundation Model 指在大规模无标注或弱标注数据上预训练、可迁移至多种下游任务的模型；归纳偏置指架构先验地偏好某类函数或不变性，影响样本效率与外推。

1. 如何读一张「架构范式地图」

大模型架构可从四个相对独立的维度理解（见图 1）：

维度	回答的问题	典型选项
序列混合机制	信息如何在序列/图上传播？	自注意力、SSM/卷积、混合、消息传递
训练目标	模型学什么分布/表示？	自回归（AR）、掩码语言建模（MLM）、对比学习、扩散/流
结构归纳偏置	如何利用领域对称性/拓扑？	plain Transformer、图结构、SE(3)/E(3) 等变
规模与路由	参数如何组织与激活？	稠密（Dense）、混合专家（Mixture of Experts，MoE）

同一产品名可能跨维度组合：例如 Evo = SSM 混合 + AR；RFdiffusion = Transformer 骨干 + 扩散目标 + 结构等变；DeepSeek-V3 = MoE + AR Transformer。

图 1　大模型架构范式四维分类（序列混合 × 训练目标 × 结构偏置 × 规模路由）

2. 范式一：自注意力 Transformer 族

核心机制：每个 token 通过 Query-Key-Value（QKV） 与全局（或窗口内）token 计算注意力权重，实现内容依赖的软路由；复杂度对序列长度 (L) 通常为 (O(L^2))（全注意力）或 (O(Lw))（窗口 (w)）。

2.1 解码器-only + 自回归（Decoder-only AR）

训练目标：(p(x)=\prod_i p(x_i\mid x_{<i}))，下一 token 交叉熵。
代表实现：
- 通用 LLM：GPT 系列、LLaMA / LLaMA 3、Qwen、DeepSeek（见 DeepSeek 概述）
- 生物序列：ProGen / ProGen2（蛋白质 AR）、Evo / Evo 1.5（基因组 AR + 长上下文混合骨干）
优势：生成自然；KV Cache 使自回归推理高效；生态（HuggingFace、vLLM）成熟。
局限：双向上下文需另训；全注意力长序列预填充贵；因果掩码限制「全局一次看清」。

生物信息学典型用途：蛋白质/引物/密码子优化序列生成、LLM 式基因组补全、Agent 工具链中的推理主干。

2.2 编码器-only + MLM（Encoder-only）

训练目标：随机遮盖 token，预测被遮盖内容（Masked Language Model，MLM）。
代表实现：
- 通用：BERT、RoBERTa
- 蛋白质：ESM-2、ESM-C
- DNA/RNA：DNABERT、DNABERT-2、Nucleotide Transformer（见 DNABERT 选型指南）
优势：双向上下文，嵌入质量高；适合分类、回归、变异效应、启动子/剪接预测。
局限：原生非生成器（需迭代 mask 或另接解码头）；最大长度受训练窗口限制。

2.3 编码器–解码器（Encoder–Decoder）

训练目标：序列到序列（Seq2Seq），如 span corruption（T5）或 denoising（BART）。
代表实现：T5 / Flan-T5、BART；生物：ProtT5（蛋白质序列↔注释）、部分 AlphaFold 模块中的 pair/stack 思想。
优势：统一「理解 + 生成」；条件生成（序列翻译、注释生成）友好。
局限：推理常比 decoder-only AR 慢；大规模预训练以 decoder-only 为主流后，相对式微但仍活跃于特定任务。

2.4 工程变体（仍属 Transformer 族）

变体	作用	代表
GQA / MQA	减少 KV 头，省缓存	LLaMA 2/3、StripedHyena 的注意力块
RoPE / ALiBi	相对位置外推	多数现代 LLM
Sliding Window	局部注意力降复杂度	Mistral、部分长文本模型
Ring Attention	分布式长上下文	训练级系统优化

本目录延伸：Transformer 概述 → Pipeline → Model → Tokenizer

3. 范式二：亚线性序列混合（SSM / Hyena / 线性注意力）

动机：全注意力在 (L>32\text{k}) 时预填充与显存成为瓶颈；DNA 整染色体、长读长、多物种比对等需要 (O(L)) 或 (O(L\log L)) 混合算子。

3.1 状态空间模型（SSM）

机制：隐状态 (h_t = A h_{t-1} + B x_t)，输出 (y_t = C h_t)；长卷积等价形式，用递推或 FFT 实现亚二次计算。
代表实现：S4、Mamba、Mamba-2、Jamba 中的 Mamba 块；基因组 Caduceus（双向 SSM）。
优势：长序列训练/解码渐近线性；常数大小状态，缓存友好。
局限：联想回忆（associative recall） 弱于注意力；纯 SSM 栈在部分合成任务上落后 hybrid。

3.2 Hyena 与门控长卷积

机制：多阶门控隐式卷积，用 FFT 实现大范围依赖；可视为 attention 的 subquadratic 替代。
代表实现：Hyena、HyenaDNA（131k 单碱基上下文）、StripedHyena（注意力 + Hyena 交替，见 StripedHyena 介绍）、Hyena 原理笔记。
优势：长 DNA 建模；与少量注意力层混合后接近 Transformer 质量。
局限：实现依赖 CUDA 内核；超参（Hyena 阶数、层配比）调优门槛高。

3.3 其他亚二次方案

方案	代表	备注
线性注意力 / RetNet	RetNet、Based	核技巧或 retention 机制
RWKV	RWKV-6	RNN 形式 + 时间混合，推理极快
混合栈 Hybrid	Jamba、Zamba、Griffin、Evo	交替 Attention + SSM/Conv

图 2　四种序列混合机制对比：自注意力、SSM、混合架构、消息传递

选型直觉（基因组）：(L<512) bp 调控元件 → **DNABERT/NT**；(L>10) kb 系上下文 → HyenaDNA / Caduceus / Evo。

4. 范式三：混合专家（MoE）

机制：前馈层由 (N) 个「专家（Expert）」子网络组成，门控网络（Router） 对每个 token 激活 Top-(k) 个专家；总参数量大但每 token 激活参数量（active params） 可控。

代表实现：Switch Transformer、Mixtral 8×7B、DeepSeek-V2/V3、DBRX；生物领域 MoE 专用基础模型仍少，但通用 LLM + 领域微调/RAG 常见。
优势：固定推理 FLOPs 下扩大模型容量；适合多任务路由。
局限：负载均衡、专家坍缩（见概念解析-01）；训练与部署复杂（EP 并行）；生物小样本微调时 MoE 未必优于同 active 参数的 Dense。

段末注释：MoE 通过稀疏激活扩大参数量而不线性增加每 token 计算；EP 为 Expert Parallelism 专家并行。

5. 范式四：图与几何结构模型

当输入是分子图、蛋白接触图、知识图谱或三维坐标时，序列 Transformer 需强行展平，丢失对称性与拓扑。

5.1 消息传递神经网络（MPNN / GNN）

机制：节点–边局部消息传递 + 置换不变聚合（见 MPNN 概述）。
代表实现：GCN、GraphSAGE、GAT、SchNet、DimeNet；分子性质预测、口袋检测。
优势：天然处理 irregular 图；参数效率较高。
局限：(k) 层感受野仅 (k) 跳；长程依赖需深堆叠或 rewiring。

5.2 SE(3) / E(3) 等变网络

机制：网络输出随输入坐标旋转/平移（及反射）协变或不变。
代表实现：AlphaFold2（Evoformer + 结构模块）、ESMFold、OpenFold；分子 EGNN、Tensor Field Networks；生成侧 RFdiffusion、FrameDiff。
优势：三维结构任务的样本效率与物理合理性。
局限：实现与数据预处理复杂；全原子生成仍贵。

与 Transformer 关系：Evoformer、Pairformer 可视为在「残基对图」上的特化注意力；AlphaFold3 进一步统一 biomolecule 图建模。

6. 范式五：扩散与流匹配生成

机制：学习逐步去噪或向量场，从噪声采样数据（见 Diffusion 系列 0–5）。

子类	训练信号	代表	生物场景
连续扩散 DDPM/SDE	去噪 MSE / 得分匹配	Stable Diffusion、EDM	分子 3D、蛋白骨架
离散扩散 D3PM	分类去噪	Diffusion-LM	DNA motif-flanking
流匹配 Flow Matching	向量场回归	Rectified Flow、CFM	结构/分子（新兴）
潜扩散 LDM	潜空间扩散 + VAE	Stable Diffusion、scDiff	图像、单细胞扰动

代表实现（生物）：RFdiffusion、Chroma（蛋白 design）；GeoDiff（分子 3D）；scDiff（单细胞 counterfactual）。
优势：训练稳定；inpainting 与条件生成强；多模态覆盖好。
局限：推理多步；需 DDIM/CFG 等工程技巧（第 3 篇）。

7. 范式六：对比学习与多模态统一

7.1 对比学习（Contrastive Learning）

机制：拉近正样本对、推远负样本；学习嵌入空间而非逐 token 生成。
代表实现：CLIP（图文）、DNABERT-S（DNA 物种感知嵌入，见 C2LR）、ProteinCLIP。
生物用途：检索、聚类、零样本分类、数据库搜索。

7.2 多模态基础模型

代表实现：ESM3（序列+结构+功能 token 统一）、AlphaFold3（多 polymer + 配体）；通用侧 LLaVA、GPT-4V。
趋势：把序列、结构、文本、功能注释** token 化**进同一 Transformer 栈——范式上仍多为 AR 或 MLM + 多模态嵌入。

8. 范式对照总表

范式	混合/归纳偏置	主训练目标	代表（通用）	代表（生物信息）	推理特点
Decoder AR Transformer	全/窗注意力	下一 token CE	GPT-4、LLaMA 3	ProGen2、Evo	自回归，KV Cache
Encoder MLM	双向注意力	MLM	BERT	ESM-2、DNABERT-2	编码一次，非原生生成
Encoder–Decoder	交叉注意力	Span/Seq2Seq	T5、BART	ProtT5	条件生成
SSM / Mamba	线性递推/卷积	AR 或 MLM	Mamba-2	Caduceus	线性长序列
Hyena / Hybrid	门控卷积 + 注意力	AR	StripedHyena	HyenaDNA、Evo	长 DNA 友好
MoE Transformer	稀疏 FFN 路由	AR	DeepSeek-V3、Mixtral	（通用 LLM 微调）	Active params ≪ total
GNN / MPNN	图拓扑	监督/自监督	—	SchNet、GCN 分子	图级/节点级
SE(3) 等变	3D 对称	结构监督	—	AlphaFold2、ESMFold	一次前向折叠
扩散 / 流	多步马尔可夫/ODE	去噪/流匹配	Stable Diffusion	RFdiffusion、GeoDiff	多步迭代
对比学习	嵌入空间	InfoNCE 等	CLIP	DNABERT-S	编码 + 相似度

9. 时间线与范式演进

图 3　基础模型架构范式演进时间线（2017–2026）

粗略阶段：

2017–2019：Transformer 确立；BERT/GPT 分叉「理解 vs 生成」。
2020–2021：DDPM 复兴生成；AlphaFold2 证明深度学习 + 等变注意力可解结构生物学核心问题；ESM 开启蛋白质语言模型。
2022–2023：Chinchilla 缩放律；Hyena/Mamba 挑战注意力垄断；LLaMA 降低开源门槛；Nucleotide Transformer / DNABERT-2 基因组基础模型爆发。
2024–2026：MoE 大规模商用（DeepSeek）；Hybrid 成为长序列默认配方；Evo 跨尺度基因组生成；RFdiffusion/Chroma 结构 design 工业化；Flow Matching 与扩散并驾齐驱。

10. 生物信息学选型决策

图 4　生物信息学场景下的架构范式选型决策树

10.1 按数据形态

你的数据	首选范式	代表模型	本目录阅读
短 DNA/RNA 片段、变异	Encoder MLM	DNABERT-2、NT	DNABERT 系列
长基因组、操纵子	Hybrid SSM/AR	HyenaDNA、Evo、Caduceus	Hyena / StripedHyena
蛋白质序列嵌入	Encoder MLM	ESM-2	—
蛋白质序列生成	Decoder AR	ProGen2、Evo（DNA 区段）	—
结构预测（折叠）	等变 Transformer	AlphaFold2、ESMFold	—
结构 de novo design	扩散 + 逆折叠	RFdiffusion → ProteinMPNN	Diffusion 5
小分子 3D	E(3) 扩散 / GNN	GeoDiff、EDM	Diffusion + MPNN
分子性质（图）	GNN	SchNet、GAT	MPNN
单细胞扰动	潜扩散 / VAE	scDiff、scVI	Diffusion 0
物种聚类/检索	对比学习	DNABERT-S	DNABERT-1

10.2 按任务类型

判别（分类/回归/嵌入） → Encoder MLM / GNN / 对比学习
生成（序列/结构） → AR 或扩散（连续几何优先扩散）
条件 design（motif/binder） → 条件扩散 + CFG + inpainting
长上下文理解 → Hybrid SSM，而非纯 BERT
聊天/Agent/文献 → 通用 Decoder AR LLM + RAG（架构外检索层）

10.3 常见误区

「参数越大越好」 — Chinchilla 律：数据量、active params、训练 token 数需匹配；生物微调常小数据，过大模型易过拟合。
「用 GPT 直接做 DNA」 — 未在基因组预训练的 LLM 缺乏碱基分布先验；应选 GFM 或继续预训练。
「扩散一定优于 AR 做序列」 — 长序列 AR 生态更成熟；扩散优势在 3D、inpainting、多模态。
「忽视等变性与中心化」 — 结构坐标模型必须处理 SE(3) 与物理单位。

11. 本目录系列导读

系列	入口	覆盖范式
Transformer	transformer-0.概述	自注意力、Encoder/Decoder
Hyena / StripedHyena	StripedHyena-0	门控卷积、混合栈
DNABERT / 基因组 FM	DNABERT-0	MLM、对比学习
MPNN / GNN	MPNN-0、ProteinMPNN-0	图消息传递；逆折叠序列设计
Diffusion	Diffusion-0	连续/离散扩散、结构 design
DeepSeek	DeepSeek-0	MoE、工程优化
LLM 概念解析	概念解析-0.系列导读	专家坍缩、过平滑等术语短文

建议路径：本文 → 按场景跳转对应系列 → 遇术语查 概念解析 → 需要部署时读 Transformer pipeline 篇。

12. 前沿趋势（2025–2026 观察）

Hybrid 默认化：纯 Attention 或纯 SSM 栈减少；「少量注意力 + 大量 SSM/Conv」 成为长序列共识。
Test-time compute：推理侧增加搜索/反思/多样本聚合（o1 类），架构与 AR 耦合而非替换。
统一 biomolecule 图：AlphaFold3、RoseTTAFold3 式「一张图建模多 polymer」挤压单任务专用架构空间。
Flow + Diffusion 融合：训练稳定与步数减少并重。
生物专用 scaling law：基因组 token 与蛋白质结构 token 的最优参数量–数据量关系仍在校准，不可直接照搬 NLP Chinchilla 数字。

13. 小结

当前大模型架构并非「Transformer 一统天下」，而是多维范式并存：注意力擅长灵活关联；SSM/Hyena 攻克长 DNA；GNN/等变网络 编码拓扑与三维对称；扩散/流 支撑可控生成；MoE 在固定算力下扩容。生物信息学选型应先定数据形态与任务（判别 vs 生成 vs design），再选范式，最后挑具体 checkpoint——本文图 4 的决策树可作为团队讨论的第一张白板。

段末注释：GFM（Genome Foundation Model）指基因组预训练基础模型；RAG（Retrieval-Augmented Generation）为检索增强生成，非序列混合范式但在 Agent 系统中普遍与 AR LLM 组合。

参考与延伸阅读

Vaswani et al., Attention Is All You Need（Transformer）.
Devlin et al., BERT；Brown et al., GPT-3（MLM vs AR）.
Gu & Dao, Mamba；Poli et al., Hyena Hierarchy（SSM / Hyena）.
Fedus et al., Switch Transformers（MoE）.
Gilmer et al., Neural Message Passing（MPNN）.
Jumper et al., AlphaFold2；Watson et al., RFdiffusion.
Ho et al., DDPM；Liu et al., Flow Straight and Fast.
Hoffmann et al., Training Compute-Optimal Large Language Models（Chinchilla）.