5003.大模型-架构-Diffusion-0.概述与生物信息学应用全景

扩散模型（Diffusion Model）是一类通过「逐步加噪—逐步去噪」学习数据分布的深度生成模型（Deep Generative Model）。与你在基因组学项目中常见的掩码语言模型（Masked Language Model，MLM）或自回归（Autoregressive，AR）序列生成不同，扩散模型把生成过程建模为一条随机轨迹：从简单噪声分布出发，经 (T) 步迭代还原出符合训练数据分布的样本。2020 年 去噪扩散概率模型（Denoising Diffusion Probabilistic Model，DDPM） 在图像生成上取得突破后，扩散范式迅速迁移至蛋白质结构/design、小分子/肽段生成、单细胞扰动预测等生物信息学任务，成为与 Transformer、图神经网络(Graph Neural Network，GNN) 并列的重要生成工具。

段末注释：MLM 为随机遮盖 token 并预测被遮盖内容；AR 为按固定顺序逐 token 条件生成；DDPM 为 Ho 等人提出的经典离散时间扩散框架；GNN 在图结构数据上做消息传递式学习。

数学基础补充：若对高斯分布、噪声日程 (\bar\alpha_t)、KL 散度等符号不熟悉，请先阅读 Diffusion-Math-0 概率与扩散数学基础。

1. 核心直觉：热力学扩散的「逆过程」

想象一滴墨水滴入清水：分子随机扩散，最终均匀分布——这是前向扩散（forward diffusion），把结构化样本 (x_0) 逐渐变成近似各向同性高斯噪声 (x_T)。

生成模型要做的是逆过程（reverse process）：从噪声出发，一步步「凝聚」出真实样本。直接求逆转移概率 (p(x_{t-1}\mid x_t)) 通常不可解析，但可以用神经网络 (\epsilon_\theta(x_t, t)) 去预测每一步加入的噪声或数据得分（score），从而近似采样。

图 1　前向扩散与逆向去噪生成（固定加噪链 ↔ 学习去噪链）

与 变分自编码器（Variational Autoencoder，VAE） 的「一次编码—一次解码」不同，扩散生成是多步马尔可夫链；与 生成对抗网络（Generative Adversarial Network，GAN） 的对抗博弈不同，扩散训练以去噪回归为主，优化目标更稳定，但推理步数多、算力开销大——这是工程上需要 DDIM、蒸馏等加速手段的原因（见系列第 3 篇）。

概念锚点 · 马尔可夫链：前向与逆向过程均满足「无记忆性」——(x_t) 只依赖 (x_{t-1})，不直接依赖 (x_{t-2},\ldots,x_0)。整条轨迹 (x_{0:T}) 因此可分解为逐步转移的乘积（详见 Math-0 §7）。

$概念图　马尔可夫链：$x_t$ 仅依赖上一时刻 $x_{t-1}$$

段末注释：VAE 用编码器—解码器与变分下界学习潜变量；GAN 通过生成器与判别器极小极大博弈；DDIM 为确定性跳步采样方法。

2. 与其他生成范式的对照

范式	训练信号	采样方式	优势	局限
自回归 AR	下一 token 交叉熵	顺序解码	序列似然清晰；文本/DNA 成熟	长程依赖、并行度低；结构约束需额外设计
VAE / 流模型 Flow	ELBO / 可逆流	一次或少量变换	推理快；潜空间可解释	表达力或训练稳定性受限
GAN	对抗损失	一次前向	采样快、图像锐利	模式崩溃；生物序列评估难
扩散 Diffusion	去噪 MSE / 得分匹配	多步迭代	训练稳定；覆盖多模态	推理慢；需条件化设计

对生物信息学读者的实用建议：

一维序列（DNA/RNA/蛋白质序列）：AR + Transformer 仍是基线（如 Evo、ProGen）；离散扩散在全局编辑、inpainting 上有优势（系列第 4 篇）。
三维结构（蛋白质骨架、配体构象）：连续扩散天然匹配坐标/角度空间（RFdiffusion、Chroma）。
图结构分子（SMILES 图、原子图）：等变扩散（E(3)-equivariant diffusion） 与 GNN 骨干结合（EDM、GeoDiff）。
表格/表达矩阵（单细胞）：条件扩散用于扰动响应预测（scDiff、CellDiff）。

3. 数学骨架（预览）

设数据 (x_0 \sim q(x_0))——(x_0) 是取值于 (\mathbb{R}^d) 的随机变量，每个训练样本是一次观测（Math-0 §2）。前向过程定义条件高斯分布（Math-0 §3–§4）：

[
q(x_t \mid x_{t-1}) = \mathcal{N}\big(x_t;,\sqrt{1-\beta_t},x_{t-1},,\beta_t \mathbf{I}\big),
]

其中 ({\beta_t}{t=1}^T) 为噪声日程（noise schedule）——控制每步注入噪声的强度；(\bar\alpha_t = \prod{s=1}^{t}(1-\beta_s)) 为累积信号保留系数（Math-0 §9）。累积后可一步采样：

[
q(x_t \mid x_0) = \mathcal{N}\big(x_t;,\sqrt{\bar\alpha_t},x_0,,(1-\bar\alpha_t)\mathbf{I}\big),
\quad \bar\alpha_t = \prod_{s=1}^{t}(1-\beta_s).
]

训练目标（DDPM 简化形式）为预测加入的噪声 (\epsilon)：

[
\mathcal{L}{\mathrm{simple}} = \mathbb{E}{t,,x_0,,\epsilon}\Big[\big|\epsilon - \epsilon_\theta(x_t, t)\big|^2\Big],
\quad x_t = \sqrt{\bar\alpha_t},x_0 + \sqrt{1-\bar\alpha_t},\epsilon.
]

概念锚点 · 高斯加噪与信噪比：重参数化写法 (x_t = \sqrt{\bar\alpha_t},x_0 + \sqrt{1-\bar\alpha_t},\epsilon) 将 (x_t) 分解为信号与噪声；(\mathrm{SNR}(t)=\bar\alpha_t/(1-\bar\alpha_t)) 随 (t) 增大而下降（Math-0 §8–§10）。损失中的 (\mathbb{E}[\cdot]) 表示对随机 (t,x_0,\epsilon) 求期望，训练时用 minibatch 估计（Math-0 §5）。

$概念图　高斯分布与概率密度$

$概念图　噪声日程 $\bar\alpha_t$（线性 vs 余弦）$

$概念图　$x_t$ 的信号–噪声分解与 SNR 衰减$

采样时从 (x_T \sim \mathcal{N}(0, \mathbf{I})) 出发，用学到的 (\epsilon_\theta) 逐步更新 (x_{t-1})。完整变分推导、**得分匹配（score matching）与随机微分方程（Stochastic Differential Equation，SDE）**统一视角见系列第 1–2 篇。

段末注释：噪声日程控制每步信噪比衰减速度；得分指 (\nabla_x \log p(x))，即对数密度的梯度。

4. 生物信息学应用地图

4.1 蛋白质结构与 design

代表工作	任务	扩散对象	要点
RFdiffusion	骨架生成、motif scaffolding	骨架坐标 + 残基类型	在 RoseTTAFold 结构上训练；Classifier-free guidance 控制二级结构
Chroma	全原子蛋白质生成	结构 + 序列联合	可编程条件（对称性、结合位点）
FrameDiff	骨架 frames	SE(3) 等变扩散	在局部坐标系上做扩散，保证刚体等变

为什么用扩散而非 AR？ 蛋白质三维坐标是连续、多模态、对称的；AR 需固定序列顺序，难以自然表达旋转平移等变；扩散可在 SE(3) / E(3) 等变网络上逐步去噪，同时支持 inpainting（固定 motif、生成 scaffold）。

4.2 小分子与肽段

GeoDiff / EDM：在原子坐标与键图上做 E(3)-equivariant 扩散，生成 3D 分子构象。
Diffusion + SMILES：部分工作将离散 token 序列与连续 3D 扩散结合；3D 几何仍是主流扩散优势区。

4.3 基因组与 RNA 序列

离散扩散（D3PM）：对 ({A,C,G,T}) 或 ({20) 氨基酸(}) 做吸收态 / 均匀转移扩散，适合全局重采样而非逐碱基 AR。
与 DNABERT 类 MLM 的关系：MLM 是单步随机遮盖；离散扩散是多步逐步「腐蚀—修复」，生成时可控制步数与温度。

4.4 单细胞与多组学

scDiff 等：对基因表达向量或潜表示做扩散，以药物、扰动类型为条件，预测 counterfactual 表达谱——服务于虚拟筛选与机制推断。

图 2　生物信息学中的扩散对象与系列文章对应关系

5. 系列阅读路线

篇目	主题	你将掌握
0（本文）	概述与应用	范式定位、生物场景选型
Math-0	概率与数学基础	集合、分布、噪声日程、SNR、KL、得分、ELBO 直觉
1	前向/逆向与 ELBO	DDPM 完整推导、训练与采样公式
Example-0	前向训练数值例题	2 维手算一步训练，澄清监督从哪来
Example-1	蛋白序列离散扩散例题	四肽 MASK 吸收手算 + motif inpainting
2	得分匹配与 SDE	NCSN、SDE/ODE 统一框架、连续时间视角
3	采样加速与引导	DDIM、Classifier-free guidance、步数–质量权衡
4	离散扩散	D3PM、序列 inpainting、与 AR/MLM 对比
5	潜空间与结构实践	LDM、RFdiffusion 式条件设计、评估指标

建议阅读顺序：概率基础薄弱者 0→Math-0→Example-0→1→2→3；若已有 VAE/EM 基础，可按 0→Example-0→1→2→3；若主攻 DNA/蛋白质序列，0→Math-0→Example-1→4→3；若做 结构 design，0→Math-0→1→3→5。

6. 工程与评估要点（跨篇共性）

训练

噪声日程：线性、余弦（cosine）等；影响高/低频信息销毁速度。
参数化：预测 (\epsilon)、(x_0) 或 v-prediction 等价但数值稳定性不同。
条件注入：拼接、交叉注意力（cross-attention）、AdaGN、Classifier-free guidance _dropout。

推理

步数 (T) 从 1000 减到 50 需 DDIM 或 高阶求解器；结构任务常 50–200 步。
Guidance scale 过大易模式崩溃或物理不合理结构。

生物场景评估

结构：RMSD、designability（逆折叠再折叠）、self-consistency。
分子：Validity、Uniqueness、QED/SA、对接打分。
序列：Perplexity、功能 motif 保留率、实验命中率。

7. 小结

扩散模型把生成建模为可学习的去噪马尔可夫链，训练稳定、易与 U-Net、Transformer、等变 GNN 结合，在连续几何与条件可控生成上尤其适合生物 design 任务。其代价主要是推理步数与条件设计复杂度；理解 DDPM → 得分/SDE → 采样/引导 → 离散/潜空间 这条链条，有助于阅读 RFdiffusion、Chroma 等论文并做架构选型。

段末注释：designability 指生成结构能否被现有折叠模型稳定预测回原序列；等变指坐标变换下模型输出做相应变换。

本篇数学概念索引

概念	出现章节	延伸阅读
马尔可夫链	§1	Math-0 §7
随机变量 / 高斯 / 噪声日程 / SNR / 期望	§3	Math-0 §2–§5、§9–§10

参考与延伸阅读

Ho et al., Denoising Diffusion Probabilistic Models（DDPM 奠基）.
Song & Ermon, Generative Modeling by Estimating Gradients of the Data Distribution（NCSN / 得分匹配）.
Song et al., Score-Based Generative Modeling through Stochastic Differential Equations（SDE 统一框架）.
Watson et al., De novo design of protein structure and function with RFdiffusion（蛋白质扩散 design）.
Ingraham et al., Illuminating protein space with a programmable generative model（Chroma）.
Austin et al., Structured Denoising Diffusion Models in Discrete State-Spaces（D3PM 离散扩散）.