5003.大模型-架构-Diffusion-0.概述与生物信息学应用全景

扩散模型(Diffusion Model)是一类通过「逐步加噪—逐步去噪」学习数据分布的深度生成模型(Deep Generative Model)。与你在基因组学项目中常见的掩码语言模型(Masked Language Model,MLM)自回归(Autoregressive,AR)序列生成不同,扩散模型把生成过程建模为一条随机轨迹:从简单噪声分布出发,经 (T) 步迭代还原出符合训练数据分布的样本。2020 年 去噪扩散概率模型(Denoising Diffusion Probabilistic Model,DDPM) 在图像生成上取得突破后,扩散范式迅速迁移至蛋白质结构/design小分子/肽段生成单细胞扰动预测等生物信息学任务,成为与 Transformer图神经网络(Graph Neural Network,GNN) 并列的重要生成工具。

段末注释:MLM 为随机遮盖 token 并预测被遮盖内容;AR 为按固定顺序逐 token 条件生成;DDPM 为 Ho 等人提出的经典离散时间扩散框架;GNN 在图结构数据上做消息传递式学习。

数学基础补充:若对高斯分布、噪声日程 (\bar\alpha_t)、KL 散度等符号不熟悉,请先阅读 Diffusion-Math-0 概率与扩散数学基础


1. 核心直觉:热力学扩散的「逆过程」

想象一滴墨水滴入清水:分子随机扩散,最终均匀分布——这是前向扩散(forward diffusion),把结构化样本 (x_0) 逐渐变成近似各向同性高斯噪声 (x_T)。

生成模型要做的是逆过程(reverse process):从噪声出发,一步步「凝聚」出真实样本。直接求逆转移概率 (p(x_{t-1}\mid x_t)) 通常不可解析,但可以用神经网络 (\epsilon_\theta(x_t, t)) 去预测每一步加入的噪声数据得分(score),从而近似采样。

图 1 前向扩散与逆向去噪生成(固定加噪链 ↔ 学习去噪链)

变分自编码器(Variational Autoencoder,VAE) 的「一次编码—一次解码」不同,扩散生成是多步马尔可夫链;与 生成对抗网络(Generative Adversarial Network,GAN) 的对抗博弈不同,扩散训练以去噪回归为主,优化目标更稳定,但推理步数多、算力开销大——这是工程上需要 DDIM蒸馏等加速手段的原因(见系列第 3 篇)。

概念锚点 · 马尔可夫链:前向与逆向过程均满足「无记忆性」——(x_t) 只依赖 (x_{t-1}),不直接依赖 (x_{t-2},\ldots,x_0)。整条轨迹 (x_{0:T}) 因此可分解为逐步转移的乘积(详见 Math-0 §7)。

概念图 马尔可夫链:\(x_t\) 仅依赖上一时刻 \(x_{t-1}\)

段末注释:VAE 用编码器—解码器与变分下界学习潜变量;GAN 通过生成器与判别器极小极大博弈;DDIM 为确定性跳步采样方法。


2. 与其他生成范式的对照

范式 训练信号 采样方式 优势 局限
自回归 AR 下一 token 交叉熵 顺序解码 序列似然清晰;文本/DNA 成熟 长程依赖、并行度低;结构约束需额外设计
VAE / 流模型 Flow ELBO / 可逆流 一次或少量变换 推理快;潜空间可解释 表达力或训练稳定性受限
GAN 对抗损失 一次前向 采样快、图像锐利 模式崩溃;生物序列评估难
扩散 Diffusion 去噪 MSE / 得分匹配 多步迭代 训练稳定;覆盖多模态 推理慢;需条件化设计

对生物信息学读者的实用建议:

  • 一维序列(DNA/RNA/蛋白质序列):AR + Transformer 仍是基线(如 EvoProGen);离散扩散在全局编辑、inpainting 上有优势(系列第 4 篇)。
  • 三维结构(蛋白质骨架、配体构象):连续扩散天然匹配坐标/角度空间(RFdiffusionChroma)。
  • 图结构分子(SMILES 图、原子图):等变扩散(E(3)-equivariant diffusion)GNN 骨干结合(EDMGeoDiff)。
  • 表格/表达矩阵(单细胞):条件扩散用于扰动响应预测(scDiffCellDiff)。

3. 数学骨架(预览)

设数据 (x_0 \sim q(x_0))——(x_0) 是取值于 (\mathbb{R}^d) 的随机变量,每个训练样本是一次观测(Math-0 §2)。前向过程定义条件高斯分布Math-0 §3–§4):

[
q(x_t \mid x_{t-1}) = \mathcal{N}\big(x_t;,\sqrt{1-\beta_t},x_{t-1},,\beta_t \mathbf{I}\big),
]

其中 ({\beta_t}{t=1}^T) 为噪声日程(noise schedule)——控制每步注入噪声的强度;(\bar\alpha_t = \prod{s=1}^{t}(1-\beta_s)) 为累积信号保留系数(Math-0 §9)。累积后可一步采样:

[
q(x_t \mid x_0) = \mathcal{N}\big(x_t;,\sqrt{\bar\alpha_t},x_0,,(1-\bar\alpha_t)\mathbf{I}\big),
\quad \bar\alpha_t = \prod_{s=1}^{t}(1-\beta_s).
]

训练目标(DDPM 简化形式)为预测加入的噪声 (\epsilon):

[
\mathcal{L}{\mathrm{simple}} = \mathbb{E}{t,,x_0,,\epsilon}\Big[\big|\epsilon - \epsilon_\theta(x_t, t)\big|^2\Big],
\quad x_t = \sqrt{\bar\alpha_t},x_0 + \sqrt{1-\bar\alpha_t},\epsilon.
]

概念锚点 · 高斯加噪与信噪比:重参数化写法 (x_t = \sqrt{\bar\alpha_t},x_0 + \sqrt{1-\bar\alpha_t},\epsilon) 将 (x_t) 分解为信号与噪声;(\mathrm{SNR}(t)=\bar\alpha_t/(1-\bar\alpha_t)) 随 (t) 增大而下降(Math-0 §8–§10)。损失中的 (\mathbb{E}[\cdot]) 表示对随机 (t,x_0,\epsilon) 求期望,训练时用 minibatch 估计(Math-0 §5)。

概念图 高斯分布与概率密度

概念图 噪声日程 \(\bar\alpha_t\)(线性 vs 余弦)

概念图 \(x_t\) 的信号–噪声分解与 SNR 衰减

采样时从 (x_T \sim \mathcal{N}(0, \mathbf{I})) 出发,用学到的 (\epsilon_\theta) 逐步更新 (x_{t-1})。完整变分推导、**得分匹配(score matching)随机微分方程(Stochastic Differential Equation,SDE)**统一视角见系列第 1–2 篇。

段末注释:噪声日程控制每步信噪比衰减速度;得分指 (\nabla_x \log p(x)),即对数密度的梯度。


4. 生物信息学应用地图

4.1 蛋白质结构与 design

代表工作 任务 扩散对象 要点
RFdiffusion 骨架生成、motif scaffolding 骨架坐标 + 残基类型 RoseTTAFold 结构上训练;Classifier-free guidance 控制二级结构
Chroma 全原子蛋白质生成 结构 + 序列联合 可编程条件(对称性、结合位点)
FrameDiff 骨架 frames SE(3) 等变扩散 在局部坐标系上做扩散,保证刚体等变

为什么用扩散而非 AR? 蛋白质三维坐标是连续、多模态、对称的;AR 需固定序列顺序,难以自然表达旋转平移等变;扩散可在 SE(3) / E(3) 等变网络上逐步去噪,同时支持 inpainting(固定 motif、生成 scaffold)。

4.2 小分子与肽段

  • GeoDiff / EDM:在原子坐标与键图上做 E(3)-equivariant 扩散,生成 3D 分子构象。
  • Diffusion + SMILES:部分工作将离散 token 序列与连续 3D 扩散结合;3D 几何仍是主流扩散优势区。

4.3 基因组与 RNA 序列

  • 离散扩散(D3PM):对 ({A,C,G,T}) 或 ({20) 氨基酸(}) 做吸收态 / 均匀转移扩散,适合全局重采样而非逐碱基 AR。
  • DNABERTMLM 的关系:MLM 是单步随机遮盖;离散扩散是多步逐步「腐蚀—修复」,生成时可控制步数与温度。

4.4 单细胞与多组学

  • scDiff 等:对基因表达向量或潜表示做扩散,以药物、扰动类型为条件,预测 counterfactual 表达谱——服务于虚拟筛选与机制推断。

图 2 生物信息学中的扩散对象与系列文章对应关系


5. 系列阅读路线

篇目 主题 你将掌握
0(本文) 概述与应用 范式定位、生物场景选型
Math-0 概率与数学基础 集合、分布、噪声日程、SNR、KL、得分、ELBO 直觉
1 前向/逆向与 ELBO DDPM 完整推导、训练与采样公式
Example-0 前向训练数值例题 2 维手算一步训练,澄清监督从哪来
Example-1 蛋白序列离散扩散例题 四肽 MASK 吸收手算 + motif inpainting
2 得分匹配与 SDE NCSNSDE/ODE 统一框架、连续时间视角
3 采样加速与引导 DDIMClassifier-free guidance、步数–质量权衡
4 离散扩散 D3PM、序列 inpainting、与 AR/MLM 对比
5 潜空间与结构实践 LDMRFdiffusion 式条件设计、评估指标

建议阅读顺序:概率基础薄弱者 0→Math-0→Example-0→1→2→3;若已有 VAE/EM 基础,可按 0→Example-0→1→2→3;若主攻 DNA/蛋白质序列,0→Math-0→Example-1→4→3;若做 结构 design,0→Math-0→1→3→5。


6. 工程与评估要点(跨篇共性)

训练

  • 噪声日程:线性、余弦(cosine)等;影响高/低频信息销毁速度。
  • 参数化:预测 (\epsilon)、(x_0) 或 v-prediction 等价但数值稳定性不同。
  • 条件注入:拼接、交叉注意力(cross-attention)AdaGNClassifier-free guidance _dropout。

推理

  • 步数 (T) 从 1000 减到 50 需 DDIM高阶求解器;结构任务常 50–200 步。
  • Guidance scale 过大易模式崩溃或物理不合理结构。

生物场景评估

  • 结构:RMSDdesignability(逆折叠再折叠)、self-consistency
  • 分子:ValidityUniquenessQED/SA、对接打分。
  • 序列:Perplexity、功能 motif 保留率、实验命中率。

7. 小结

扩散模型把生成建模为可学习的去噪马尔可夫链,训练稳定、易与 U-NetTransformer等变 GNN 结合,在连续几何条件可控生成上尤其适合生物 design 任务。其代价主要是推理步数条件设计复杂度;理解 DDPM → 得分/SDE → 采样/引导 → 离散/潜空间 这条链条,有助于阅读 RFdiffusionChroma 等论文并做架构选型。

段末注释:designability 指生成结构能否被现有折叠模型稳定预测回原序列;等变指坐标变换下模型输出做相应变换。


本篇数学概念索引

概念 出现章节 延伸阅读
马尔可夫链 §1 Math-0 §7
随机变量 / 高斯 / 噪声日程 / SNR / 期望 §3 Math-0 §2–§5、§9–§10

参考与延伸阅读

  • Ho et al., Denoising Diffusion Probabilistic ModelsDDPM 奠基).
  • Song & Ermon, Generative Modeling by Estimating Gradients of the Data DistributionNCSN / 得分匹配).
  • Song et al., Score-Based Generative Modeling through Stochastic Differential EquationsSDE 统一框架).
  • Watson et al., De novo design of protein structure and function with RFdiffusion(蛋白质扩散 design).
  • Ingraham et al., Illuminating protein space with a programmable generative modelChroma).
  • Austin et al., Structured Denoising Diffusion Models in Discrete State-SpacesD3PM 离散扩散).
-------------本文结束感谢您的阅读-------------