5003.大模型-架构-Diffusion-Math-0.概率与扩散数学基础

阅读 Diffusion 系列第 1–2 篇 的公式推导时,若对「条件高斯」「KL 散度」「(\bar\alpha_t) 噪声日程」等符号感到陌生,本文提供自洽的数学补充:从集合与样本空间出发,经分布条件概率到扩散专有的噪声日程得分函数,并在每一核心概念处给出科普动漫风示意图(非严格证明,重在建立直觉)。

段末注释:PDF 为概率密度函数(Probability Density Function);i.i.d. 为独立同分布(independent and identically distributed)。

前置阅读Diffusion-0 概述
后续阅读Diffusion-Example-0 前向训练数值例题Diffusion-1 前向扩散与 ELBODiffusion-2 得分与 SDE

插图约定:配图位于 5003.大模型-架构-Diffusion-Math/,风格与 Diffusion 主系列一致——白底、蓝–青–紫柔和配色、手写体中文标注的科研动漫示意。同一批概念图已嵌入 Diffusion-0~5 正文(标注为「概念锚点」),本篇提供完整定义与推导语境。


1. 集合与样本空间:概率论的语言

1.1 基本概念

样本空间(sample space) (\Omega) 是所有可能结果构成的集合。例如:

  • 掷一枚硬币:(\Omega = {\mathrm{正},\mathrm{反}})
  • 蛋白质某个 (C_\alpha) 原子的 (x) 坐标(连续):(\Omega = \mathbb{R})
  • 整条骨架坐标 (x \in \mathbb{R}^{3N}):(\Omega = \mathbb{R}^{3N})

事件(event) 是 (\Omega) 的子集。(A \subseteq \Omega) 表示「结果落在 (A) 中」。

集合运算 符号 概率含义
(A \cup B) 「(A) 或 (B) 发生」
(A \cap B) 「(A) 与 (B) 同时发生」
(A^c) 「(A) 不发生」
空集 (\varnothing) 不可能事件

概率测度 (P) 给每个事件赋予 ([0,1]) 的数值,满足 (P(\Omega)=1)、(P(\varnothing)=0)、可列可加性。

图 1 样本空间 \(\Omega\) 与随机事件 \(A,B\) 的集合关系

段末注释:测度可理解为「面积/体积/generalized 计数」的公理化推广;连续变量下 (P(X=x)=0),需用密度积分。


2. 随机变量:从结果到数据向量

随机变量(random variable) 是可测函数 (X:\Omega \to \mathcal{X}),把随机结果映射到数值(或向量)。扩散模型中的 (x_0, x_t, \epsilon) 均为随机变量:

  • (x_0 \in \mathbb{R}^d):干净数据(蛋白坐标、像素、表达谱)
  • (x_t \in \mathbb{R}^d):第 (t) 步加噪后的数据
  • (\epsilon \sim \mathcal{N}(0,\mathbf{I})):标准高斯噪声

训练集 ({x_0^{(i)}}_{i=1}^N) 视为从数据分布 (q(x_0)) 独立同分布抽样的观测。

图 2 随机变量 \(X\) 将样本空间映射到 \(\mathbb{R}^d\) 数据向量


3. 概率分布:描述「取值有多常见」

3.1 离散 vs 连续

  • 离散:概率质量函数 (P(X=k)),如 D3PM 中 token 取 (A/C/G/T)
  • 连续概率密度函数 (p(x)),满足 (P(a \leq X \leq b) = \int_a^b p(x),\mathrm{d}x),且 (\int p(x),\mathrm{d}x = 1)

3.2 高斯(正态)分布——扩散的核心

一维高斯 (\mathcal{N}(x;\mu,\sigma^2)):

[
p(x) = \frac{1}{\sqrt{2\pi\sigma^2}} \exp!\Big(-\frac{(x-\mu)^2}{2\sigma^2}\Big).
]

多元各向同性高斯(DDPM 默认噪声):

[
\mathcal{N}(x;\mu,\sigma^2 \mathbf{I}) = \prod_{j=1}^{d} \mathcal{N}(x_j;\mu_j,\sigma^2),
]

即各维独立、同方差 (\sigma^2)。标准高斯 (\mathcal{N}(0,\mathbf{I})) 时 (\mu=0,,\sigma=1)。

图 3 高斯分布:均值 \(\mu\)、标准差 \(\sigma\) 与概率密度曲线

扩散中的出现位置

[
q(x_t \mid x_{t-1}) = \mathcal{N}\big(\sqrt{1-\beta_t},x_{t-1},,\beta_t \mathbf{I}\big),
\quad
p(x_T) = \mathcal{N}(0, \mathbf{I}).
]

段末注释:各向同性指各坐标方向方差相同;蛋白坐标若各维量纲不同,有时需对角协方差 (\mathrm{diag}(\sigma_1^2,\ldots,\sigma_d^2))。


4. 条件分布与贝叶斯:「已知一部分,其余怎么变」

条件概率密度 (p(x \mid y)) 表示「在 (Y=y) 已知时,(X) 的分布」。扩散前向过程全是条件高斯

[
q(x_t \mid x_{t-1}), \quad q(x_t \mid x_0).
]

贝叶斯公式(连续形式):

[
p(x_0 \mid x_t) = \frac{p(x_t \mid x_0),p(x_0)}{p(x_t)}.
]

真实逆向 (q(x_{t-1}\mid x_t)) 难算,因 (p(x_t)) 需对整个数据分布积分;DDPM 用神经网络 (p_\theta(x_{t-1}\mid x_t)) 近似。推导 ELBO 时更常用后验 (q(x_{t-1}\mid x_t, x_0))——多了 (x_0) 条件后可闭式(高斯)。

图 4 条件分布:先验 \(p(x_0)\)、似然 \(p(x_t\mid x_0)\) 与加噪关系


5. 期望、方差与协方差

期望(expectation)——随机变量的「加权平均」:

[
\mathbb{E}[X] = \int x, p(x),\mathrm{d}x \quad \text{(连续)}.
]

方差(variance)——偏离均值的典型尺度:

[
\mathrm{Var}(X) = \mathbb{E}\big[(X - \mathbb{E}[X])^2\big].
]

对 (\epsilon \sim \mathcal{N}(0,\mathbf{I})):(\mathbb{E}[\epsilon]=0)(\mathrm{Var}(\epsilon)=1)(各维)。

协方差矩阵 (\Sigma) 描述各维相关性;(\Sigma = \sigma^2 \mathbf{I}) 时各维独立同方差。

训练目标 (\mathbb{E}{t,x_0,\epsilon}[|\epsilon - \epsilon\theta|^2]) 即对随机 (t, x_0, \epsilon) 求期望(实践中用 minibatch 蒙特卡洛估计)。

图 5 期望 \(\mathbb{E}[X]\) 与方差 \(\mathrm{Var}(X)\):分布的「中心」与「 spread 」


6. KL 散度:衡量两个分布差多远

Kullback–Leibler 散度(非对称「距离」):

[
\mathrm{KL}(P ,|, Q) = \int p(x) \log \frac{p(x)}{q(x)} ,\mathrm{d}x = \mathbb{E}_{x\sim P}\Big[\log \frac{p(x)}{q(x)}\Big].
]

性质:(\mathrm{KL}(P|Q) \geq 0),等号当且仅当 (P=Q)(几乎处处)。

扩散 ELBO 中每项 (L_{t-1}) 形如:

[
\mathrm{KL}\big(q(x_{t-1}\mid x_t,x_0),|,p_\theta(x_{t-1}\mid x_t)\big).
]

即:真实后验 vs 模型预测的高斯–高斯 KL;固定方差时化为均值差的 MSE,最终得到 (|\epsilon - \epsilon_\theta|^2)。

图 6 KL 散度:真实分布 \(P\) 与近似分布 \(Q\) 的差异(非对称)

段末注释:变分推断通过最小化 (\mathrm{KL}(q_\phi(z|x)|p_\theta(z|x))) 或最大化 ELBO 学习近似后验。


7. 马尔可夫链:扩散的「无记忆」结构

马尔可夫性质

[
q(x_t \mid x_{t-1}, x_{t-2}, \ldots, x_0) = q(x_t \mid x_{t-1}).
]

第 (t) 步只依赖上一时刻 (x_{t-1}),不直接依赖更早历史——这使联合分布可分解:

[
q(x_{1:T}\mid x_0) = \prod_{t=1}^{T} q(x_t \mid x_{t-1}).
]

前向扩散是固定参数的马尔可夫链;逆向生成 (p_\theta(x_{t-1}\mid x_t)) 是学出来的马尔可夫链。因 (T) 很大(如 1000),整条轨迹 ((x_0,\ldots,x_T)) 可视作高维 Markov 路径

图 7 马尔可夫链:\(x_t\) 仅依赖 \(x_{t-1}\) 的无记忆性


8. 重参数化技巧:可微的随机采样

要从 (\mathcal{N}(\mu, \sigma^2)) 采样且对 (\mu,\sigma) 可反传梯度,写:

[
x = \mu + \sigma \cdot \epsilon, \quad \epsilon \sim \mathcal{N}(0, 1) \text{ 或 } \mathcal{N}(0, \mathbf{I}).
]

随机性全部在固定分布的 (\epsilon) 上,(\mu,\sigma) 走确定性路径——VAEDDPM 训练均依赖此技巧。

DDPM 一步加噪正是重参数化:

[
x_t = \underbrace{\sqrt{\bar\alpha_t},x_0}{\text{确定性缩放}} + \underbrace{\sqrt{1-\bar\alpha_t},\epsilon}{\text{随机部分}}, \quad \epsilon \sim \mathcal{N}(0,\mathbf{I}).
]

给定 (x_0) 与 (\epsilon) 可精确复现 (x_t),便于训练时随机采样 (t) 并构造监督目标。

图 8 重参数化:\(x = \mu + \sigma\epsilon\),梯度经 \(\mu,\sigma\) 回传


9. 噪声日程:(\beta_t)、(\alpha_t)、(\bar\alpha_t)

扩散前向每步注入噪声强度由**噪声日程(noise schedule)**控制。

符号 定义 含义
(\beta_t) 超参,(0 < \beta_t \ll 1) 第 (t) 步新增噪声方差
(\alpha_t) (1 - \beta_t) 第 (t) 步信号保留比例
(\bar\alpha_t) (\prod_{s=1}^{t}\alpha_s) 从 (x_0) 到 (x_t) 累积信号系数

单步前向:

[
q(x_t \mid x_{t-1}) = \mathcal{N}\big(\sqrt{1-\beta_t},x_{t-1},,\beta_t \mathbf{I}\big).
]

累积闭式(跳过中间步):

[
q(x_t \mid x_0) = \mathcal{N}\big(\sqrt{\bar\alpha_t},x_0,,(1-\bar\alpha_t)\mathbf{I}\big).
]

常见日程

  1. 线性:(\beta_t) 从 (\beta_1) 线性增至 (\beta_T)(DDPM 默认)
  2. 余弦(cosine):(\bar\alpha_t = \cos^2!\big(\frac{t/T+s}{1+s}\cdot\frac{\pi}{2}\big))(Nichol & Dhariwal;中间步信噪比更平滑)

(t) 小 → (\bar\alpha_t \approx 1) → (x_t \approx x_0)(几乎无噪);(t) 大 → (\bar\alpha_t \approx 0) → (x_t \approx \epsilon)(纯噪)。

图 9 噪声日程:\(\beta_t\) 递增与 \(\bar\alpha_t\) 递减(线性 vs 余弦)


10. 信噪比(SNR):分解 (x_t) 的信号与噪声

将加噪公式重写为信号 + 噪声

[
x_t = \underbrace{\sqrt{\bar\alpha_t},x_0}{\text{信号分量}} + \underbrace{\sqrt{1-\bar\alpha_t},\epsilon}{\text{噪声分量}}.
]

信噪比(Signal-to-Noise Ratio,SNR) 常定义为:

[
\mathrm{SNR}(t) = \frac{\bar\alpha_t}{1-\bar\alpha_t}.
]

  • (t=0):(\bar\alpha_0=1),(\mathrm{SNR}\to\infty)(无噪)
  • (t=T):(\bar\alpha_T\approx 0),(\mathrm{SNR}\approx 0)(噪声主导)

训练直觉:不同 (t) 对应不同 SNR;网络 (\epsilon_\theta(x_t,t)) 需在所有噪声级别上学会去噪。v-prediction 等参数化可理解为在 SNR 极端区间平衡梯度。

图 10 信噪比 SNR\((t)\) 随扩散步衰减与 \(x_t\) 的信号–噪声分解

段末注释:EDM 等框架直接在 (\sigma = \sqrt{1-\bar\alpha_t}) 空间调度,与 DDPM 的 (\beta_t) 表等价换元。


11. 得分函数:对数密度的梯度

对概率密度 (p(x)),得分(score)

[
s(x) = \nabla_x \log p(x) = \frac{\nabla_x p(x)}{p(x)}.
]

几何直觉:在 (x) 处沿 (s(x)) 方向走,到达更高密度区域(「上坡」)。

对条件高斯 (q(x_t\mid x_0)):

[
\nabla_{x_t} \log q(x_t \mid x_0) = -\frac{\epsilon}{\sqrt{1-\bar\alpha_t}},
\quad x_t = \sqrt{\bar\alpha_t},x_0 + \sqrt{1-\bar\alpha_t},\epsilon.
]

(\epsilon)-prediction 等价于学习缩放得分朗之万动力学用得分做 MCMC:

[
x_{k+1} = x_k + \eta, s(x_k) + \sqrt{2\eta},\xi_k.
]

连续时间下得分进入逆向 SDE 漂移项(见 Diffusion-2)。

图 11 得分函数 \(\nabla_x \log p(x)\):密度「上坡」方向与朗之万采样


12. ELBO:变分下界把生成变成可优化目标

直接最大化 (\log p_\theta(x_0)) 困难(需积分掉 (x_{1:T}))。引入变分分布 (q(x_{1:T}\mid x_0))(前向过程),得证据下界

[
\log p_\theta(x_0) \geq \underbrace{\mathbb{E}{q}\Big[\log \frac{p\theta(x_{0:T})}{q(x_{1:T}\mid x_0)}\Big]}{\mathcal{L}{\mathrm{VLB}} = \mathrm{ELBO}}.
]

DDPM 展开 ELBO 为:

[
\mathcal{L}{\mathrm{VLB}} = L_T + \sum{t=2}^{T} L_{t-1} - L_0,
]

  • (L_T = \mathrm{KL}(q(x_T\mid x_0)|p(x_T))):终态接近标准高斯
  • (L_{t-1}):每步去噪 KL → MSE on (\epsilon)
  • (L_0):最终重建项

(\mathcal{L}_{\mathrm{simple}}) 进一步去掉部分时间权重,只保留 (\mathbb{E}[|\epsilon-\epsilon_\theta|^2]),实践更稳定。

图 12 ELBO 作为 \(\log p(x_0)\) 的可优化下界及其 KL 分解


13. 概念在系列文章中的嵌入位置

下文 12 个概念在本篇有完整讲解;同一配图与「概念锚点」摘要已同步写入系列正文,便于连贯阅读而无需来回跳转。

概念 配图 Math-0 系列正文嵌入位置
样本空间/事件 fig01 §1 Diffusion-4 §2(离散 (\mathcal{V}))
随机变量 fig02 §2 Diffusion-0 §3;Diffusion-1 §1;Diffusion-5 §3.1
高斯分布 fig03 §3 Diffusion-0 §3;Diffusion-5 §2
条件分布 fig04 §4 Diffusion-1 §4.1;Diffusion-3 §2.2(inpainting)
期望/方差 fig05 §5 Diffusion-0 §3((\mathbb{E}) 损失)
KL 散度 fig06 §6 Diffusion-1 §4;Diffusion-4 §3
马尔可夫链 fig07 §7 Diffusion-0 §1;Diffusion-1 §2;Diffusion-4 §2
重参数化 fig08 §8 Diffusion-1 §2;Diffusion-2 §2(DSM)
噪声日程 fig09 §9 Diffusion-0 §3;Diffusion-1 §2.1;Diffusion-2 §3
信噪比 SNR fig10 §10 Diffusion-0 §3;Diffusion-1 §2.1
得分函数 fig11 §11 Diffusion-1 §7;Diffusion-2 §1;Diffusion-3 §3
ELBO fig12 §12 Diffusion-1 §4

推荐阅读:概率薄弱 → 0 → Math-0 → 1(概念在 0/1 中二次强化);已读 0/1 → 将 Math-0 作公式手册查阅即可。

13.1 概念–公式速查

概念 核心公式/对象 在 Diffusion 中的角色
样本空间/事件 (\Omega, A\subseteq\Omega) 定义随机结果空间
随机变量 (x_0, x_t, \epsilon) 数据与噪声
高斯分布 (\mathcal{N}(\mu,\sigma^2\mathbf{I})) 前向/逆向转移
条件分布 (q(x_t\mid x_0)) 一步加噪闭式
期望 (\mathbb{E}[\cdot]) 训练损失平均
KL 散度 (\mathrm{KL}(P|Q)) ELBO 各项
马尔可夫链 (q(x_t\mid x_{t-1})) 前向/逆向分解
重参数化 (x=\mu+\sigma\epsilon) 训练采样
噪声日程 (\beta_t,\bar\alpha_t) 控制加噪速度
信噪比 (\bar\alpha_t/(1-\bar\alpha_t)) 理解不同 (t) 难度
得分函数 (\nabla_x\log p(x)) SDE/DSM
ELBO (\mathcal{L}_{\mathrm{VLB}}) 训练目标来源

14. 生物信息学读者的数值直觉

蛋白质坐标:若 (x_0) 已中心化且各维标准差 (\approx 1)(无量纲化),则 (\beta_t) 与 DDPM 默认表直接可用;若坐标以 Å 计、方差 (\sim 10^2),需先归一化或重新标定 (\beta_t)。

批量训练:(\mathbb{E}{t,x_0,\epsilon}) 用「随机 (t\in{1,\ldots,T}) + minibatch」估计;(t) 均匀采样意味着各 SNR 级别同等权重(改进版会对 (L{t-1}) 加权)。

离散序列(D3PM):分布换成分类分布 (\mathrm{Cat}),转移矩阵 (Q_t) 替代 (\beta_t);集合 (\mathcal{V}) 为碱基/氨基酸字母表——连续高斯直觉仍适用于理解「腐蚀强度随 (t) 递增」。


15. 小结

扩散模型的数学骨架可概括为:马尔可夫链上的高斯条件转移 + 噪声日程控制信噪比 + 重参数化实现可训练采样 + ELBO/KL 将生成转化为 (\epsilon)-prediction MSE + 得分函数连接离散 DDPM 与连续 SDE。掌握本文 12 个概念及示意图,再读系列第 1–2 篇推导时,符号应能一一落地。

段末注释:蒙特卡洛估计指用随机样本均值近似期望,深度学习训练普遍采用。


参考与延伸阅读

  • Bishop, Pattern Recognition and Machine Learning(概率机器学习基础).
  • Ho et al., DDPM(噪声日程与 ELBO).
  • Vincent, Denoising Score Matching(得分匹配).
  • Song et al., Score-Based SDE(连续时间).
  • 本系列:Diffusion-0 ~ Diffusion-5.
-------------本文结束感谢您的阅读-------------