5003.大模型-架构-Diffusion-Math-0.概率与扩散数学基础

阅读 Diffusion 系列第 1–2 篇的公式推导时，若对「条件高斯」「KL 散度」「(\bar\alpha_t) 噪声日程」等符号感到陌生，本文提供自洽的数学补充：从集合与样本空间出发，经分布、条件概率到扩散专有的噪声日程与得分函数，并在每一核心概念处给出科普动漫风示意图（非严格证明，重在建立直觉）。

段末注释：PDF 为概率密度函数（Probability Density Function）；i.i.d. 为独立同分布（independent and identically distributed）。

前置阅读：Diffusion-0 概述
后续阅读：Diffusion-Example-0 前向训练数值例题 → Diffusion-1 前向扩散与 ELBO → Diffusion-2 得分与 SDE

插图约定：配图位于 5003.大模型-架构-Diffusion-Math/，风格与 Diffusion 主系列一致——白底、蓝–青–紫柔和配色、手写体中文标注的科研动漫示意。同一批概念图已嵌入 Diffusion-0～5 正文（标注为「概念锚点」），本篇提供完整定义与推导语境。

1. 集合与样本空间：概率论的语言

1.1 基本概念

样本空间（sample space） (\Omega) 是所有可能结果构成的集合。例如：

掷一枚硬币：(\Omega = {\mathrm{正},\mathrm{反}})
蛋白质某个 (C_\alpha) 原子的 (x) 坐标（连续）：(\Omega = \mathbb{R})
整条骨架坐标 (x \in \mathbb{R}^{3N})：(\Omega = \mathbb{R}^{3N})

事件（event） 是 (\Omega) 的子集。(A \subseteq \Omega) 表示「结果落在 (A) 中」。

集合运算	符号	概率含义
并	(A \cup B)	「(A) 或 (B) 发生」
交	(A \cap B)	「(A) 与 (B) 同时发生」
补	(A^c)	「(A) 不发生」
空集	(\varnothing)	不可能事件

概率测度 (P) 给每个事件赋予 ([0,1]) 的数值，满足 (P(\Omega)=1)、(P(\varnothing)=0)、可列可加性。

$图 1　样本空间 $\Omega$ 与随机事件 $A,B$ 的集合关系$

段末注释：测度可理解为「面积/体积/generalized 计数」的公理化推广；连续变量下 (P(X=x)=0)，需用密度积分。

2. 随机变量：从结果到数据向量

随机变量（random variable） 是可测函数 (X:\Omega \to \mathcal{X})，把随机结果映射到数值（或向量）。扩散模型中的 (x_0, x_t, \epsilon) 均为随机变量：

(x_0 \in \mathbb{R}^d)：干净数据（蛋白坐标、像素、表达谱）
(x_t \in \mathbb{R}^d)：第 (t) 步加噪后的数据
(\epsilon \sim \mathcal{N}(0,\mathbf{I}))：标准高斯噪声

训练集 ({x_0^{(i)}}_{i=1}^N) 视为从数据分布 (q(x_0)) 独立同分布抽样的观测。

$图 2　随机变量 $X$ 将样本空间映射到 $\mathbb{R}^d$ 数据向量$

3. 概率分布：描述「取值有多常见」

3.1 离散 vs 连续

离散：概率质量函数 (P(X=k))，如 D3PM 中 token 取 (A/C/G/T)
连续：概率密度函数 (p(x))，满足 (P(a \leq X \leq b) = \int_a^b p(x),\mathrm{d}x)，且 (\int p(x),\mathrm{d}x = 1)

3.2 高斯（正态）分布——扩散的核心

一维高斯 (\mathcal{N}(x;\mu,\sigma^2))：

[
p(x) = \frac{1}{\sqrt{2\pi\sigma^2}} \exp!\Big(-\frac{(x-\mu)^2}{2\sigma^2}\Big).
]

多元各向同性高斯（DDPM 默认噪声）：

[
\mathcal{N}(x;\mu,\sigma^2 \mathbf{I}) = \prod_{j=1}^{d} \mathcal{N}(x_j;\mu_j,\sigma^2),
]

即各维独立、同方差 (\sigma^2)。标准高斯 (\mathcal{N}(0,\mathbf{I})) 时 (\mu=0,,\sigma=1)。

$图 3　高斯分布：均值 $\mu$、标准差 $\sigma$ 与概率密度曲线$

扩散中的出现位置：

[
q(x_t \mid x_{t-1}) = \mathcal{N}\big(\sqrt{1-\beta_t},x_{t-1},,\beta_t \mathbf{I}\big),
\quad
p(x_T) = \mathcal{N}(0, \mathbf{I}).
]

段末注释：各向同性指各坐标方向方差相同；蛋白坐标若各维量纲不同，有时需对角协方差 (\mathrm{diag}(\sigma_1^2,\ldots,\sigma_d^2))。

4. 条件分布与贝叶斯：「已知一部分，其余怎么变」

条件概率密度 (p(x \mid y)) 表示「在 (Y=y) 已知时，(X) 的分布」。扩散前向过程全是条件高斯：

[
q(x_t \mid x_{t-1}), \quad q(x_t \mid x_0).
]

贝叶斯公式（连续形式）：

[
p(x_0 \mid x_t) = \frac{p(x_t \mid x_0),p(x_0)}{p(x_t)}.
]

真实逆向 (q(x_{t-1}\mid x_t)) 难算，因 (p(x_t)) 需对整个数据分布积分；DDPM 用神经网络 (p_\theta(x_{t-1}\mid x_t)) 近似。推导 ELBO 时更常用后验 (q(x_{t-1}\mid x_t, x_0))——多了 (x_0) 条件后可闭式（高斯）。

$图 4　条件分布：先验 $p(x_0)$、似然 $p(x_t\mid x_0)$ 与加噪关系$

5. 期望、方差与协方差

期望（expectation）——随机变量的「加权平均」：

[
\mathbb{E}[X] = \int x, p(x),\mathrm{d}x \quad \text{（连续）}.
]

方差（variance）——偏离均值的典型尺度：

[
\mathrm{Var}(X) = \mathbb{E}\big[(X - \mathbb{E}[X])^2\big].
]

对 (\epsilon \sim \mathcal{N}(0,\mathbf{I}))：(\mathbb{E}[\epsilon]=0)，(\mathrm{Var}(\epsilon)=1)（各维）。

协方差矩阵 (\Sigma) 描述各维相关性；(\Sigma = \sigma^2 \mathbf{I}) 时各维独立同方差。

训练目标 (\mathbb{E}{t,x_0,\epsilon}[|\epsilon - \epsilon\theta|^2]) 即对随机 (t, x_0, \epsilon) 求期望（实践中用 minibatch 蒙特卡洛估计）。

$图 5　期望 $\mathbb{E}[X]$ 与方差 $\mathrm{Var}(X)$：分布的「中心」与「 spread 」$

6. KL 散度：衡量两个分布差多远

Kullback–Leibler 散度（非对称「距离」）：

[
\mathrm{KL}(P ,|, Q) = \int p(x) \log \frac{p(x)}{q(x)} ,\mathrm{d}x = \mathbb{E}_{x\sim P}\Big[\log \frac{p(x)}{q(x)}\Big].
]

性质：(\mathrm{KL}(P|Q) \geq 0)，等号当且仅当 (P=Q)（几乎处处）。

扩散 ELBO 中每项 (L_{t-1}) 形如：

[
\mathrm{KL}\big(q(x_{t-1}\mid x_t,x_0),|,p_\theta(x_{t-1}\mid x_t)\big).
]

即：真实后验 vs 模型预测的高斯–高斯 KL；固定方差时化为均值差的 MSE，最终得到 (|\epsilon - \epsilon_\theta|^2)。

$图 6　KL 散度：真实分布 $P$ 与近似分布 $Q$ 的差异（非对称）$

段末注释：变分推断通过最小化 (\mathrm{KL}(q_\phi(z|x)|p_\theta(z|x))) 或最大化 ELBO 学习近似后验。

7. 马尔可夫链：扩散的「无记忆」结构

马尔可夫性质：

[
q(x_t \mid x_{t-1}, x_{t-2}, \ldots, x_0) = q(x_t \mid x_{t-1}).
]

第 (t) 步只依赖上一时刻 (x_{t-1})，不直接依赖更早历史——这使联合分布可分解：

[
q(x_{1:T}\mid x_0) = \prod_{t=1}^{T} q(x_t \mid x_{t-1}).
]

前向扩散是固定参数的马尔可夫链；逆向生成 (p_\theta(x_{t-1}\mid x_t)) 是学出来的马尔可夫链。因 (T) 很大（如 1000），整条轨迹 ((x_0,\ldots,x_T)) 可视作高维 Markov 路径。

$图 7　马尔可夫链：$x_t$ 仅依赖 $x_{t-1}$ 的无记忆性$

8. 重参数化技巧：可微的随机采样

要从 (\mathcal{N}(\mu, \sigma^2)) 采样且对 (\mu,\sigma) 可反传梯度，写：

[
x = \mu + \sigma \cdot \epsilon, \quad \epsilon \sim \mathcal{N}(0, 1) \text{ 或 } \mathcal{N}(0, \mathbf{I}).
]

随机性全部在固定分布的 (\epsilon) 上，(\mu,\sigma) 走确定性路径——VAE 与 DDPM 训练均依赖此技巧。

DDPM 一步加噪正是重参数化：

[
x_t = \underbrace{\sqrt{\bar\alpha_t},x_0}{\text{确定性缩放}} + \underbrace{\sqrt{1-\bar\alpha_t},\epsilon}{\text{随机部分}}, \quad \epsilon \sim \mathcal{N}(0,\mathbf{I}).
]

给定 (x_0) 与 (\epsilon) 可精确复现 (x_t)，便于训练时随机采样 (t) 并构造监督目标。

$图 8　重参数化：$x = \mu + \sigma\epsilon$，梯度经 $\mu,\sigma$ 回传$

9. 噪声日程：(\beta_t)、(\alpha_t)、(\bar\alpha_t)

扩散前向每步注入噪声强度由**噪声日程（noise schedule）**控制。

符号	定义	含义
(\beta_t)	超参，(0 < \beta_t \ll 1)	第 (t) 步新增噪声方差
(\alpha_t)	(1 - \beta_t)	第 (t) 步信号保留比例
(\bar\alpha_t)	(\prod_{s=1}^{t}\alpha_s)	从 (x_0) 到 (x_t) 累积信号系数

单步前向：

[
q(x_t \mid x_{t-1}) = \mathcal{N}\big(\sqrt{1-\beta_t},x_{t-1},,\beta_t \mathbf{I}\big).
]

累积闭式（跳过中间步）：

[
q(x_t \mid x_0) = \mathcal{N}\big(\sqrt{\bar\alpha_t},x_0,,(1-\bar\alpha_t)\mathbf{I}\big).
]

常见日程：

线性：(\beta_t) 从 (\beta_1) 线性增至 (\beta_T)（DDPM 默认）
余弦（cosine）：(\bar\alpha_t = \cos^2!\big(\frac{t/T+s}{1+s}\cdot\frac{\pi}{2}\big))（Nichol & Dhariwal；中间步信噪比更平滑）

(t) 小 → (\bar\alpha_t \approx 1) → (x_t \approx x_0)（几乎无噪）；(t) 大 → (\bar\alpha_t \approx 0) → (x_t \approx \epsilon)（纯噪）。

$图 9　噪声日程：$\beta_t$ 递增与 $\bar\alpha_t$ 递减（线性 vs 余弦）$

10. 信噪比（SNR）：分解 (x_t) 的信号与噪声

将加噪公式重写为信号 + 噪声：

[
x_t = \underbrace{\sqrt{\bar\alpha_t},x_0}{\text{信号分量}} + \underbrace{\sqrt{1-\bar\alpha_t},\epsilon}{\text{噪声分量}}.
]

信噪比（Signal-to-Noise Ratio，SNR） 常定义为：

[
\mathrm{SNR}(t) = \frac{\bar\alpha_t}{1-\bar\alpha_t}.
]

(t=0)：(\bar\alpha_0=1)，(\mathrm{SNR}\to\infty)（无噪）
(t=T)：(\bar\alpha_T\approx 0)，(\mathrm{SNR}\approx 0)（噪声主导）

训练直觉：不同 (t) 对应不同 SNR；网络 (\epsilon_\theta(x_t,t)) 需在所有噪声级别上学会去噪。v-prediction 等参数化可理解为在 SNR 极端区间平衡梯度。

$图 10　信噪比 SNR$(t)$ 随扩散步衰减与 $x_t$ 的信号–噪声分解$

段末注释：EDM 等框架直接在 (\sigma = \sqrt{1-\bar\alpha_t}) 空间调度，与 DDPM 的 (\beta_t) 表等价换元。

11. 得分函数：对数密度的梯度

对概率密度 (p(x))，得分（score）：

[
s(x) = \nabla_x \log p(x) = \frac{\nabla_x p(x)}{p(x)}.
]

几何直觉：在 (x) 处沿 (s(x)) 方向走，到达更高密度区域（「上坡」）。

对条件高斯 (q(x_t\mid x_0))：

[
\nabla_{x_t} \log q(x_t \mid x_0) = -\frac{\epsilon}{\sqrt{1-\bar\alpha_t}},
\quad x_t = \sqrt{\bar\alpha_t},x_0 + \sqrt{1-\bar\alpha_t},\epsilon.
]

故 (\epsilon)-prediction 等价于学习缩放得分；朗之万动力学用得分做 MCMC：

[
x_{k+1} = x_k + \eta, s(x_k) + \sqrt{2\eta},\xi_k.
]

连续时间下得分进入逆向 SDE 漂移项（见 Diffusion-2）。

$图 11　得分函数 $\nabla_x \log p(x)$：密度「上坡」方向与朗之万采样$

12. ELBO：变分下界把生成变成可优化目标

直接最大化 (\log p_\theta(x_0)) 困难（需积分掉 (x_{1:T})）。引入变分分布 (q(x_{1:T}\mid x_0))（前向过程），得证据下界：

[
\log p_\theta(x_0) \geq \underbrace{\mathbb{E}{q}\Big[\log \frac{p\theta(x_{0:T})}{q(x_{1:T}\mid x_0)}\Big]}{\mathcal{L}{\mathrm{VLB}} = \mathrm{ELBO}}.
]

DDPM 展开 ELBO 为：

[
\mathcal{L}{\mathrm{VLB}} = L_T + \sum{t=2}^{T} L_{t-1} - L_0,
]

(L_T = \mathrm{KL}(q(x_T\mid x_0)|p(x_T)))：终态接近标准高斯
(L_{t-1})：每步去噪 KL → MSE on (\epsilon)
(L_0)：最终重建项

(\mathcal{L}_{\mathrm{simple}}) 进一步去掉部分时间权重，只保留 (\mathbb{E}[|\epsilon-\epsilon_\theta|^2])，实践更稳定。

$图 12　ELBO 作为 $\log p(x_0)$ 的可优化下界及其 KL 分解$

13. 概念在系列文章中的嵌入位置

下文 12 个概念在本篇有完整讲解；同一配图与「概念锚点」摘要已同步写入系列正文，便于连贯阅读而无需来回跳转。

概念	配图	Math-0	系列正文嵌入位置
样本空间/事件	fig01	§1	Diffusion-4 §2（离散 (\mathcal{V})）
随机变量	fig02	§2	Diffusion-0 §3；Diffusion-1 §1；Diffusion-5 §3.1
高斯分布	fig03	§3	Diffusion-0 §3；Diffusion-5 §2
条件分布	fig04	§4	Diffusion-1 §4.1；Diffusion-3 §2.2（inpainting）
期望/方差	fig05	§5	Diffusion-0 §3（(\mathbb{E}) 损失）
KL 散度	fig06	§6	Diffusion-1 §4；Diffusion-4 §3
马尔可夫链	fig07	§7	Diffusion-0 §1；Diffusion-1 §2；Diffusion-4 §2
重参数化	fig08	§8	Diffusion-1 §2；Diffusion-2 §2（DSM）
噪声日程	fig09	§9	Diffusion-0 §3；Diffusion-1 §2.1；Diffusion-2 §3
信噪比 SNR	fig10	§10	Diffusion-0 §3；Diffusion-1 §2.1
得分函数	fig11	§11	Diffusion-1 §7；Diffusion-2 §1；Diffusion-3 §3
ELBO	fig12	§12	Diffusion-1 §4

推荐阅读：概率薄弱 → 0 → Math-0 → 1（概念在 0/1 中二次强化）；已读 0/1 → 将 Math-0 作公式手册查阅即可。

13.1 概念–公式速查

概念	核心公式/对象	在 Diffusion 中的角色
样本空间/事件	(\Omega, A\subseteq\Omega)	定义随机结果空间
随机变量	(x_0, x_t, \epsilon)	数据与噪声
高斯分布	(\mathcal{N}(\mu,\sigma^2\mathbf{I}))	前向/逆向转移
条件分布	(q(x_t\mid x_0))	一步加噪闭式
期望	(\mathbb{E}[\cdot])	训练损失平均
KL 散度	(\mathrm{KL}(P\|Q))	ELBO 各项
马尔可夫链	(q(x_t\mid x_{t-1}))	前向/逆向分解
重参数化	(x=\mu+\sigma\epsilon)	训练采样
噪声日程	(\beta_t,\bar\alpha_t)	控制加噪速度
信噪比	(\bar\alpha_t/(1-\bar\alpha_t))	理解不同 (t) 难度
得分函数	(\nabla_x\log p(x))	SDE/DSM
ELBO	(\mathcal{L}_{\mathrm{VLB}})	训练目标来源

14. 生物信息学读者的数值直觉

蛋白质坐标：若 (x_0) 已中心化且各维标准差 (\approx 1)（无量纲化），则 (\beta_t) 与 DDPM 默认表直接可用；若坐标以 Å 计、方差 (\sim 10^2)，需先归一化或重新标定 (\beta_t)。

批量训练：(\mathbb{E}{t,x_0,\epsilon}) 用「随机 (t\in{1,\ldots,T}) + minibatch」估计；(t) 均匀采样意味着各 SNR 级别同等权重（改进版会对 (L{t-1}) 加权）。

离散序列（D3PM）：分布换成分类分布 (\mathrm{Cat})，转移矩阵 (Q_t) 替代 (\beta_t)；集合 (\mathcal{V}) 为碱基/氨基酸字母表——连续高斯直觉仍适用于理解「腐蚀强度随 (t) 递增」。

15. 小结

扩散模型的数学骨架可概括为：马尔可夫链上的高斯条件转移 + 噪声日程控制信噪比 + 重参数化实现可训练采样 + ELBO/KL 将生成转化为 (\epsilon)-prediction MSE + 得分函数连接离散 DDPM 与连续 SDE。掌握本文 12 个概念及示意图，再读系列第 1–2 篇推导时，符号应能一一落地。

段末注释：蒙特卡洛估计指用随机样本均值近似期望，深度学习训练普遍采用。

参考与延伸阅读

Bishop, Pattern Recognition and Machine Learning（概率机器学习基础）.
Ho et al., DDPM（噪声日程与 ELBO）.
Vincent, Denoising Score Matching（得分匹配）.
Song et al., Score-Based SDE（连续时间）.
本系列：Diffusion-0 ~ Diffusion-5.