5003.LLM概念解析-02.过平滑

过平滑（Oversmoothing） 是 图神经网络（Graph Neural Network，GNN） / 消息传递神经网络（Message Passing Neural Network，MPNN） 堆叠层数过多时出现的一类表示退化：经多轮「邻居聚合—更新」后，不同节点的嵌入向量趋于相似，图上的区分度（discriminability） 下降，节点分类、图分类、分子性质预测等下游任务性能变差。直观上说，所有节点被「抹成同一灰色」——并非梯度消失那么简单，而是消息传递算子反复作用带来的低通滤波效应。

段末注释：GNN 在图结构数据上通过邻居交换信息学习表示；MPNN 将其抽象为消息—聚合—更新三步；嵌入（embedding） 即节点/图的连续向量表示。

系列导读：5003.LLM概念解析-0.系列导读
关联架构：MPNN-0 §6、范式综述 §GNN

插图：5003.LLM概念解析/concept-fig04~06*.png

1. 直观解释

1.1 比喻

把图上的消息传递想象成颜料在清水里扩散：

1–2 层：每个节点只与直接邻居混色，红、蓝、绿节点仍可分辨——学到局部化学环境、一级邻居类型。
很多层以后：颜色经全图多跳路径不断平均，最终整图节点变成同一色调——模型无法回答「这个碳原子与那个氮原子有何不同」。

这与扩散模型里的「前向加噪」不同：过平滑是 GNN 层数过深 导致的表征坍缩，不是生成式噪声日程。

1.2 最小定义

设第 (t) 层节点 (v) 的表示为 (h_v^{(t)})。理想情况下，对非同构或不同属性的节点 (u, v)，(|h_u^{(t)} - h_v^{(t)}|) 应反映结构/特征差异。过平滑指存在层数 (T)，当 (t \geq T) 时：

[
\frac{1}{|V|}\sum_{v \in V} h_v^{(t)} \approx \bar{h}, \quad \text{且各 } h_v^{(t)} \text{ 两两余弦相似度} \to 1.
]

即：节点表示收敛到几乎相同的子空间，失去类间可分性。

图 1　浅层 GNN 节点可区分 vs 深层过平滑后节点表示趋同

2. 背后的原因

2.1 重复邻域平均 = 图上的低通滤波

多数 GNN（GCN、GraphSAGE 均值聚合）一层更新近似：

[
h_v^{(t+1)} = \sigma\Big(W^{(t)} \cdot \mathrm{AGG}_{u \in \mathcal{N}(v)} h_u^{(t)}\Big).
]

无自环或弱自环时，这类似对节点信号做拉普拉斯平滑——高频（节点间差异大的）分量被抑制，低频（全局常数/缓慢变化）分量保留。层数 (t\uparrow) 等价于多次应用低通滤波器，终态趋近拉普拉斯主特征向量方向，节点特征无法区分。

2.2 与图热扩散的类比

连续图上热方程 (\frac{\partial u}{\partial t} = \Delta u) 随时间抹平温度差。离散消息传递在连通图上具有类似动力学：(t) 层 (\approx) 扩散 (t) 步，全图节点趋于平衡态。

2.3 层数 vs 图直径 / 连通度

直径小、连通密的图（如小分子、高度社交图）：过平滑更早出现，有时 4–8 层已明显。
直径大、稀疏图：需更多层才平滑，但此时可能先遇到 过挤压（oversquashing）（远距离信息传不过来）——二者常此消彼长。

2.4 同质性（Homophily）加剧

若相连节点本已相似（「物以类聚」），聚合进一步放大相似、消减差异；分子图中同一官能团内原子本身特征接近，深层 GNN 更易「糊成一片」。

图 2　过平滑成因：重复平均、低通滤波、热扩散与层数–拓扑关系

3. 出现的场景

场景	典型图	表现	如何察觉
分子性质预测	原子为节点、键为边	深 GNN 验证集先升后降	扫层数 (T=2,4,8,16) 画 learning curve
蛋白质接触图 / 口袋	残基或原子图	结合位点 vs 非位点节点难区分	可视化节点 embedding（t-SNE 聚成一团）
知识图谱嵌入	实体关系图	深层 MPNN link prediction 退化	对比浅层 vs 深层 hits@K
单细胞 / 空间转录组	kNN 细胞图	聚类边界模糊	与浅层 GCN baseline 对比
读 MPNN/GNN 论文	—	「deeper is not always better」	见 MPNN-0 §6

LLM 主栈通常不直接谈 oversmoothing——Transformer 全连接注意力不是局部拉普拉斯平滑。但若做 分子 + GNN、AlphaFold 式 pair track 或 知识图谱 + LLM，仍会碰到；亦勿与 MoE 专家坍缩混淆（见 §5）。

4. 解决方案

4.1 残差连接与初始连接（Residual / Initial Connection）

做法：(h_v^{(t+1)} = h_v^{(t)} + \Delta h_v^{(t)}) 或 concat 初始特征 (x_v)。
原理：保留节点自身信息与浅层信号，减缓被邻居平均掉。
代表：GCNII、许多工程实现默认加 residual。

4.2 Jumping Knowledge（JK）

做法：不只用最后一层 (h^{(T)})，而拼接或注意力融合 ({h^{(1)},\ldots,h^{(T)}}) 再读出。
原理：浅层保留局部、高层保留全局，避免「只取已平滑的最深层」。

4.3 控制深度 + 早停层数

做法：分子任务常 3–5 层 即够；用验证集选 (T)。
优点：最简单；SchNet、DimeNet 等化学模型层数受限 partly 因此。

4.4 归一化与去平滑正则（PairNorm、GroupNorm 等）

做法：PairNorm 等显式约束节点间平均距离，对抗表示坍缩。
场景：必须较深 GNN 时的训练稳定手段。

4.5 DropEdge / 随机删边

做法：训练时随机 drop 边，降低有效连通度，减缓扩散速度。
权衡：正则化效果；推理时用完整图。

4.6 注意力与自适应聚合（GAT）

做法：邻居权重由数据学习，而非固定均匀平均。
效果：不能完全消除过平滑，但可减轻「无脑平均」；极深仍可能平滑。

4.7 虚拟节点 / 全局读出（Virtual Node, Set2Set）

做法：加超级节点连所有节点，或图级 pooling 早提取全局信息，节点层不必极深。
生物例子：分子图分类常用 Set2Set + 浅层 MPNN。

4.8 图重写（Rewiring）、长程边

做法：加 virtual edges、positional encoding、Graph Transformers 跳局部瓶颈——更常解决 oversquashing，但与过平滑一并考虑图深度设计。

4.9 与 Transformer 混合

做法：浅 GNN 提取局部几何 + Transformer 做长程（分子 Graphormer、蛋白 EGNN + attention）。
直觉：把「易过平滑的深局部堆叠」换成「浅 GNN + 全局注意力」。

图 3　过平滑缓解方案与近似概念对照

5. 近似概念的异同

概念	英文	对象	核心问题	与过平滑关系
过平滑	Oversmoothing	GNN 节点表示	层数↑ → 节点 embedding 趋同	本文主题
过挤压	Oversquashing	GNN 信息流动	瓶颈处远程依赖无法传入	互补问题：浅层传不远，深层却平滑；见 MPNN-0 §6
欠达（Underreaching）	Underreaching	GNN 感受野	层数不足，覆盖不了远距离	与过平滑相反方向（太浅 vs 太深）
表示坍缩	Representation Collapse	对比学习	所有样本 embedding 趋同	机制不同（InfoNCE/增广），非图专属
专家坍缩	Expert Collapse	MoE 路由	少数专家垄断 token	发生在 router，见概念解析-01
模式坍缩	Mode Collapse	GAN 生成	输出多样性丧失	对抗训练 pathology
Transformer 过平滑	—	部分 ViT/长序列文献	token 表示趋同	名词借用，机制是自注意力深度；与 GNN 理论不完全相同

记忆口诀：

太深 + 图 + 节点长得一样 → 过平滑；
太远 + 图 + 传不过去 → 过挤压；
太浅 + 图 + 够不着 → 欠达；
MoE + 专家闲着 → 专家坍缩。

6. 生物信息学读者需要关心吗？

需要，若你的 pipeline 含 GNN/MPNN：

小分子/QM9/Drug 性质：SchNet、MPNN、EGNN 层数不宜盲目加深；
蛋白界面、接触图：深层 GCN 可能抹平结合位点信号；
知识图谱 + 实体链接：深 MPNN 需 JK/残差。

通常不需要，若仅使用 ESM / DNABERT / LLM API 而不建图模型——过平滑不在 Transformer 主线词汇里。

实践建议：从 (T=3\sim 5) 起扫；监控验证集与 节点 embedding 方差；深模型优先加 residual + JK，而非单纯加层。

7. 小结

维度	要点
是什么	深层消息传递使节点表示趋同，区分度下降
为什么	重复邻域平均 ≈ 图低通滤波 / 热扩散收敛
何时	深 GNN、密图、分子/知识图谱、读 MPNN 文献时
怎么办	浅层、残差、JK、PairNorm、DropEdge、虚拟节点、GNN+Transformer
别混淆	过挤压、欠达、表示坍缩、专家坍缩

段末注释：WL 测试（Weisfeiler–Lehman）常用来刻画 GNN 表达力上界；过平滑是优化/深度层面的训练现象，与 WL 表达力正交。

参考与延伸阅读

Li et al., Deeper Insights into Graph Convolutional Networks for Semi-Supervised Learning（过平滑早期分析）.
Xu et al., Representation Learning on Graphs with Jumping Knowledge Networks（JK）.
Chen et al., Simple and Deep Graph Convolutional Networks（GCNII 残差）.
Topping et al., Understanding Over-Squashing and Bottlenecks on Graphs（过挤压）.
本目录：MPNN-0、概念解析-01 专家坍缩.