5003.大模型-架构-MPNN-0.消息传递神经网络

消息传递神经网络（Message Passing Neural Network，MPNN）不是某一种具体网络，而是一类图神经网络（Graph Neural Network，GNN）的抽象骨架：把「图上学习」统一写成邻居之间反复交换局部信息（消息）并在节点上更新状态的迭代过程。许多经典图卷积层（如 GCN、GraphSAGE、GAT）都可以视为 MPNN 的特例或轻微变体；在分子性质预测、知识图谱推理、代码/文档图建模等任务里，MPNN 族模型仍是强基线。大语言模型（Large Language Model，LLM）主干通常是 Transformer 这类序列架构，但 MPNN 提供了理解「局部邻域聚合 + 全局读出」的另一套坐标系，便于把图结构归纳偏置与注意力式动态路由对照起来。

段末注释：GNN 指在图数据上学习的神经网络总称；GCN 为图卷积网络；GraphSAGE 为采样聚合式图网络；GAT 为图注意力网络；Transformer 这里指以自注意力为序列混合核心的模型；LLM 指以自回归或掩码语言建模为主的大规模语言模型。

1. 动机：为什么需要「消息传递」

图由节点与边组成，数据往往不规则：每个节点的度数不同，没有天然的「从左到右」顺序。若强行展平成序列，会丢失对称性与置换不变性（permutation invariance）。MPNN 的核心想法是：每个节点只直接与其一跳邻居交互，通过堆叠多层，间接获得多跳邻域信息；计算在局部并行，适合稀疏图。

2. MPNN 的一般形式（一层）

设无向图 (G=(V,E))，节点 (v) 在第 (t) 层的隐状态为 (\mathbf{h}_v^{(t)})。一层 MPNN 通常拆成三步。

（1）消息（message）
对每条边 ((u,v)\in E)（或按有向图规定方向），由两端状态与边特征构造一条「从 (u) 指向 (v)」的消息：
[
\mathbf{m}_{u\to v}^{(t)} = \mathrm{MSG}^{(t)}\big(\mathbf{h}_u^{(t)},,\mathbf{h}v^{(t)},,\mathbf{e}{uv}\big).
]

（2）聚合（aggregate）
节点 (v) 把来自邻居的消息合成一个向量，常见写法是对邻居集合 (\mathcal{N}(v)) 做求和、均值、最大值等置换不变聚合：
[
\mathbf{a}v^{(t)} = \mathrm{AGG}^{(t)}\Big(\big{\mathbf{m}{u\to v}^{(t)} : u\in\mathcal{N}(v)\big}\Big).
]

（3）更新（update）
把聚合结果与自身状态结合，得到下一层表示：
[
\mathbf{h}_v^{(t+1)} = \mathrm{UPD}^{(t)}\big(\mathbf{h}_v^{(t)},,\mathbf{a}_v^{(t)}\big).
]

堆叠 (T) 层后，**读出（readout）**阶段把节点级表示 ({\mathbf{h}_v^{(T)}}) 汇总为图级向量（例如对全体节点再做一次置换不变聚合后接 MLP），用于图分类等任务。

段末注释：MLP 指多层感知机；置换不变指节点编号重排后，若对输出做同样重排（图级任务则完全不变），模型结果一致。

3. 与常见 GNN 层的对应关系

图卷积网络（Graph Convolutional Network，GCN）：消息常取 (\mathbf{h}_u) 的线性投影并按度数归一化系数加权求和，更新为仿射变换 + 非线性，是典型的「线性消息 + 加权和聚合」。
GraphSAGE：强调邻居采样以控制大规模图的计算量；聚合可用 mean / pool / LSTM 等（LSTM 若对邻居有序则破坏严格置换不变，工程上常用无序聚合）。
图注意力网络（Graph Attention Network，GAT）：消息系数由**注意力（attention）**在邻居上产生，相当于把聚合权重做成输入依赖的软路由。

它们共享同一叙事：局部消息 → 置换不变聚合 → 节点更新；差异主要在 (\mathrm{MSG})、(\mathrm{AGG}) 的具体参数化与可扩展性技巧。

4. 表达能力：MPNN 能「分清」所有图吗？

一般 MPNN 的判别能力与 Weisfeiler–Lehman（WL） 一维颜色精炼测试同阶：若两个图在 WL 测试下不可区分，许多标准 MPNN 也无法区分。这提示了结构性局限（例如某些高度对称但非同构的图）。后续工作通过高阶 WL、子图计数、**结构编码（positional encodings on graphs）**等思路补强；这与 Transformer 在序列上通过位置编码与注意力缓解归纳偏置不足的问题有相似的「加结构信息」味道，但对象从线性序列换成了图。

段末注释：WL 测试是图同构检验的经典近似算法，常用于刻画 GNN 的上界表达能力。

5. 与 Transformer 的对照（直觉）

MPNN：聚合域由图拓扑显式给出，一跳一步，深度对应感受野半径；边缺失则信息不流动。
Transformer（自注意力）：在**全连接（或稀疏化）**的 token 图上，每步让每个 token 向所有 token 发消息，邻域由数据与学习到的相似度决定。

可以把「一层自注意力」看成在完全图上的一类特殊消息传递，但二者默认的先验稀疏结构不同：图任务常强调边即约束；长序列建模则常假设任意位置可能相关并由注意力自适应筛选。

6. 实现与训练时的常见要点

过平滑（oversmoothing）：层数过深时，节点表示趋于相似，区分度下降；可用残差、跳跃连接（Jumping Knowledge）、浅层堆叠加读出、或谱域/正则化等手段缓解。
过挤压（oversquashing）：薄瓶颈处信息难以跨远距离传播，与图直径、曲率等相关；可配合残差边、虚拟节点、 rewiring、或注意力式长程边。
规模：全图批训练需稀疏张量或邻居采样；工业图往往走 GraphSAGE 式小批量训练。

7. 小结

MPNN用「消息—聚合—更新」三步把多数 GNN 层统一在同一形式里，便于分析与扩展；理解它有助于阅读分子模型、知识图谱编码器以及各类「图上的深度学习」论文。若你的主战场是 LLM，可把 MPNN 当作结构化输入通道的参考框架：何时用显式边、何时用全连接注意力，本质是在先验稀疏性与表达灵活性之间做权衡。

段末注释：归纳偏置指架构先验地偏好某类函数或不变性，从而影响样本效率与外推行为。

参考与延伸阅读

Gilmer et al., Neural Message Passing for Quantum Chemistry（MPNN 命名与化学图上的早期系统阐述）.
Xu et al., How Powerful are Graph Neural Networks?（GIN 与 WL 对齐的分析框架）.
Hamilton et al., Inductive Representation Learning on Large Graphs（GraphSAGE）.
Veličković et al., Graph Attention Networks（GAT）.