5003.LLM概念解析-0.系列导读

阅读 5003.大模型-架构DeepSeek 概述 时,常会碰到一笔带过的术语——例如「专家坍缩」「过平滑」「归纳偏置」。架构文侧重系统与公式,本系列则专注单个概念:用短篇幅讲清「是什么、为什么、何时遇到、怎么办、和相近词有何不同」。

段末注释:本系列与「架构/算法长文」互补,不重复完整推导;需要公式与实现细节时请回到对应专题。

插图约定:科普动漫风示意,位于 5003.LLM概念解析/;每篇结构尽量统一,便于检索与后续追加。


1. 每篇固定结构

章节 内容
直观解释 比喻 + 最小必要定义
背后原因 机制/数学/训练动力学
出现场景 何时需要警惕
解决方案 工业界常见做法与权衡
近似概念对照 易混淆术语异同
延伸阅读 本目录架构文 + 论文

2. 已收录概念

编号 概念 文件 关联架构文
01 专家坍缩(Expert Collapse) 01.专家坍缩 DeepSeek-0范式综述 §MoE
02 过平滑(Oversmoothing) 02.过平滑 MPNN-0范式综述 §GNN

3. 待补充(规划)

以下概念可在阅读主线文档时按需追加为本系列条目:

  • 模式坍缩(Mode Collapse)
  • 过平滑(Oversmoothing,GNN) → 已收录 02
  • 过挤压(Oversquashing)
  • 归纳偏置(Inductive Bias)
  • KV Cache / 上下文长度外推
  • 蒸馏(Distillation)vs 量化(Quantization)

欢迎在实际项目中遇到「查架构文仍不懂」的词条时,指定编号与概念名继续扩展。


4. 与 Diffusion 数学补充的关系

系列 侧重
LLM 概念解析(本系列) 通用 LLM/MoE/训练 术语,短文
Diffusion-Math-0 扩散模型专用概率论基础
Diffusion-Example-0 连续 DDPM 2 维手算
Diffusion-Example-1 蛋白序列 MASK 离散扩散手算
大模型-架构-* 完整系统、公式与选型

三者可交叉引用,互不替代;Example-0/1 为可手算数值例题。

-------------本文结束感谢您的阅读-------------