RAG-01.数据切分框架概述

背景与边界

数据切分(Chunking)是 RAG 流程入口。该节点将原始文档转成可检索语义单元,直接决定召回(Retrieval)上限。

要完成的工作

  • 输入:Markdown、PDF、网页、表格、OCR 文本。
  • 处理:清洗、解析、切分、重叠、元数据补充、版本管理。
  • 输出:标准 Chunk(chunk_iddoc_idtextmetadata)。

实现目标

  • 提升召回可达性与语义完整性。
  • 控制 chunk 总量与平均长度。
  • 支持增量更新与可追踪回溯。

主要难点

  • 固定窗口易截断语义,过大又会引入噪声。
  • 多格式文档结构不一致。
  • 版本变更导致 chunk 漂移。

成熟解决方案

  • 结构优先切分(标题、段落、表格边界)。
  • 语义切分(相似度判边界)。
  • 层级切分(父子 Chunk 联合)。
  • 离线评测门禁后上线。

二级方法对比(含 100 篇生物学文献量级)

假设(全文同):约 100 篇生物学 PDF(期刊/预印本,约 10–15 页/篇,含摘要、正文、图表与参考文献);离线批处理;硬件参考 单卡 NVIDIA A10 24GB + 32GB 系统内存。下表为工程量级估算,非固定基准;生物领域常见 双栏、插图、化学式与密集引用,解析与切分偏「偏重」。

二级方法 适用范围 特点 100 篇文献·资源消耗(估算) 100 篇文献·时间消耗(估算)
Chunking-centric 版式已规整、需统一 chunk 策略 以切分/重叠策略拉齐召回上限,常配合离线 recall 评测 内存 8–16 GB;磁盘增量约 0.5–1.5 GB可不使用 GPU 多策略网格 + 同一批评测问句:约 0.5–2 CPU·h
Document Parsing 扫描件、双栏、表格/公式/插图多 版面、阅读顺序、表格结构先于切分,决定下游上限 内存 16–32 GB;临时磁盘 10–25 GB;可选 GPU 8 GB(布局/检测加速) 解析 + OCR + 表格:约 3–10 CPU·h,或 1–4 GPU·h(视工具与是否批处理)
Hierarchical Chunking 长篇综述、章节层级明显 父子 chunk 联合检索,粗到细两级 索引体积约为扁平策略 1.2–1.8×;内存 +15–30% 建库较同语料扁平切分:约 +30%–70% 离线时间

与二级文档映射

-------------本文结束感谢您的阅读-------------