5003.大模型-架构-DNABERT-0.DNA-RNA预训练模型选型指南

在基因组学与 RNA 生物信息学项目中，预训练嵌入模型（pre-trained embedding model） 往往决定下游微调的上限与算力成本。与蛋白质领域的 ESM 类似，DNA/RNA 语言模型通过在大规模无标注序列上进行自监督预训练，学习核苷酸上下文表示，再迁移到启动子识别、剪接位点预测、变异效应评估、RNA 二级结构预测等任务。

本文聚焦 DNABERT 系列 及与其直接可比的主流 DNA / RNA 基因组基础模型（Genome Foundation Model，GFM），从三个维度展开：训练数据量与组成、分词与预训练目标、模型架构。文末给出面向具体项目的选型决策树与对照表。

段末注释：GFM 指在大规模基因组或转录组序列上预训练、可迁移至多种下游任务的序列表示模型；MLM 指掩码语言建模（Masked Language Modeling），随机遮盖部分 token 并预测被遮盖内容。

1. 总览：模型谱系与时间线

timeline
    title DNA/RNA 预训练模型主要里程碑
    2021 : DNABERT（人类参考基因组 + k-mer）
    2022 : RNA-FM（ncRNA） / HyenaDNA（长上下文单碱基）
    2023 : Nucleotide Transformer / DNABERT-2 / Uni-RNA
    2024 : NT-v2 / Caduceus / GROVER / RiNALMo / Evo
    2025 : DNABERT-S / Evo 1.5

按序列类型与建模目标，可将主流模型分为四类：

类别	代表模型	核心特点
人类/多物种 DNA 短上下文	DNABERT、DNABERT-2、NT、GROVER	BERT 式编码器，512–12 kb 上下文，侧重调控元件与变异
长上下文 DNA	HyenaDNA、Caduceus、Evo	单碱基 token，131k–1M 上下文，SSM/Hyena/Mamba 架构
物种感知 DNA 嵌入	DNABERT-S	在 DNABERT-2 上对比学习，面向聚类与物种鉴定
RNA 专用	RNA-FM、mRNA-FM、RiNALMo	ncRNA / mRNA 语料，结构–功能迁移

2. DNABERT 系列

2.1 DNABERT（v1，2021）

论文：DNABERT: pre-trained Bidirectional Encoder Representations from Transformers model for DNA-language in genome（Ji et al., Bioinformatics 2021）

训练数据

维度	详情
数据来源	人类参考基因组 GRCh38/hg38
数据量	约 27.5 亿（2.75B）碱基
序列切分	非重叠切分 + 随机采样，片段长度 5–510 bp
过滤规则	仅保留 A/T/C/G，去除 N

分词与预训练

分词：重叠 k-mer（$k \in {3,4,5,6}$），滑动窗口 stride = 1；四个变体对应不同词表大小（如 6-mer 约 4096 个 token）。
预训练目标：MLM；因 k-mer 重叠导致信息泄漏，需连续遮盖 $k$ 个 token（前 100k 步 mask 15%，后 20k 步 mask 20%）。
训练规模：120k steps，batch size 2000，8× RTX 2080Ti。

架构

与 BERT-base 完全一致：

参数	值
参数量	~110M
层数	12
隐藏维度	768
注意力头	12
最大输入	512 token（≈ 512 个 k-mer，实际覆盖更短碱基窗口）
位置编码	可学习绝对位置嵌入

主要局限：仅人类参考基因组、重叠 k-mer 样本效率低、512 长度硬限制（DNABERT-XL 扩展效果有限）。

2.2 DNABERT-2（2023/2024，ICLR 2024）

论文：DNABERT-2: Efficient Foundation Model and Benchmark For Multi-Species Genome（Zhou et al.）

训练数据

作者公开两套预训练语料（GUE 基准配套）：

数据集	物种/来源	碱基数	说明
Human	人类参考基因组	2.75B	与 DNABERT v1 相同
Multi-species	135 个物种，6 大类（哺乳动物、鸟类、鱼类、无脊椎动物、植物、真菌等）	32.49B	去除 N，仅 A/T/C/G；约为人类数据的 12 倍

最终模型 DNABERT-2-117M 在 Multi-species 上预训练；预训练 token 数约 262B（500k steps × batch 4096 × max_len 128）。

分词与预训练

分词：BPE（Byte Pair Encoding，字节对编码），词表 4096（$2^{12}$）；非重叠、变长 subword，缓解 k-mer 泄漏与近邻序列表示不一致问题。
预训练目标：标准 MLM（独立 mask 15% token，非 span mask）。
训练配置：max_len 128，AdamW，lr 5e-4（warmup 30k steps），8× RTX 2080Ti，约 14 天。

架构

基于 MosaicBERT 改进的 Transformer 编码器：

参数	值
参数量	117M
层数 / 隐藏维度 / 头数	12 / 768 / 12
词表	4096（BPE）
位置编码	ALiBi（Attention with Linear Biases，线性偏置注意力），支持外推更长序列
效率优化	FlashAttention、低精度 LayerNorm
微调	全参数微调；大模型对比实验中对 NT 使用 LoRA

相对 DNABERT-110M：参数仅增 ~30%，但 FLOPs 约为 1/3；在 GUE 28 个数据集上 23/28 优于 DNABERT。

开源：zhihan1996/DNABERT-2-117M

2.3 DNABERT-S（2024）

论文：DNABERT-S: Learning Species-Aware DNA Embedding（ICLR 2024）

DNABERT-S 不是从头预训练的基因组 LM，而是在 DNABERT-2-117M 权重基础上，用对比学习微调得到物种感知嵌入。训练策略 C²LR（课程对比学习） 的原理与图示见扩展文课程对比学习 C²LR。

训练数据（二阶段）

来源	规模	序列特点
GenBank 参考基因组	病毒 47,923 对；真菌 100 万对；细菌 100 万对	共 204.8 万对，每对为同物种两条 10,000 bp 非重叠片段
训练/验证划分	200 万对训练，4.8 万对验证	—

方法与架构

基础架构：继承 DNABERT-2（117M，BPE，ALiBi）。
C²LR（Curriculum Contrastive Learning，课程对比学习）：分阶段从「同序列不同增强」过渡到「同物种不同序列」。
MI-Mix（Manifold Instance Mixup，流形实例混合）：在隐层混合表示，增强长读长/error-prone 序列鲁棒性。
嵌入提取：所有 token 最后隐层 mean pooling → 128 维物种嵌入。

适用场景：宏基因组物种聚类、物种分类（尤其 few-shot / 无标签）、长读长序列物种鉴定——不是通用调控元件预测的首选。

3. Nucleotide Transformer（NT）系列

论文：Nucleotide Transformer: building and evaluating robust foundation models for human genomics（Dalla-Torre et al., Nature Methods 2024）

3.1 NT v1（2023）

训练数据

变体	预训练语料	碱基/序列规模	预训练 token 数
NT-500M-human	GRCh38 人类参考基因组	3.2B 碱基	~50B tokens
NT-500M-1000g	1000 Genomes 3202 个 phased 人类基因组	20.5T 碱基（含变异；存储为参考 + 12 突变）	~300B tokens
NT-2500M-1000g	同上	同上	~300B tokens
NT-2500M-multi	850 物种（RefSeq，属级采样 + 模式生物）	174B 碱基	~300B tokens

数据预处理：

切分为 6100 bp 重叠窗口（首尾各共享 50 bp），每 epoch 随机偏移 0–100 bp 后取 1000 tokens。
6-mer 非重叠分词：词表 4104（4096 六聚体 + 单碱基 fallback + 特殊 token）。
有效上下文：~6 kb（1000 × 6 bp）。

架构（v1）

变体	参数量	层数	隐藏维度	注意力头	上下文
NT-500M	500M	24	1024	16	6 kb
NT-2500M	2.5B	32	1280	20	6 kb

架构：RoBERTa/BERT 式 Transformer 编码器 + 可学习位置嵌入。
预训练：MLM（15% mask；human/multi 额外 10% 随机替换；1000G 不做随机替换以免噪声超过自然突变率）。
有效 batch：100 万 tokens/step；500M 单节点 1 天，2.5B 全集群 128×A100 约 28 天。

3.2 NT-v2（2024，同论文扩展）

在架构与训练时长上显著升级：

改进项	内容
位置编码	RoPE 替代可学习嵌入
FFN	SwiGLU + 无 bias
上下文	2048 tokens ≈ 12 kb
规模	50M / 100M / 250M / 500M
训练 token	50M/250M 各 300B；250M/500M 最高 1T tokens
性能	NT-v2-500M-12kb 以约 1/5 参数达到或超过 NT-2.5B-multi

开源：InstaDeepAI/nucleotide-transformer-*

4. 其他重要 DNA 基础模型

4.1 HyenaDNA（2023，NeurIPS）

维度	详情
数据	人类参考基因组 HG38；Enformer 训练/验证区间切分
分词	单字符（A/T/C/G + 特殊 token），单碱基分辨率
目标	因果下一碱基预测（decoder-only，非 MLM）
架构	Hyena 算子栈（隐式长卷积 + 门控），非 Transformer 注意力
规模	0.44M–6.6M 参数（2–8 层，width 128–256）；上下文 1k–1M token
训练	10–20k steps；1M 上下文模型约 2T tokens、4 周 8×A100

优势：极长上下文（450k–1M）、参数极小、物种分类等远程依赖任务；劣势：单向、预训练数据仅人类参考基因组，短程调控任务需与 NT/DNABERT-2 对比。

4.2 Caduceus（2024）

维度	详情
数据	人类参考基因组；Enformer 切分，训练段扩展至 2²⁰ = 1,048,576 bp，合计约 35B 碱基
分词	单碱基（character-level）
目标	双向 MLM（Caduceus-PS / Caduceus-Ph）
架构	Mamba / BiMamba + MambaDNA；首个反向互补等变（RC equivariant） DNA LM
规模（预训练）	例：131k 上下文 / 16 层 / hidden 256 / 50k updates
特色	原生支持双链对称；长程任务上可超过 10× 更大的 Transformer

选型提示：需要 双链一致性（变异效应、甲基化相关 CpG）或 100k+ 上下文 的编码器场景优先考虑；与 HyenaDNA 互补（双向 vs 单向）。

4.3 GROVER（2024，Nature Machine Intelligence）

维度	详情
数据	人类基因组，>500 万训练样本
分词	BPE-600（601 个 token + 特殊 token）；通过 next-k-mer 预测内在评估选优
目标	MLM（mask 概率 0.022；max_len 50 token 的短窗口）
架构	BERT：12 层 Transformer 编码器，标准 multi-head attention + FFN
特色	强调词表即生物学——token 频率平衡、重复序列与 CpG 的显式建模；可解释性分析强

局限：输入极短（~50 token），更适合 ** motif / 局部上下文** 分析，而非长程调控。

4.4 Evo（2024，Arc Institute）

维度	详情
数据	OpenGenome：~80,000 细菌/古菌基因组 + 噬菌体/质粒预测序列，约 300B 碱基 token；排除感染真核的病毒
分词	单碱基（byte-level）
目标	因果下一 token 预测；两阶段上下文扩展 8k → 131k
架构	StripedHyena（7B 参数），Hyena + 注意力混合
定位	原核生物分子–基因组尺度生成与设计（CRISPR、转座子等），非人类调控预测首选

5. RNA 预训练模型（训练数据详解）

5.0 先澄清：ncRNA 语料里到底有什么？

多数 RNA 基础模型的预训练语料不是「只训 miRNA」或「只训 siRNA」的专用库，而是从 RNAcentral、Rfam、Ensembl、NCBI nt 等公共库汇总的 混合 ncRNA（有时还混入 mRNA）。论文通常只报告序列条数与去重规则，很少给出按生物类型的精确占比表；RNA-FM 的补充表 1–3 记录的是核苷酸组成与长度分布，而非 miRNA/lncRNA 分项计数。

段末注释：RNAcentral 是整合 50+ 专家库（Expert Database）的 ncRNA 统一入口；Rfam 按 RNA 家族（family）组织序列与协方差模型，覆盖 tRNA、rRNA、miRNA 等经典家族。

5.0.1 RNAcentral 源库与典型 ncRNA 类型（上游组成）

RNAcentral 通过专家库汇入各类 ncRNA。与预训练嵌入直接相关的常见类型及典型来源如下：

ncRNA 类型	生物学角色（简述）	典型专家库 / 注释来源	在预训练中的典型地位
rRNA（核糖体 RNA）	核糖体结构与翻译	SILVA、RDP、RefSeq	条数占比往往最高（管家 RNA、拷贝数大）
tRNA（转运 RNA）	氨基酸转运	GtRNAdb、RefSeq	同上，短序列、数量多
miRNA（微 RNA）	转录后基因调控	miRBase、MirGeneDB	含 pre-miRNA 与成熟 miRNA，条数少于 rRNA/tRNA
lncRNA（长非编码 RNA）	染色质、转录、剪接调控等	GENCODE/Ensembl、NONCODE、lncRNAdb、EVlncRNAs	序列长、异质性大；人类基因层面数量多
snRNA（小核 RNA）	剪接体	Rfam、RefSeq	中等规模
snoRNA（小核仁 RNA）	rRNA 修饰	snoDB、Rfam	中等规模
piRNA（PIWI 结合 RNA）	转座子沉默等	piRNAdb	相对专门化
siRNA（小干扰 RNA）	RNAi 通路、实验设计	多为实验条目或间接注释	并非 RNAcentral 主流量；条数远小于 rRNA/tRNA/miRNA
tmRNA、SRP RNA、ribozyme 等	翻译 rescue、蛋白定位、催化	tmRNA Website、Rfam、Ribocentre	RiNALMo 等通过 Rfam 显著加强

RNAcentral 官方检索 facet 与教程均指出：全库序列检索中，rRNA 与 tRNA 往往占绝大多数；miRNA、lncRNA 等调控类 RNA 条数较少但功能研究集中。因此，将 RNA-FM/RiNALMo 称为「miRNA 模型」或「siRNA 模型」不准确——它们是 广谱 ncRNA 语言模型，只是在下游任务上常用于 miRNA 靶标、lncRNA 功能等场景。

5.0.2 各模型语料范围对照（是否纯 ncRNA）

模型	是否仅 ncRNA	是否含 mRNA/CDS	类型是否人工平衡
RNA-FM	是（声明仅 ncRNA）	否	否（保持 RNAcentral 自然比例）
RiNALMo	是	否（Ensembl 取 ncRNA 相关条目）	否（聚类保证 batch 多样性）
Uni-RNA	否	是（明确含 coding + non-coding）	否（MMseqs2 去冗余）
mRNA-FM	否（专训 mRNA）	是	—
RNABERT	人类 ncRNA 子集	否	否

5.0.3 siRNA 与 miRNA：选型时怎么理解？

分子	是否在预训练语料中	对嵌入选型的含义
miRNA	有，经 miRBase/MirGeneDB 等进入 RNAcentral；RNA-FM 在 RNA Atlas 中单独可视化 miRNA 簇	预测 pre-miRNA 结构、成熟体加工、靶基因相关任务时，RNA-FM/RiNALMo 可用，但语料并非 miRNA 专用
siRNA	有少量（RNA-FM 论文在「调控 RNA」类群中列出 siRNA，说明库中存在该类序列）	没有主流模型在 siRNA 专用库上预训练；siRNA 设计/脱靶更常需微调或专用模型，不要默认 RNA-FM 等价于「siRNA 嵌入」
shRNA / 合成寡核苷酸	通常不在公共 ncRNA 库	需自建语料或任务微调

5.1 RNA-FM（2022）与 RNAcentral100

数据来源与构建流程

步骤	说明
原始库	RNAcentral（论文写作时约 2700 万条，整合 47 个专家库）
字母表	全序列 T→U；支持 IUPAC 兼并碱基（共 16 种 token 类型 + 特殊符号）
去冗余	CD-HIT-EST，相似度阈值 100%（仅去完全相同序列）
最终语料	RNAcentral100：23.7M 条独特 ncRNA
训练截断	最大长度 1024 nt（更长序列在训练时被截断，以控制显存与 batch）
类型标注	未按 miRNA/lncRNA 分层采样；保持数据库自然组成

预训练语料包含的 ncRNA 类型（论文实证）

RNA-FM 在 RNA Atlas 分析中，按功能/结构将 RNAcentral100 中的类型显式分组（每类最多抽 1 万条做 UMAP），证明模型能区分：

分组	包含类型
管家 RNA（housekeeping）	rRNA、tRNA
调控 RNA（regulatory）	lncRNA、snoRNA、miRNA、siRNA、snRNA、piRNA
长链 ncRNA（长度 $>200$ nt）	rRNA、tmRNA 等
短链 ncRNA（长度 $\leq 200$ nt）	tRNA、sncRNA（小 ncRNA 总称）等

论文结论：嵌入空间主要按结构与功能聚类，而非单纯按长度；lncRNA 嵌入还可用于演化轨迹推断（VIA 伪时间）。

段末注释：sncRNA（small ncRNA）是小 ncRNA 总称，可涵盖 miRNA、siRNA 等短链分子，与 lncRNA 相对。

架构与训练（摘要）

维度	详情
架构	BERT 编码器：12 层 / 640 维 / 20 头；~99M 参数
目标	MLM（15% mask；80% [MASK] / 10% 随机 / 10% 保持）
算力	8× A100-80GB，约 1 个月

任务匹配：ncRNA 二级结构、3D 接触、lncRNA 相关分析、病毒基因组片段（如 SARS-CoV-2 UTR）——不适合直接当作纯 siRNA 设计 或 mRNA 密码子优化 的默认嵌入（后者见 mRNA-FM）。

5.2 mRNA-FM（2024，RNA-FM 生态）

维度	详情
数据	4500 万（45M）条 mRNA（信使 RNA，非 ncRNA）
与 RNA-FM 关系	独立语料、更大隐藏维；针对 CDS/UTR、表达与翻译调控
架构	12 层 / 1280 维；~239M 参数

做 miRNA/siRNA/lncRNA 任务时不要与 RNA-FM 混用权重。

5.3 Uni-RNA（2023）

数据来源

来源	内容
RNAcentral	ncRNA（与 RNA-FM 同源，但未限制为 23.7M 子集）
NCBI nt	核酸综合库（含基因组片段、多种注释）
GWH（国家基因组科学数据中心等）	基因组相关 RNA
图示中另有	MG-RAST、MGnify 等宏基因组/环境 RNA 来源

处理	说明
长度过滤	剔除 >4096 nt
去冗余	MMseqs2 聚类
规模	约 10 亿（1B）条「有效」序列
类型	论文明确：coding + non-coding 混合，含 miRNA、lncRNA、snRNA 等，不是纯 ncRNA 模型

| 架构 | 25M–400M（L8–L24）；RoPE + Flash Attention；最大输入 1024 |

公开性：权重未完全开放，复现与合规需单独评估。

5.4 RiNALMo（2024，Nature Communications）

四库混合与预处理

数据源	版本/说明	主要贡献的类型
RNAcentral	论文使用 release 22.0 FASTA	全谱 ncRNA（rRNA、tRNA、miRNA、lncRNA 等，比例随 RNAcentral 自然分布）
Rfam	`Rfam.fa`（CURRENT）	家族级 ncRNA：tRNA、rRNA、miRNA、snRNA、snoRNA、ribozyme、tmRNA 等（$>2600$ 家族）
NCBI nt	BLAST nt FASTA	大规模核酸序列；经长度与去重筛选后进入语料
Ensembl	基因组注释 RNA	注释转录本中的 ncRNA（lncRNA、misc_RNA 等）

预处理步骤	参数
长度	保留 16–8192 nt
去重	seqkit rmdup
聚类	MMseqs2 easy-linclust，`--min-seq-id 0.7`，`-c 0.8`
最终	36M 独特序列 → 17M 簇；每 epoch 每簇采样 1 条以保证 batch 多样性
碱基	全库 U→T（与 BERT 词表一致）

论文未公布 36M 中 miRNA/lncRNA/rRNA 各占多少；相较 RNA-FM，RiNALMo 通过 Rfam + Ensembl 增强了家族结构化与真核注释 lncRNA，对 未见 Rfam 家族 的二级结构泛化更好（论文核心 claim）。

架构与训练（摘要）

维度	详情
架构	33 层 / 1280 维 / 20 头；650M（giga）；RoPE + SwiGLU + FlashAttention-2
目标	MLM（6 epochs，batch 1344，7×A100-80GB）

5.5 其他 RNA 模型（数据侧补充）

模型	训练数据与 ncRNA 类型	备注
RNABERT（2022）	人类 RNAcentral 子集 ~76.2 万条	6 层小模型；非 23.7M 规模
ERNIE-RNA	大规模 RNA + 结构对齐	显式引入二级结构，不仅序列
RNA-MSM	多序列比对（MSA）进化信息	依赖同源序列，非纯单序列 LM
UTR-LM	mRNA 5’/3’ UTR	调控区，不是 miRNA/siRNA
CodonBERT / CaLM	CDS / cDNA	蛋白编码链，与 ncRNA 正交
SpliceBERT	pre-mRNA（脊椎动物）	剪接，不是小 RNA 专用
OpenRNA / EVA（2025 前后）	1.14 亿条全类型 RNA（显式标注 mRNA、lncRNA、miRNA、rRNA、tRNA、snoRNA、snRNA、piRNA、circRNA 等）	新一类「全生物型」语料，可参考其类型统计做基准

5.6 ncRNA 类型 → 推荐嵌入模型（速查）

你的序列类型	优先预训练模型	注意
miRNA / pre-miRNA	RNA-FM、RiNALMo	语料含 miRBase，但混合大量 rRNA/tRNA；长 pre-miRNA 注意 1024 nt 截断
lncRNA	RNA-FM、RiNALMo	RiNALMo+Ensembl 对长链更友好；超长需滑窗池化
tRNA / rRNA	RNA-FM、RiNALMo	与预训练分布最一致，零样本往往较稳
siRNA / shRNA（实验设计）	需微调或专用工具	勿默认 RNA-FM 即 siRNA 专家
未知 ncRNA / 新家族	RiNALMo（强调家族泛化）	结构任务优先 RiNALMo
mRNA UTR / CDS / 表达	mRNA-FM、Uni-RNA（含 coding）	不用 RNA-FM
剪接位点	RiNALMo、SpliceBERT、NT（DNA 侧）	任务决定用 RNA 还是 DNA 模型

6. 横向对比总表

6.1 DNA 模型

模型	参数量	预训练碱基规模	物种/数据组成	分词	架构	上下文	预训练目标	开源
DNABERT	~110M	2.75B	人类 hg38	重叠 3–6-mer	BERT-12L	~512 tok	MLM span	✓
DNABERT-2	117M	32.49B	135 物种	BPE-4096	BERT+ALiBi+Flash	128 tok（可外推）	MLM	✓
DNABERT-S	117M+	204.8 万对×10kb	病毒/真菌/细菌	同 DNABERT-2	+对比学习	10k bp 输入	对比	✓
NT-500M-human	500M	3.2B	人类	6-mer	Transformer	6 kb	MLM	✓
NT-500M-1000g	500M	3.2B ref + 3202 人	人类多样性	6-mer	Transformer	6 kb	MLM	✓
NT-2500M-multi	2.5B	174B	850 物种	6-mer	Transformer-32L	6 kb	MLM	✓
NT-v2-500M	500M	同 multi	850 物种	6-mer	RoPE+SwiGLU	12 kb	MLM	✓
HyenaDNA	0.4–6.6M	hg38	人类	单碱基	Hyena 卷积	1M	下一碱基	✓
Caduceus	~1–10M 级	~35B	人类	单碱基	Mamba/BiMamba	131k	MLM	✓
GROVER	BERT-12L	人类全基因组	人类	BPE-600	BERT	~50 tok	MLM	✓
Evo-1	7B	300B	原核+噬菌体	单碱基	StripedHyena	131k	下一 token	✓

6.2 RNA 模型

模型	参数量	序列数	语料类型组成（摘要）	主要来源	最大长度	典型下游
RNA-FM	99M	23.7M	纯 ncRNA；含 rRNA/tRNA/miRNA/lncRNA/siRNA 等自然混合	RNAcentral100	1024 nt	结构、3D 接触、lncRNA
mRNA-FM	239M	45M	仅 mRNA	mRNA 专用库	1024 nt	UTR、表达、CDS
Uni-RNA	25–400M	1B	coding + ncRNA 混合	RNAcentral+nt+GWH 等	4096 nt（训练过滤）	结构/功能（权重受限）
RiNALMo	650M	36M	纯 ncRNA；RNAcentral+Rfam+nt+Ensembl	四库合并+MMseqs2	8192 nt（训练上限）	结构、剪接、MRL/TE
RNABERT	0.5M	~0.76M	人类 ncRNA 子集	RNAcentral	440 nt	早期基准

7. 项目选型指南

7.1 按任务类型

flowchart TD
    A[确定序列类型与任务] --> B{DNA 还是 RNA?}
    B -->|RNA| R1{需要 mRNA 还是 ncRNA?}
    R1 -->|miRNA/lncRNA/结构| R2[RiNALMo / RNA-FM]
    R1 -->|siRNA 设计/脱靶| R4[需微调或专用模型]
    R1 -->|mRNA 表达/UTR| R3[mRNA-FM / UTR-LM]
    B -->|DNA| D1{上下文要多长?}
    D1 -->|≤ 512 bp 调控元件| D2[DNABERT-2 / NT-v2-500M]
    D1 -->|6–12 kb 增强子/剪接| D3[NT-v2 / NT-2.5B-multi]
    D1 -->|≥ 100 kb 远程调控| D4[Caduceus / HyenaDNA]
    D1 -->|物种聚类/宏基因组| D5[DNABERT-S]
    D1 -->|原核基因组设计/生成| D6[Evo]
    D1 -->|局部 motif 可解释| D7[GROVER / DNABERT-6mer]

7.2 按资源约束

约束	推荐	理由
单卡 24GB，快速微调	DNABERT-2-117M	117M 参数 + 全参数微调可行；GUE 上接近 NT
单卡 24GB，需 6kb+	NT-v2-50M/100M + LoRA	更小 NT-v2 + 参数高效微调
多卡 A100，追求 SOTA	NT-v2-500M 或 NT-2.5B-multi	人类变异 / 跨物种调控
极低算力嵌入提取	HyenaDNA-tiny（0.44M）	推理轻量；适合长序列池化嵌入
无 GPU 批量推理	DNABERT-2 / RNA-FM	社区工具链成熟（HuggingFace）

7.3 按数据域匹配（避免分布偏移）

你的数据	优先匹配预训练域	谨慎使用
人类 SNP/调控变异	NT-1000g、NT-v2-human/multi	仅 hg38 的 DNABERT v1
多物种保守元件	NT-multi、DNABERT-2 multi-species	GROVER（仅人类）
细菌/噬菌体 CRISPR	Evo-1	一切真核预训练模型
病毒/真菌/细菌分类	DNABERT-S	通用 MLM 模型（无物种约束）
lncRNA / ribozyme	RiNALMo、RNA-FM	mRNA-FM
miRNA / pre-miRNA	RNA-FM、RiNALMo	专用 siRNA 库训练的模型（公共 LM 非专用）
siRNA / shRNA 设计	任务微调 RNA-FM 或专用工具	直接零样本 RNA-FM（语料中 siRNA 占比极低）
密码子优化 / CDS	mRNA-FM、CodonBERT	ncRNA 专用模型

7.4 嵌入提取实践要点

池化策略：调控任务常用 [CLS] 或 mean pooling；DNABERT-S 明确使用 mean pooling。长序列可考虑 滑动窗口 + 平均。
链方向：非 RC 等变模型（DNABERT-2、NT）建议 正链 + 反向互补双路推理再融合；Caduceus-PS 原生支持。
分词一致性：微调与推理必须使用同一 tokenizer；k-mer 与 BPE 不可混用权重。
进一步预训练：DNABERT-2 论文显示，在下游任务训练集上做 continued MLM 对部分任务有效，但非普适增益。
评估基准：DNA 建议 GUE / GenomicBenchmarks / NT 下游 18 任务；RNA 建议 ArchiveII、TS0、SpliceSite 等。

8. 总结与趋势

分词演进：重叠 k-mer → 非重叠 6-mer → BPE / 单碱基，样本效率与远程对齐能力逐步提升。
数据演进：人类参考基因组 → 1000 Genomes 人群多样性 → 850 物种 / 135 物种 多物种；原核 OpenGenome 开辟独立赛道。
架构演进：纯 BERT 编码器 → ALiBi / RoPE 长上下文 → Hyena / Mamba / StripedHyena 亚二次复杂度；双向 MLM 与因果生成并存。
选型核心原则：预训练域 ⊇ 应用域 优先于单纯追大参数；短程调控 DNABERT-2 / NT-v2 性价比最高；长程与生成 Caduceus / HyenaDNA / Evo 分工明确；RNA RiNALMo 正成为 ncRNA 新默认，RNA-FM 仍是轻量首选。

参考文献与资源

模型	论文	代码/权重
DNABERT	Bioinformatics 2021	jerryji1993/DNABERT
DNABERT-2	ICLR 2024 / arXiv:2306.15006	MAGICS-LAB/DNABERT_2
DNABERT-S	ICLR 2024 / arXiv:2402.08777	MAGICS-LAB/DNABERT_S
Nucleotide Transformer	Nature Methods 2024	InstaDeepAI/nucleotide-transformer
HyenaDNA	NeurIPS 2023	HazyResearch/hyena-dna
Caduceus	ICML 2024	kuleshov-group/caduceus
GROVER	Nat. Mach. Intell. 2024	见论文补充材料
Evo	Science 2024 / bioRxiv	evo-design/evo
RNA-FM	arXiv:2204.00300	ml4bio/RNA-FM
RiNALMo	Nat. Commun. 2025	lbcb-sci/RiNALMo

文档版本：2026-05；数据与参数量均来自原始论文及 HuggingFace 模型卡，部署前请核对最新 checkpoint。