5003.大模型-架构-DNABERT-0.DNA-RNA预训练模型选型指南

在基因组学与 RNA 生物信息学项目中,预训练嵌入模型(pre-trained embedding model) 往往决定下游微调的上限与算力成本。与蛋白质领域的 ESM 类似,DNA/RNA 语言模型通过在大规模无标注序列上进行自监督预训练,学习核苷酸上下文表示,再迁移到启动子识别、剪接位点预测、变异效应评估、RNA 二级结构预测等任务。

本文聚焦 DNABERT 系列 及与其直接可比的主流 DNA / RNA 基因组基础模型(Genome Foundation Model,GFM),从三个维度展开:训练数据量与组成分词与预训练目标模型架构。文末给出面向具体项目的选型决策树与对照表。

段末注释:GFM 指在大规模基因组或转录组序列上预训练、可迁移至多种下游任务的序列表示模型;MLM 指掩码语言建模(Masked Language Modeling),随机遮盖部分 token 并预测被遮盖内容。


1. 总览:模型谱系与时间线

1
2
3
4
5
6
7
timeline
title DNA/RNA 预训练模型主要里程碑
2021 : DNABERT(人类参考基因组 + k-mer)
2022 : RNA-FM(ncRNA) / HyenaDNA(长上下文单碱基)
2023 : Nucleotide Transformer / DNABERT-2 / Uni-RNA
2024 : NT-v2 / Caduceus / GROVER / RiNALMo / Evo
2025 : DNABERT-S / Evo 1.5

序列类型建模目标,可将主流模型分为四类:

类别 代表模型 核心特点
人类/多物种 DNA 短上下文 DNABERT、DNABERT-2、NT、GROVER BERT 式编码器,512–12 kb 上下文,侧重调控元件与变异
长上下文 DNA HyenaDNA、Caduceus、Evo 单碱基 token,131k–1M 上下文,SSM/Hyena/Mamba 架构
物种感知 DNA 嵌入 DNABERT-S 在 DNABERT-2 上对比学习,面向聚类与物种鉴定
RNA 专用 RNA-FM、mRNA-FM、RiNALMo ncRNA / mRNA 语料,结构–功能迁移

2. DNABERT 系列

2.1 DNABERT(v1,2021)

论文DNABERT: pre-trained Bidirectional Encoder Representations from Transformers model for DNA-language in genome(Ji et al., Bioinformatics 2021)

训练数据

维度 详情
数据来源 人类参考基因组 GRCh38/hg38
数据量 27.5 亿(2.75B) 碱基
序列切分 非重叠切分 + 随机采样,片段长度 5–510 bp
过滤规则 仅保留 A/T/C/G,去除 N

分词与预训练

  • 分词:重叠 k-mer($k \in {3,4,5,6}$),滑动窗口 stride = 1;四个变体对应不同词表大小(如 6-mer 约 4096 个 token)。
  • 预训练目标:MLM;因 k-mer 重叠导致信息泄漏,需连续遮盖 $k$ 个 token(前 100k 步 mask 15%,后 20k 步 mask 20%)。
  • 训练规模:120k steps,batch size 2000,8× RTX 2080Ti。

架构

BERT-base 完全一致:

参数
参数量 ~110M
层数 12
隐藏维度 768
注意力头 12
最大输入 512 token(≈ 512 个 k-mer,实际覆盖更短碱基窗口)
位置编码 可学习绝对位置嵌入

主要局限:仅人类参考基因组、重叠 k-mer 样本效率低、512 长度硬限制(DNABERT-XL 扩展效果有限)。


2.2 DNABERT-2(2023/2024,ICLR 2024)

论文DNABERT-2: Efficient Foundation Model and Benchmark For Multi-Species Genome(Zhou et al.)

训练数据

作者公开两套预训练语料(GUE 基准配套):

数据集 物种/来源 碱基数 说明
Human 人类参考基因组 2.75B 与 DNABERT v1 相同
Multi-species 135 个物种,6 大类(哺乳动物、鸟类、鱼类、无脊椎动物、植物、真菌等) 32.49B 去除 N,仅 A/T/C/G;约为人类数据的 12 倍

最终模型 DNABERT-2-117MMulti-species 上预训练;预训练 token 数约 262B(500k steps × batch 4096 × max_len 128)。

分词与预训练

  • 分词BPE(Byte Pair Encoding,字节对编码),词表 4096($2^{12}$);非重叠、变长 subword,缓解 k-mer 泄漏与近邻序列表示不一致问题。
  • 预训练目标:标准 MLM(独立 mask 15% token,非 span mask)。
  • 训练配置:max_len 128,AdamW,lr 5e-4(warmup 30k steps),8× RTX 2080Ti,约 14 天。

架构

基于 MosaicBERT 改进的 Transformer 编码器:

参数
参数量 117M
层数 / 隐藏维度 / 头数 12 / 768 / 12
词表 4096(BPE)
位置编码 ALiBi(Attention with Linear Biases,线性偏置注意力),支持外推更长序列
效率优化 FlashAttention、低精度 LayerNorm
微调 全参数微调;大模型对比实验中对 NT 使用 LoRA

相对 DNABERT-110M:参数仅增 ~30%,但 FLOPs 约为 1/3;在 GUE 28 个数据集上 23/28 优于 DNABERT。

开源zhihan1996/DNABERT-2-117M


2.3 DNABERT-S(2024)

论文DNABERT-S: Learning Species-Aware DNA Embedding(ICLR 2024)

DNABERT-S 不是从头预训练的基因组 LM,而是在 DNABERT-2-117M 权重基础上,用对比学习微调得到物种感知嵌入。训练策略 C²LR(课程对比学习) 的原理与图示见扩展文 课程对比学习 C²LR

训练数据(二阶段)

来源 规模 序列特点
GenBank 参考基因组 病毒 47,923 对;真菌 100 万对;细菌 100 万对 204.8 万对,每对为同物种两条 10,000 bp 非重叠片段
训练/验证划分 200 万对训练,4.8 万对验证

方法与架构

  • 基础架构:继承 DNABERT-2(117M,BPE,ALiBi)。
  • C²LR(Curriculum Contrastive Learning,课程对比学习):分阶段从「同序列不同增强」过渡到「同物种不同序列」。
  • MI-Mix(Manifold Instance Mixup,流形实例混合):在隐层混合表示,增强长读长/error-prone 序列鲁棒性。
  • 嵌入提取:所有 token 最后隐层 mean pooling → 128 维物种嵌入。

适用场景:宏基因组物种聚类、物种分类(尤其 few-shot / 无标签)、长读长序列物种鉴定——不是通用调控元件预测的首选。


3. Nucleotide Transformer(NT)系列

论文Nucleotide Transformer: building and evaluating robust foundation models for human genomics(Dalla-Torre et al., Nature Methods 2024)

3.1 NT v1(2023)

训练数据

变体 预训练语料 碱基/序列规模 预训练 token 数
NT-500M-human GRCh38 人类参考基因组 3.2B 碱基 ~50B tokens
NT-500M-1000g 1000 Genomes 3202 个 phased 人类基因组 20.5T 碱基(含变异;存储为参考 + 12 突变) ~300B tokens
NT-2500M-1000g 同上 同上 ~300B tokens
NT-2500M-multi 850 物种(RefSeq,属级采样 + 模式生物) 174B 碱基 ~300B tokens

数据预处理

  • 切分为 6100 bp 重叠窗口(首尾各共享 50 bp),每 epoch 随机偏移 0–100 bp 后取 1000 tokens
  • 6-mer 非重叠分词:词表 4104(4096 六聚体 + 单碱基 fallback + 特殊 token)。
  • 有效上下文:~6 kb(1000 × 6 bp)。

架构(v1)

变体 参数量 层数 隐藏维度 注意力头 上下文
NT-500M 500M 24 1024 16 6 kb
NT-2500M 2.5B 32 1280 20 6 kb
  • 架构:RoBERTa/BERT 式 Transformer 编码器 + 可学习位置嵌入。
  • 预训练:MLM(15% mask;human/multi 额外 10% 随机替换;1000G 不做随机替换以免噪声超过自然突变率)。
  • 有效 batch:100 万 tokens/step;500M 单节点 1 天,2.5B 全集群 128×A100 约 28 天。

3.2 NT-v2(2024,同论文扩展)

在架构与训练时长上显著升级:

改进项 内容
位置编码 RoPE 替代可学习嵌入
FFN SwiGLU + 无 bias
上下文 2048 tokens ≈ 12 kb
规模 50M / 100M / 250M / 500M
训练 token 50M/250M 各 300B;250M/500M 最高 1T tokens
性能 NT-v2-500M-12kb 以约 1/5 参数达到或超过 NT-2.5B-multi

开源InstaDeepAI/nucleotide-transformer-*


4. 其他重要 DNA 基础模型

4.1 HyenaDNA(2023,NeurIPS)

维度 详情
数据 人类参考基因组 HG38;Enformer 训练/验证区间切分
分词 单字符(A/T/C/G + 特殊 token),单碱基分辨率
目标 因果下一碱基预测(decoder-only,非 MLM)
架构 Hyena 算子栈(隐式长卷积 + 门控),非 Transformer 注意力
规模 0.44M–6.6M 参数(2–8 层,width 128–256);上下文 1k–1M token
训练 10–20k steps;1M 上下文模型约 2T tokens、4 周 8×A100

优势:极长上下文(450k–1M)、参数极小、物种分类等远程依赖任务;劣势:单向、预训练数据仅人类参考基因组,短程调控任务需与 NT/DNABERT-2 对比。

4.2 Caduceus(2024)

维度 详情
数据 人类参考基因组;Enformer 切分,训练段扩展至 2²⁰ = 1,048,576 bp,合计约 35B 碱基
分词 单碱基(character-level)
目标 双向 MLM(Caduceus-PS / Caduceus-Ph)
架构 Mamba / BiMamba + MambaDNA;首个 反向互补等变(RC equivariant) DNA LM
规模(预训练) 例:131k 上下文 / 16 层 / hidden 256 / 50k updates
特色 原生支持双链对称;长程任务上可超过 10× 更大的 Transformer

选型提示:需要 双链一致性(变异效应、甲基化相关 CpG)或 100k+ 上下文 的编码器场景优先考虑;与 HyenaDNA 互补(双向 vs 单向)。

4.3 GROVER(2024,Nature Machine Intelligence)

维度 详情
数据 人类基因组,>500 万 训练样本
分词 BPE-600(601 个 token + 特殊 token);通过 next-k-mer 预测内在评估选优
目标 MLM(mask 概率 0.022;max_len 50 token 的短窗口)
架构 BERT:12 层 Transformer 编码器,标准 multi-head attention + FFN
特色 强调 词表即生物学——token 频率平衡、重复序列与 CpG 的显式建模;可解释性分析强

局限:输入极短(~50 token),更适合 ** motif / 局部上下文** 分析,而非长程调控。

4.4 Evo(2024,Arc Institute)

维度 详情
数据 OpenGenome:~80,000 细菌/古菌基因组 + 噬菌体/质粒预测序列,约 300B 碱基 token;排除感染真核的病毒
分词 单碱基(byte-level)
目标 因果下一 token 预测;两阶段上下文扩展 8k → 131k
架构 StripedHyena(7B 参数),Hyena + 注意力混合
定位 原核生物 分子–基因组尺度 生成与设计(CRISPR、转座子等),非人类调控预测首选

5. RNA 预训练模型(训练数据详解)

5.0 先澄清:ncRNA 语料里到底有什么?

多数 RNA 基础模型的预训练语料不是「只训 miRNA」或「只训 siRNA」的专用库,而是从 RNAcentral、Rfam、Ensembl、NCBI nt 等公共库汇总的 混合 ncRNA(有时还混入 mRNA)。论文通常只报告序列条数与去重规则,很少给出按生物类型的精确占比表;RNA-FM 的补充表 1–3 记录的是核苷酸组成与长度分布,而非 miRNA/lncRNA 分项计数。

段末注释:RNAcentral 是整合 50+ 专家库(Expert Database)的 ncRNA 统一入口;Rfam 按 RNA 家族(family)组织序列与协方差模型,覆盖 tRNA、rRNA、miRNA 等经典家族。

5.0.1 RNAcentral 源库与典型 ncRNA 类型(上游组成)

RNAcentral 通过专家库汇入各类 ncRNA。与预训练嵌入直接相关的常见类型及典型来源如下:

ncRNA 类型 生物学角色(简述) 典型专家库 / 注释来源 在预训练中的典型地位
rRNA(核糖体 RNA) 核糖体结构与翻译 SILVA、RDP、RefSeq 条数占比往往最高(管家 RNA、拷贝数大)
tRNA(转运 RNA) 氨基酸转运 GtRNAdb、RefSeq 同上,短序列、数量多
miRNA(微 RNA) 转录后基因调控 miRBaseMirGeneDB pre-miRNA 与成熟 miRNA,条数少于 rRNA/tRNA
lncRNA(长非编码 RNA) 染色质、转录、剪接调控等 GENCODE/Ensembl、NONCODE、lncRNAdb、EVlncRNAs 序列长、异质性大;人类基因层面数量多
snRNA(小核 RNA) 剪接体 Rfam、RefSeq 中等规模
snoRNA(小核仁 RNA) rRNA 修饰 snoDB、Rfam 中等规模
piRNA(PIWI 结合 RNA) 转座子沉默等 piRNAdb 相对专门化
siRNA(小干扰 RNA) RNAi 通路、实验设计 多为实验条目或间接注释 并非 RNAcentral 主流量;条数远小于 rRNA/tRNA/miRNA
tmRNASRP RNAribozyme 翻译 rescue、蛋白定位、催化 tmRNA Website、Rfam、Ribocentre RiNALMo 等通过 Rfam 显著加强

RNAcentral 官方检索 facet 与教程均指出:全库序列检索中,rRNA 与 tRNA 往往占绝大多数;miRNA、lncRNA 等调控类 RNA 条数较少但功能研究集中。因此,将 RNA-FM/RiNALMo 称为「miRNA 模型」或「siRNA 模型」不准确——它们是 广谱 ncRNA 语言模型,只是在下游任务上常用于 miRNA 靶标、lncRNA 功能等场景。

5.0.2 各模型语料范围对照(是否纯 ncRNA)

模型 是否仅 ncRNA 是否含 mRNA/CDS 类型是否人工平衡
RNA-FM (声明仅 ncRNA) (保持 RNAcentral 自然比例)
RiNALMo 否(Ensembl 取 ncRNA 相关条目) (聚类保证 batch 多样性)
Uni-RNA (明确含 coding + non-coding) 否(MMseqs2 去冗余)
mRNA-FM (专训 mRNA)
RNABERT 人类 ncRNA 子集

5.0.3 siRNA 与 miRNA:选型时怎么理解?

分子 是否在预训练语料中 对嵌入选型的含义
miRNA ,经 miRBase/MirGeneDB 等进入 RNAcentral;RNA-FM 在 RNA Atlas 中单独可视化 miRNA 预测 pre-miRNA 结构、成熟体加工、靶基因相关任务时,RNA-FM/RiNALMo 可用,但语料并非 miRNA 专用
siRNA 有少量(RNA-FM 论文在「调控 RNA」类群中列出 siRNA,说明库中存在该类序列) 没有主流模型在 siRNA 专用库上预训练;siRNA 设计/脱靶更常需 微调 或专用模型,不要默认 RNA-FM 等价于「siRNA 嵌入」
shRNA / 合成寡核苷酸 通常不在公共 ncRNA 库 需自建语料或任务微调

5.1 RNA-FM(2022)与 RNAcentral100

数据来源与构建流程

步骤 说明
原始库 RNAcentral(论文写作时约 2700 万 条,整合 47 个专家库)
字母表 全序列 T→U;支持 IUPAC 兼并碱基(共 16 种 token 类型 + 特殊符号)
去冗余 CD-HIT-EST,相似度阈值 100%(仅去完全相同序列)
最终语料 RNAcentral10023.7M 条独特 ncRNA
训练截断 最大长度 1024 nt(更长序列在训练时被截断,以控制显存与 batch)
类型标注 按 miRNA/lncRNA 分层采样;保持数据库自然组成

预训练语料包含的 ncRNA 类型(论文实证)

RNA-FM 在 RNA Atlas 分析中,按功能/结构将 RNAcentral100 中的类型显式分组(每类最多抽 1 万条做 UMAP),证明模型能区分:

分组 包含类型
管家 RNA(housekeeping) rRNAtRNA
调控 RNA(regulatory) lncRNAsnoRNAmiRNAsiRNAsnRNApiRNA
长链 ncRNA(长度 $>200$ nt) rRNA、tmRNA
短链 ncRNA(长度 $\leq 200$ nt) tRNA、sncRNA(小 ncRNA 总称)等

论文结论:嵌入空间主要按结构与功能聚类,而非单纯按长度;lncRNA 嵌入还可用于演化轨迹推断(VIA 伪时间)。

段末注释:sncRNA(small ncRNA)是小 ncRNA 总称,可涵盖 miRNA、siRNA 等短链分子,与 lncRNA 相对。

架构与训练(摘要)

维度 详情
架构 BERT 编码器:12 层 / 640 维 / 20 头;~99M 参数
目标 MLM(15% mask;80% [MASK] / 10% 随机 / 10% 保持)
算力 8× A100-80GB,约 1 个月

任务匹配:ncRNA 二级结构、3D 接触、lncRNA 相关分析、病毒基因组片段(如 SARS-CoV-2 UTR)——不适合直接当作纯 siRNA 设计mRNA 密码子优化 的默认嵌入(后者见 mRNA-FM)。


5.2 mRNA-FM(2024,RNA-FM 生态)

维度 详情
数据 4500 万(45M)mRNA(信使 RNA,非 ncRNA
与 RNA-FM 关系 独立语料、更大隐藏维;针对 CDS/UTR、表达与翻译调控
架构 12 层 / 1280 维;~239M 参数

miRNA/siRNA/lncRNA 任务时不要与 RNA-FM 混用权重。


5.3 Uni-RNA(2023)

数据来源

来源 内容
RNAcentral ncRNA(与 RNA-FM 同源,但未限制为 23.7M 子集)
NCBI nt 核酸综合库(含基因组片段、多种注释)
GWH(国家基因组科学数据中心等) 基因组相关 RNA
图示中另有 MG-RASTMGnify 等宏基因组/环境 RNA 来源
处理 说明
长度过滤 剔除 >4096 nt
去冗余 MMseqs2 聚类
规模 10 亿(1B) 条「有效」序列
类型 论文明确:coding + non-coding 混合,含 miRNA、lncRNA、snRNA 等,不是纯 ncRNA 模型

| 架构 | 25M–400M(L8–L24);RoPE + Flash Attention;最大输入 1024 |

公开性:权重未完全开放,复现与合规需单独评估。


5.4 RiNALMo(2024,Nature Communications)

四库混合与预处理

数据源 版本/说明 主要贡献的类型
RNAcentral 论文使用 release 22.0 FASTA 全谱 ncRNA(rRNA、tRNA、miRNA、lncRNA 等,比例随 RNAcentral 自然分布)
Rfam Rfam.fa(CURRENT) 家族级 ncRNA:tRNA、rRNA、miRNA、snRNA、snoRNA、ribozyme、tmRNA 等($>2600$ 家族)
NCBI nt BLAST nt FASTA 大规模核酸序列;经长度与去重筛选后进入语料
Ensembl 基因组注释 RNA 注释转录本中的 ncRNA(lncRNA、misc_RNA 等)
预处理步骤 参数
长度 保留 16–8192 nt
去重 seqkit rmdup
聚类 MMseqs2 easy-linclust--min-seq-id 0.7-c 0.8
最终 36M 独特序列 → 17M 簇;每 epoch 每簇采样 1 条以保证 batch 多样性
碱基 全库 U→T(与 BERT 词表一致)

论文公布 36M 中 miRNA/lncRNA/rRNA 各占多少;相较 RNA-FM,RiNALMo 通过 Rfam + Ensembl 增强了家族结构化真核注释 lncRNA,对 未见 Rfam 家族 的二级结构泛化更好(论文核心 claim)。

架构与训练(摘要)

维度 详情
架构 33 层 / 1280 维 / 20 头;650M(giga);RoPE + SwiGLU + FlashAttention-2
目标 MLM(6 epochs,batch 1344,7×A100-80GB)

5.5 其他 RNA 模型(数据侧补充)

模型 训练数据与 ncRNA 类型 备注
RNABERT(2022) 人类 RNAcentral 子集 ~76.2 万 6 层小模型; 23.7M 规模
ERNIE-RNA 大规模 RNA + 结构对齐 显式引入二级结构,不仅序列
RNA-MSM 多序列比对(MSA)进化信息 依赖同源序列,非纯单序列 LM
UTR-LM mRNA 5’/3’ UTR 调控区,不是 miRNA/siRNA
CodonBERT / CaLM CDS / cDNA 蛋白编码链,与 ncRNA 正交
SpliceBERT pre-mRNA(脊椎动物) 剪接,不是小 RNA 专用
OpenRNA / EVA(2025 前后) 1.14 亿 条全类型 RNA(显式标注 mRNA、lncRNA、miRNA、rRNA、tRNA、snoRNA、snRNA、piRNA、circRNA 等) 新一类「全生物型」语料,可参考其类型统计做基准

5.6 ncRNA 类型 → 推荐嵌入模型(速查)

你的序列类型 优先预训练模型 注意
miRNA / pre-miRNA RNA-FM、RiNALMo 语料含 miRBase,但混合大量 rRNA/tRNA;长 pre-miRNA 注意 1024 nt 截断
lncRNA RNA-FM、RiNALMo RiNALMo+Ensembl 对长链更友好;超长需滑窗池化
tRNA / rRNA RNA-FM、RiNALMo 与预训练分布最一致,零样本往往较稳
siRNA / shRNA(实验设计) 微调 或专用工具 勿默认 RNA-FM 即 siRNA 专家
未知 ncRNA / 新家族 RiNALMo(强调家族泛化) 结构任务优先 RiNALMo
mRNA UTR / CDS / 表达 mRNA-FM、Uni-RNA(含 coding) 不用 RNA-FM
剪接位点 RiNALMo、SpliceBERT、NT(DNA 侧) 任务决定用 RNA 还是 DNA 模型

6. 横向对比总表

6.1 DNA 模型

模型 参数量 预训练碱基规模 物种/数据组成 分词 架构 上下文 预训练目标 开源
DNABERT ~110M 2.75B 人类 hg38 重叠 3–6-mer BERT-12L ~512 tok MLM span
DNABERT-2 117M 32.49B 135 物种 BPE-4096 BERT+ALiBi+Flash 128 tok(可外推) MLM
DNABERT-S 117M+ 204.8 万对×10kb 病毒/真菌/细菌 同 DNABERT-2 +对比学习 10k bp 输入 对比
NT-500M-human 500M 3.2B 人类 6-mer Transformer 6 kb MLM
NT-500M-1000g 500M 3.2B ref + 3202 人 人类多样性 6-mer Transformer 6 kb MLM
NT-2500M-multi 2.5B 174B 850 物种 6-mer Transformer-32L 6 kb MLM
NT-v2-500M 500M 同 multi 850 物种 6-mer RoPE+SwiGLU 12 kb MLM
HyenaDNA 0.4–6.6M hg38 人类 单碱基 Hyena 卷积 1M 下一碱基
Caduceus ~1–10M 级 ~35B 人类 单碱基 Mamba/BiMamba 131k MLM
GROVER BERT-12L 人类全基因组 人类 BPE-600 BERT ~50 tok MLM
Evo-1 7B 300B 原核+噬菌体 单碱基 StripedHyena 131k 下一 token

6.2 RNA 模型

模型 参数量 序列数 语料类型组成(摘要) 主要来源 最大长度 典型下游
RNA-FM 99M 23.7M 纯 ncRNA;含 rRNA/tRNA/miRNA/lncRNA/siRNA 等自然混合 RNAcentral100 1024 nt 结构、3D 接触、lncRNA
mRNA-FM 239M 45M 仅 mRNA mRNA 专用库 1024 nt UTR、表达、CDS
Uni-RNA 25–400M 1B coding + ncRNA 混合 RNAcentral+nt+GWH 等 4096 nt(训练过滤) 结构/功能(权重受限)
RiNALMo 650M 36M 纯 ncRNA;RNAcentral+Rfam+nt+Ensembl 四库合并+MMseqs2 8192 nt(训练上限) 结构、剪接、MRL/TE
RNABERT 0.5M ~0.76M 人类 ncRNA 子集 RNAcentral 440 nt 早期基准

7. 项目选型指南

7.1 按任务类型

1
2
3
4
5
6
7
8
9
10
11
12
13
flowchart TD
A[确定序列类型与任务] --> B{DNA 还是 RNA?}
B -->|RNA| R1{需要 mRNA 还是 ncRNA?}
R1 -->|miRNA/lncRNA/结构| R2[RiNALMo / RNA-FM]
R1 -->|siRNA 设计/脱靶| R4[需微调或专用模型]
R1 -->|mRNA 表达/UTR| R3[mRNA-FM / UTR-LM]
B -->|DNA| D1{上下文要多长?}
D1 -->|≤ 512 bp 调控元件| D2[DNABERT-2 / NT-v2-500M]
D1 -->|6–12 kb 增强子/剪接| D3[NT-v2 / NT-2.5B-multi]
D1 -->|≥ 100 kb 远程调控| D4[Caduceus / HyenaDNA]
D1 -->|物种聚类/宏基因组| D5[DNABERT-S]
D1 -->|原核基因组设计/生成| D6[Evo]
D1 -->|局部 motif 可解释| D7[GROVER / DNABERT-6mer]

7.2 按资源约束

约束 推荐 理由
单卡 24GB,快速微调 DNABERT-2-117M 117M 参数 + 全参数微调可行;GUE 上接近 NT
单卡 24GB,需 6kb+ NT-v2-50M/100M + LoRA 更小 NT-v2 + 参数高效微调
多卡 A100,追求 SOTA NT-v2-500M 或 NT-2.5B-multi 人类变异 / 跨物种调控
极低算力嵌入提取 HyenaDNA-tiny(0.44M) 推理轻量;适合长序列池化嵌入
无 GPU 批量推理 DNABERT-2 / RNA-FM 社区工具链成熟(HuggingFace)

7.3 按数据域匹配(避免分布偏移)

你的数据 优先匹配预训练域 谨慎使用
人类 SNP/调控变异 NT-1000g、NT-v2-human/multi 仅 hg38 的 DNABERT v1
多物种保守元件 NT-multi、DNABERT-2 multi-species GROVER(仅人类)
细菌/噬菌体 CRISPR Evo-1 一切真核预训练模型
病毒/真菌/细菌分类 DNABERT-S 通用 MLM 模型(无物种约束)
lncRNA / ribozyme RiNALMo、RNA-FM mRNA-FM
miRNA / pre-miRNA RNA-FM、RiNALMo 专用 siRNA 库训练的模型(公共 LM 非专用)
siRNA / shRNA 设计 任务微调 RNA-FM 或专用工具 直接零样本 RNA-FM(语料中 siRNA 占比极低)
密码子优化 / CDS mRNA-FM、CodonBERT ncRNA 专用模型

7.4 嵌入提取实践要点

  1. 池化策略:调控任务常用 [CLS]mean pooling;DNABERT-S 明确使用 mean pooling。长序列可考虑 滑动窗口 + 平均
  2. 链方向:非 RC 等变模型(DNABERT-2、NT)建议 正链 + 反向互补双路推理再融合;Caduceus-PS 原生支持。
  3. 分词一致性:微调与推理必须使用同一 tokenizer;k-mer 与 BPE 不可 混用权重。
  4. 进一步预训练:DNABERT-2 论文显示,在下游任务训练集上做 continued MLM 对部分任务有效,但非普适增益。
  5. 评估基准:DNA 建议 GUE / GenomicBenchmarks / NT 下游 18 任务;RNA 建议 ArchiveII、TS0、SpliceSite 等。

8. 总结与趋势

  1. 分词演进:重叠 k-mer → 非重叠 6-mer → BPE / 单碱基,样本效率与远程对齐能力逐步提升。
  2. 数据演进:人类参考基因组 → 1000 Genomes 人群多样性850 物种 / 135 物种 多物种;原核 OpenGenome 开辟独立赛道。
  3. 架构演进:纯 BERT 编码器 → ALiBi / RoPE 长上下文Hyena / Mamba / StripedHyena 亚二次复杂度;双向 MLM 与因果生成并存。
  4. 选型核心原则预训练域 ⊇ 应用域 优先于单纯追大参数;短程调控 DNABERT-2 / NT-v2 性价比最高;长程与生成 Caduceus / HyenaDNA / Evo 分工明确;RNA RiNALMo 正成为 ncRNA 新默认,RNA-FM 仍是轻量首选。

参考文献与资源

模型 论文 代码/权重
DNABERT Bioinformatics 2021 jerryji1993/DNABERT
DNABERT-2 ICLR 2024 / arXiv:2306.15006 MAGICS-LAB/DNABERT_2
DNABERT-S ICLR 2024 / arXiv:2402.08777 MAGICS-LAB/DNABERT_S
Nucleotide Transformer Nature Methods 2024 InstaDeepAI/nucleotide-transformer
HyenaDNA NeurIPS 2023 HazyResearch/hyena-dna
Caduceus ICML 2024 kuleshov-group/caduceus
GROVER Nat. Mach. Intell. 2024 见论文补充材料
Evo Science 2024 / bioRxiv evo-design/evo
RNA-FM arXiv:2204.00300 ml4bio/RNA-FM
RiNALMo Nat. Commun. 2025 lbcb-sci/RiNALMo

文档版本:2026-05;数据与参数量均来自原始论文及 HuggingFace 模型卡,部署前请核对最新 checkpoint。

-------------本文结束感谢您的阅读-------------