在基因组学与 RNA 生物信息学项目中,预训练嵌入模型(pre-trained embedding model) 往往决定下游微调的上限与算力成本。与蛋白质领域的 ESM 类似,DNA/RNA 语言模型通过在大规模无标注序列上进行自监督预训练,学习核苷酸上下文表示,再迁移到启动子识别、剪接位点预测、变异效应评估、RNA 二级结构预测等任务。
本文聚焦 DNABERT 系列 及与其直接可比的主流 DNA / RNA 基因组基础模型(Genome Foundation Model,GFM),从三个维度展开:训练数据量与组成、分词与预训练目标、模型架构。文末给出面向具体项目的选型决策树与对照表。
段末注释:GFM 指在大规模基因组或转录组序列上预训练、可迁移至多种下游任务的序列表示模型;MLM 指掩码语言建模(Masked Language Modeling),随机遮盖部分 token 并预测被遮盖内容。
1. 总览:模型谱系与时间线
1 | timeline |
按序列类型与建模目标,可将主流模型分为四类:
| 类别 | 代表模型 | 核心特点 |
|---|---|---|
| 人类/多物种 DNA 短上下文 | DNABERT、DNABERT-2、NT、GROVER | BERT 式编码器,512–12 kb 上下文,侧重调控元件与变异 |
| 长上下文 DNA | HyenaDNA、Caduceus、Evo | 单碱基 token,131k–1M 上下文,SSM/Hyena/Mamba 架构 |
| 物种感知 DNA 嵌入 | DNABERT-S | 在 DNABERT-2 上对比学习,面向聚类与物种鉴定 |
| RNA 专用 | RNA-FM、mRNA-FM、RiNALMo | ncRNA / mRNA 语料,结构–功能迁移 |
2. DNABERT 系列
2.1 DNABERT(v1,2021)
论文:DNABERT: pre-trained Bidirectional Encoder Representations from Transformers model for DNA-language in genome(Ji et al., Bioinformatics 2021)
训练数据
| 维度 | 详情 |
|---|---|
| 数据来源 | 人类参考基因组 GRCh38/hg38 |
| 数据量 | 约 27.5 亿(2.75B) 碱基 |
| 序列切分 | 非重叠切分 + 随机采样,片段长度 5–510 bp |
| 过滤规则 | 仅保留 A/T/C/G,去除 N |
分词与预训练
- 分词:重叠 k-mer($k \in {3,4,5,6}$),滑动窗口 stride = 1;四个变体对应不同词表大小(如 6-mer 约 4096 个 token)。
- 预训练目标:MLM;因 k-mer 重叠导致信息泄漏,需连续遮盖 $k$ 个 token(前 100k 步 mask 15%,后 20k 步 mask 20%)。
- 训练规模:120k steps,batch size 2000,8× RTX 2080Ti。
架构
与 BERT-base 完全一致:
| 参数 | 值 |
|---|---|
| 参数量 | ~110M |
| 层数 | 12 |
| 隐藏维度 | 768 |
| 注意力头 | 12 |
| 最大输入 | 512 token(≈ 512 个 k-mer,实际覆盖更短碱基窗口) |
| 位置编码 | 可学习绝对位置嵌入 |
主要局限:仅人类参考基因组、重叠 k-mer 样本效率低、512 长度硬限制(DNABERT-XL 扩展效果有限)。
2.2 DNABERT-2(2023/2024,ICLR 2024)
论文:DNABERT-2: Efficient Foundation Model and Benchmark For Multi-Species Genome(Zhou et al.)
训练数据
作者公开两套预训练语料(GUE 基准配套):
| 数据集 | 物种/来源 | 碱基数 | 说明 |
|---|---|---|---|
| Human | 人类参考基因组 | 2.75B | 与 DNABERT v1 相同 |
| Multi-species | 135 个物种,6 大类(哺乳动物、鸟类、鱼类、无脊椎动物、植物、真菌等) | 32.49B | 去除 N,仅 A/T/C/G;约为人类数据的 12 倍 |
最终模型 DNABERT-2-117M 在 Multi-species 上预训练;预训练 token 数约 262B(500k steps × batch 4096 × max_len 128)。
分词与预训练
- 分词:BPE(Byte Pair Encoding,字节对编码),词表 4096($2^{12}$);非重叠、变长 subword,缓解 k-mer 泄漏与近邻序列表示不一致问题。
- 预训练目标:标准 MLM(独立 mask 15% token,非 span mask)。
- 训练配置:max_len 128,AdamW,lr 5e-4(warmup 30k steps),8× RTX 2080Ti,约 14 天。
架构
基于 MosaicBERT 改进的 Transformer 编码器:
| 参数 | 值 |
|---|---|
| 参数量 | 117M |
| 层数 / 隐藏维度 / 头数 | 12 / 768 / 12 |
| 词表 | 4096(BPE) |
| 位置编码 | ALiBi(Attention with Linear Biases,线性偏置注意力),支持外推更长序列 |
| 效率优化 | FlashAttention、低精度 LayerNorm |
| 微调 | 全参数微调;大模型对比实验中对 NT 使用 LoRA |
相对 DNABERT-110M:参数仅增 ~30%,但 FLOPs 约为 1/3;在 GUE 28 个数据集上 23/28 优于 DNABERT。
2.3 DNABERT-S(2024)
论文:DNABERT-S: Learning Species-Aware DNA Embedding(ICLR 2024)
DNABERT-S 不是从头预训练的基因组 LM,而是在 DNABERT-2-117M 权重基础上,用对比学习微调得到物种感知嵌入。训练策略 C²LR(课程对比学习) 的原理与图示见扩展文 课程对比学习 C²LR。
训练数据(二阶段)
| 来源 | 规模 | 序列特点 |
|---|---|---|
| GenBank 参考基因组 | 病毒 47,923 对;真菌 100 万对;细菌 100 万对 | 共 204.8 万对,每对为同物种两条 10,000 bp 非重叠片段 |
| 训练/验证划分 | 200 万对训练,4.8 万对验证 | — |
方法与架构
- 基础架构:继承 DNABERT-2(117M,BPE,ALiBi)。
- C²LR(Curriculum Contrastive Learning,课程对比学习):分阶段从「同序列不同增强」过渡到「同物种不同序列」。
- MI-Mix(Manifold Instance Mixup,流形实例混合):在隐层混合表示,增强长读长/error-prone 序列鲁棒性。
- 嵌入提取:所有 token 最后隐层 mean pooling → 128 维物种嵌入。
适用场景:宏基因组物种聚类、物种分类(尤其 few-shot / 无标签)、长读长序列物种鉴定——不是通用调控元件预测的首选。
3. Nucleotide Transformer(NT)系列
论文:Nucleotide Transformer: building and evaluating robust foundation models for human genomics(Dalla-Torre et al., Nature Methods 2024)
3.1 NT v1(2023)
训练数据
| 变体 | 预训练语料 | 碱基/序列规模 | 预训练 token 数 |
|---|---|---|---|
| NT-500M-human | GRCh38 人类参考基因组 | 3.2B 碱基 | ~50B tokens |
| NT-500M-1000g | 1000 Genomes 3202 个 phased 人类基因组 | 20.5T 碱基(含变异;存储为参考 + 12 突变) | ~300B tokens |
| NT-2500M-1000g | 同上 | 同上 | ~300B tokens |
| NT-2500M-multi | 850 物种(RefSeq,属级采样 + 模式生物) | 174B 碱基 | ~300B tokens |
数据预处理:
- 切分为 6100 bp 重叠窗口(首尾各共享 50 bp),每 epoch 随机偏移 0–100 bp 后取 1000 tokens。
- 6-mer 非重叠分词:词表 4104(4096 六聚体 + 单碱基 fallback + 特殊 token)。
- 有效上下文:~6 kb(1000 × 6 bp)。
架构(v1)
| 变体 | 参数量 | 层数 | 隐藏维度 | 注意力头 | 上下文 |
|---|---|---|---|---|---|
| NT-500M | 500M | 24 | 1024 | 16 | 6 kb |
| NT-2500M | 2.5B | 32 | 1280 | 20 | 6 kb |
- 架构:RoBERTa/BERT 式 Transformer 编码器 + 可学习位置嵌入。
- 预训练:MLM(15% mask;human/multi 额外 10% 随机替换;1000G 不做随机替换以免噪声超过自然突变率)。
- 有效 batch:100 万 tokens/step;500M 单节点 1 天,2.5B 全集群 128×A100 约 28 天。
3.2 NT-v2(2024,同论文扩展)
在架构与训练时长上显著升级:
| 改进项 | 内容 |
|---|---|
| 位置编码 | RoPE 替代可学习嵌入 |
| FFN | SwiGLU + 无 bias |
| 上下文 | 2048 tokens ≈ 12 kb |
| 规模 | 50M / 100M / 250M / 500M |
| 训练 token | 50M/250M 各 300B;250M/500M 最高 1T tokens |
| 性能 | NT-v2-500M-12kb 以约 1/5 参数达到或超过 NT-2.5B-multi |
开源:InstaDeepAI/nucleotide-transformer-*
4. 其他重要 DNA 基础模型
4.1 HyenaDNA(2023,NeurIPS)
| 维度 | 详情 |
|---|---|
| 数据 | 人类参考基因组 HG38;Enformer 训练/验证区间切分 |
| 分词 | 单字符(A/T/C/G + 特殊 token),单碱基分辨率 |
| 目标 | 因果下一碱基预测(decoder-only,非 MLM) |
| 架构 | Hyena 算子栈(隐式长卷积 + 门控),非 Transformer 注意力 |
| 规模 | 0.44M–6.6M 参数(2–8 层,width 128–256);上下文 1k–1M token |
| 训练 | 10–20k steps;1M 上下文模型约 2T tokens、4 周 8×A100 |
优势:极长上下文(450k–1M)、参数极小、物种分类等远程依赖任务;劣势:单向、预训练数据仅人类参考基因组,短程调控任务需与 NT/DNABERT-2 对比。
4.2 Caduceus(2024)
| 维度 | 详情 |
|---|---|
| 数据 | 人类参考基因组;Enformer 切分,训练段扩展至 2²⁰ = 1,048,576 bp,合计约 35B 碱基 |
| 分词 | 单碱基(character-level) |
| 目标 | 双向 MLM(Caduceus-PS / Caduceus-Ph) |
| 架构 | Mamba / BiMamba + MambaDNA;首个 反向互补等变(RC equivariant) DNA LM |
| 规模(预训练) | 例:131k 上下文 / 16 层 / hidden 256 / 50k updates |
| 特色 | 原生支持双链对称;长程任务上可超过 10× 更大的 Transformer |
选型提示:需要 双链一致性(变异效应、甲基化相关 CpG)或 100k+ 上下文 的编码器场景优先考虑;与 HyenaDNA 互补(双向 vs 单向)。
4.3 GROVER(2024,Nature Machine Intelligence)
| 维度 | 详情 |
|---|---|
| 数据 | 人类基因组,>500 万 训练样本 |
| 分词 | BPE-600(601 个 token + 特殊 token);通过 next-k-mer 预测内在评估选优 |
| 目标 | MLM(mask 概率 0.022;max_len 50 token 的短窗口) |
| 架构 | BERT:12 层 Transformer 编码器,标准 multi-head attention + FFN |
| 特色 | 强调 词表即生物学——token 频率平衡、重复序列与 CpG 的显式建模;可解释性分析强 |
局限:输入极短(~50 token),更适合 ** motif / 局部上下文** 分析,而非长程调控。
4.4 Evo(2024,Arc Institute)
| 维度 | 详情 |
|---|---|
| 数据 | OpenGenome:~80,000 细菌/古菌基因组 + 噬菌体/质粒预测序列,约 300B 碱基 token;排除感染真核的病毒 |
| 分词 | 单碱基(byte-level) |
| 目标 | 因果下一 token 预测;两阶段上下文扩展 8k → 131k |
| 架构 | StripedHyena(7B 参数),Hyena + 注意力混合 |
| 定位 | 原核生物 分子–基因组尺度 生成与设计(CRISPR、转座子等),非人类调控预测首选 |
5. RNA 预训练模型(训练数据详解)
5.0 先澄清:ncRNA 语料里到底有什么?
多数 RNA 基础模型的预训练语料不是「只训 miRNA」或「只训 siRNA」的专用库,而是从 RNAcentral、Rfam、Ensembl、NCBI nt 等公共库汇总的 混合 ncRNA(有时还混入 mRNA)。论文通常只报告序列条数与去重规则,很少给出按生物类型的精确占比表;RNA-FM 的补充表 1–3 记录的是核苷酸组成与长度分布,而非 miRNA/lncRNA 分项计数。
段末注释:RNAcentral 是整合 50+ 专家库(Expert Database)的 ncRNA 统一入口;Rfam 按 RNA 家族(family)组织序列与协方差模型,覆盖 tRNA、rRNA、miRNA 等经典家族。
5.0.1 RNAcentral 源库与典型 ncRNA 类型(上游组成)
RNAcentral 通过专家库汇入各类 ncRNA。与预训练嵌入直接相关的常见类型及典型来源如下:
| ncRNA 类型 | 生物学角色(简述) | 典型专家库 / 注释来源 | 在预训练中的典型地位 |
|---|---|---|---|
| rRNA(核糖体 RNA) | 核糖体结构与翻译 | SILVA、RDP、RefSeq | 条数占比往往最高(管家 RNA、拷贝数大) |
| tRNA(转运 RNA) | 氨基酸转运 | GtRNAdb、RefSeq | 同上,短序列、数量多 |
| miRNA(微 RNA) | 转录后基因调控 | miRBase、MirGeneDB | 含 pre-miRNA 与成熟 miRNA,条数少于 rRNA/tRNA |
| lncRNA(长非编码 RNA) | 染色质、转录、剪接调控等 | GENCODE/Ensembl、NONCODE、lncRNAdb、EVlncRNAs | 序列长、异质性大;人类基因层面数量多 |
| snRNA(小核 RNA) | 剪接体 | Rfam、RefSeq | 中等规模 |
| snoRNA(小核仁 RNA) | rRNA 修饰 | snoDB、Rfam | 中等规模 |
| piRNA(PIWI 结合 RNA) | 转座子沉默等 | piRNAdb | 相对专门化 |
| siRNA(小干扰 RNA) | RNAi 通路、实验设计 | 多为实验条目或间接注释 | 并非 RNAcentral 主流量;条数远小于 rRNA/tRNA/miRNA |
| tmRNA、SRP RNA、ribozyme 等 | 翻译 rescue、蛋白定位、催化 | tmRNA Website、Rfam、Ribocentre | RiNALMo 等通过 Rfam 显著加强 |
RNAcentral 官方检索 facet 与教程均指出:全库序列检索中,rRNA 与 tRNA 往往占绝大多数;miRNA、lncRNA 等调控类 RNA 条数较少但功能研究集中。因此,将 RNA-FM/RiNALMo 称为「miRNA 模型」或「siRNA 模型」不准确——它们是 广谱 ncRNA 语言模型,只是在下游任务上常用于 miRNA 靶标、lncRNA 功能等场景。
5.0.2 各模型语料范围对照(是否纯 ncRNA)
| 模型 | 是否仅 ncRNA | 是否含 mRNA/CDS | 类型是否人工平衡 |
|---|---|---|---|
| RNA-FM | 是(声明仅 ncRNA) | 否 | 否(保持 RNAcentral 自然比例) |
| RiNALMo | 是 | 否(Ensembl 取 ncRNA 相关条目) | 否(聚类保证 batch 多样性) |
| Uni-RNA | 否 | 是(明确含 coding + non-coding) | 否(MMseqs2 去冗余) |
| mRNA-FM | 否(专训 mRNA) | 是 | — |
| RNABERT | 人类 ncRNA 子集 | 否 | 否 |
5.0.3 siRNA 与 miRNA:选型时怎么理解?
| 分子 | 是否在预训练语料中 | 对嵌入选型的含义 |
|---|---|---|
| miRNA | 有,经 miRBase/MirGeneDB 等进入 RNAcentral;RNA-FM 在 RNA Atlas 中单独可视化 miRNA 簇 | 预测 pre-miRNA 结构、成熟体加工、靶基因相关任务时,RNA-FM/RiNALMo 可用,但语料并非 miRNA 专用 |
| siRNA | 有少量(RNA-FM 论文在「调控 RNA」类群中列出 siRNA,说明库中存在该类序列) | 没有主流模型在 siRNA 专用库上预训练;siRNA 设计/脱靶更常需 微调 或专用模型,不要默认 RNA-FM 等价于「siRNA 嵌入」 |
| shRNA / 合成寡核苷酸 | 通常不在公共 ncRNA 库 | 需自建语料或任务微调 |
5.1 RNA-FM(2022)与 RNAcentral100
数据来源与构建流程
| 步骤 | 说明 |
|---|---|
| 原始库 | RNAcentral(论文写作时约 2700 万 条,整合 47 个专家库) |
| 字母表 | 全序列 T→U;支持 IUPAC 兼并碱基(共 16 种 token 类型 + 特殊符号) |
| 去冗余 | CD-HIT-EST,相似度阈值 100%(仅去完全相同序列) |
| 最终语料 | RNAcentral100:23.7M 条独特 ncRNA |
| 训练截断 | 最大长度 1024 nt(更长序列在训练时被截断,以控制显存与 batch) |
| 类型标注 | 未按 miRNA/lncRNA 分层采样;保持数据库自然组成 |
预训练语料包含的 ncRNA 类型(论文实证)
RNA-FM 在 RNA Atlas 分析中,按功能/结构将 RNAcentral100 中的类型显式分组(每类最多抽 1 万条做 UMAP),证明模型能区分:
| 分组 | 包含类型 |
|---|---|
| 管家 RNA(housekeeping) | rRNA、tRNA |
| 调控 RNA(regulatory) | lncRNA、snoRNA、miRNA、siRNA、snRNA、piRNA |
| 长链 ncRNA(长度 $>200$ nt) | rRNA、tmRNA 等 |
| 短链 ncRNA(长度 $\leq 200$ nt) | tRNA、sncRNA(小 ncRNA 总称)等 |
论文结论:嵌入空间主要按结构与功能聚类,而非单纯按长度;lncRNA 嵌入还可用于演化轨迹推断(VIA 伪时间)。
段末注释:sncRNA(small ncRNA)是小 ncRNA 总称,可涵盖 miRNA、siRNA 等短链分子,与 lncRNA 相对。
架构与训练(摘要)
| 维度 | 详情 |
|---|---|
| 架构 | BERT 编码器:12 层 / 640 维 / 20 头;~99M 参数 |
| 目标 | MLM(15% mask;80% [MASK] / 10% 随机 / 10% 保持) |
| 算力 | 8× A100-80GB,约 1 个月 |
任务匹配:ncRNA 二级结构、3D 接触、lncRNA 相关分析、病毒基因组片段(如 SARS-CoV-2 UTR)——不适合直接当作纯 siRNA 设计 或 mRNA 密码子优化 的默认嵌入(后者见 mRNA-FM)。
5.2 mRNA-FM(2024,RNA-FM 生态)
| 维度 | 详情 |
|---|---|
| 数据 | 4500 万(45M) 条 mRNA(信使 RNA,非 ncRNA) |
| 与 RNA-FM 关系 | 独立语料、更大隐藏维;针对 CDS/UTR、表达与翻译调控 |
| 架构 | 12 层 / 1280 维;~239M 参数 |
做 miRNA/siRNA/lncRNA 任务时不要与 RNA-FM 混用权重。
5.3 Uni-RNA(2023)
数据来源
| 来源 | 内容 |
|---|---|
| RNAcentral | ncRNA(与 RNA-FM 同源,但未限制为 23.7M 子集) |
| NCBI nt | 核酸综合库(含基因组片段、多种注释) |
| GWH(国家基因组科学数据中心等) | 基因组相关 RNA |
| 图示中另有 | MG-RAST、MGnify 等宏基因组/环境 RNA 来源 |
| 处理 | 说明 |
|---|---|
| 长度过滤 | 剔除 >4096 nt |
| 去冗余 | MMseqs2 聚类 |
| 规模 | 约 10 亿(1B) 条「有效」序列 |
| 类型 | 论文明确:coding + non-coding 混合,含 miRNA、lncRNA、snRNA 等,不是纯 ncRNA 模型 |
| 架构 | 25M–400M(L8–L24);RoPE + Flash Attention;最大输入 1024 |
公开性:权重未完全开放,复现与合规需单独评估。
5.4 RiNALMo(2024,Nature Communications)
四库混合与预处理
| 数据源 | 版本/说明 | 主要贡献的类型 |
|---|---|---|
| RNAcentral | 论文使用 release 22.0 FASTA | 全谱 ncRNA(rRNA、tRNA、miRNA、lncRNA 等,比例随 RNAcentral 自然分布) |
| Rfam | Rfam.fa(CURRENT) |
家族级 ncRNA:tRNA、rRNA、miRNA、snRNA、snoRNA、ribozyme、tmRNA 等($>2600$ 家族) |
| NCBI nt | BLAST nt FASTA | 大规模核酸序列;经长度与去重筛选后进入语料 |
| Ensembl | 基因组注释 RNA | 注释转录本中的 ncRNA(lncRNA、misc_RNA 等) |
| 预处理步骤 | 参数 |
|---|---|
| 长度 | 保留 16–8192 nt |
| 去重 | seqkit rmdup |
| 聚类 | MMseqs2 easy-linclust,--min-seq-id 0.7,-c 0.8 |
| 最终 | 36M 独特序列 → 17M 簇;每 epoch 每簇采样 1 条以保证 batch 多样性 |
| 碱基 | 全库 U→T(与 BERT 词表一致) |
论文未公布 36M 中 miRNA/lncRNA/rRNA 各占多少;相较 RNA-FM,RiNALMo 通过 Rfam + Ensembl 增强了家族结构化与真核注释 lncRNA,对 未见 Rfam 家族 的二级结构泛化更好(论文核心 claim)。
架构与训练(摘要)
| 维度 | 详情 |
|---|---|
| 架构 | 33 层 / 1280 维 / 20 头;650M(giga);RoPE + SwiGLU + FlashAttention-2 |
| 目标 | MLM(6 epochs,batch 1344,7×A100-80GB) |
5.5 其他 RNA 模型(数据侧补充)
| 模型 | 训练数据与 ncRNA 类型 | 备注 |
|---|---|---|
| RNABERT(2022) | 人类 RNAcentral 子集 ~76.2 万 条 | 6 层小模型;非 23.7M 规模 |
| ERNIE-RNA | 大规模 RNA + 结构对齐 | 显式引入二级结构,不仅序列 |
| RNA-MSM | 多序列比对(MSA)进化信息 | 依赖同源序列,非纯单序列 LM |
| UTR-LM | mRNA 5’/3’ UTR | 调控区,不是 miRNA/siRNA |
| CodonBERT / CaLM | CDS / cDNA | 蛋白编码链,与 ncRNA 正交 |
| SpliceBERT | pre-mRNA(脊椎动物) | 剪接,不是小 RNA 专用 |
| OpenRNA / EVA(2025 前后) | 1.14 亿 条全类型 RNA(显式标注 mRNA、lncRNA、miRNA、rRNA、tRNA、snoRNA、snRNA、piRNA、circRNA 等) | 新一类「全生物型」语料,可参考其类型统计做基准 |
5.6 ncRNA 类型 → 推荐嵌入模型(速查)
| 你的序列类型 | 优先预训练模型 | 注意 |
|---|---|---|
| miRNA / pre-miRNA | RNA-FM、RiNALMo | 语料含 miRBase,但混合大量 rRNA/tRNA;长 pre-miRNA 注意 1024 nt 截断 |
| lncRNA | RNA-FM、RiNALMo | RiNALMo+Ensembl 对长链更友好;超长需滑窗池化 |
| tRNA / rRNA | RNA-FM、RiNALMo | 与预训练分布最一致,零样本往往较稳 |
| siRNA / shRNA(实验设计) | 需 微调 或专用工具 | 勿默认 RNA-FM 即 siRNA 专家 |
| 未知 ncRNA / 新家族 | RiNALMo(强调家族泛化) | 结构任务优先 RiNALMo |
| mRNA UTR / CDS / 表达 | mRNA-FM、Uni-RNA(含 coding) | 不用 RNA-FM |
| 剪接位点 | RiNALMo、SpliceBERT、NT(DNA 侧) | 任务决定用 RNA 还是 DNA 模型 |
6. 横向对比总表
6.1 DNA 模型
| 模型 | 参数量 | 预训练碱基规模 | 物种/数据组成 | 分词 | 架构 | 上下文 | 预训练目标 | 开源 |
|---|---|---|---|---|---|---|---|---|
| DNABERT | ~110M | 2.75B | 人类 hg38 | 重叠 3–6-mer | BERT-12L | ~512 tok | MLM span | ✓ |
| DNABERT-2 | 117M | 32.49B | 135 物种 | BPE-4096 | BERT+ALiBi+Flash | 128 tok(可外推) | MLM | ✓ |
| DNABERT-S | 117M+ | 204.8 万对×10kb | 病毒/真菌/细菌 | 同 DNABERT-2 | +对比学习 | 10k bp 输入 | 对比 | ✓ |
| NT-500M-human | 500M | 3.2B | 人类 | 6-mer | Transformer | 6 kb | MLM | ✓ |
| NT-500M-1000g | 500M | 3.2B ref + 3202 人 | 人类多样性 | 6-mer | Transformer | 6 kb | MLM | ✓ |
| NT-2500M-multi | 2.5B | 174B | 850 物种 | 6-mer | Transformer-32L | 6 kb | MLM | ✓ |
| NT-v2-500M | 500M | 同 multi | 850 物种 | 6-mer | RoPE+SwiGLU | 12 kb | MLM | ✓ |
| HyenaDNA | 0.4–6.6M | hg38 | 人类 | 单碱基 | Hyena 卷积 | 1M | 下一碱基 | ✓ |
| Caduceus | ~1–10M 级 | ~35B | 人类 | 单碱基 | Mamba/BiMamba | 131k | MLM | ✓ |
| GROVER | BERT-12L | 人类全基因组 | 人类 | BPE-600 | BERT | ~50 tok | MLM | ✓ |
| Evo-1 | 7B | 300B | 原核+噬菌体 | 单碱基 | StripedHyena | 131k | 下一 token | ✓ |
6.2 RNA 模型
| 模型 | 参数量 | 序列数 | 语料类型组成(摘要) | 主要来源 | 最大长度 | 典型下游 |
|---|---|---|---|---|---|---|
| RNA-FM | 99M | 23.7M | 纯 ncRNA;含 rRNA/tRNA/miRNA/lncRNA/siRNA 等自然混合 | RNAcentral100 | 1024 nt | 结构、3D 接触、lncRNA |
| mRNA-FM | 239M | 45M | 仅 mRNA | mRNA 专用库 | 1024 nt | UTR、表达、CDS |
| Uni-RNA | 25–400M | 1B | coding + ncRNA 混合 | RNAcentral+nt+GWH 等 | 4096 nt(训练过滤) | 结构/功能(权重受限) |
| RiNALMo | 650M | 36M | 纯 ncRNA;RNAcentral+Rfam+nt+Ensembl | 四库合并+MMseqs2 | 8192 nt(训练上限) | 结构、剪接、MRL/TE |
| RNABERT | 0.5M | ~0.76M | 人类 ncRNA 子集 | RNAcentral | 440 nt | 早期基准 |
7. 项目选型指南
7.1 按任务类型
1 | flowchart TD |
7.2 按资源约束
| 约束 | 推荐 | 理由 |
|---|---|---|
| 单卡 24GB,快速微调 | DNABERT-2-117M | 117M 参数 + 全参数微调可行;GUE 上接近 NT |
| 单卡 24GB,需 6kb+ | NT-v2-50M/100M + LoRA | 更小 NT-v2 + 参数高效微调 |
| 多卡 A100,追求 SOTA | NT-v2-500M 或 NT-2.5B-multi | 人类变异 / 跨物种调控 |
| 极低算力嵌入提取 | HyenaDNA-tiny(0.44M) | 推理轻量;适合长序列池化嵌入 |
| 无 GPU 批量推理 | DNABERT-2 / RNA-FM | 社区工具链成熟(HuggingFace) |
7.3 按数据域匹配(避免分布偏移)
| 你的数据 | 优先匹配预训练域 | 谨慎使用 |
|---|---|---|
| 人类 SNP/调控变异 | NT-1000g、NT-v2-human/multi | 仅 hg38 的 DNABERT v1 |
| 多物种保守元件 | NT-multi、DNABERT-2 multi-species | GROVER(仅人类) |
| 细菌/噬菌体 CRISPR | Evo-1 | 一切真核预训练模型 |
| 病毒/真菌/细菌分类 | DNABERT-S | 通用 MLM 模型(无物种约束) |
| lncRNA / ribozyme | RiNALMo、RNA-FM | mRNA-FM |
| miRNA / pre-miRNA | RNA-FM、RiNALMo | 专用 siRNA 库训练的模型(公共 LM 非专用) |
| siRNA / shRNA 设计 | 任务微调 RNA-FM 或专用工具 | 直接零样本 RNA-FM(语料中 siRNA 占比极低) |
| 密码子优化 / CDS | mRNA-FM、CodonBERT | ncRNA 专用模型 |
7.4 嵌入提取实践要点
- 池化策略:调控任务常用
[CLS]或 mean pooling;DNABERT-S 明确使用 mean pooling。长序列可考虑 滑动窗口 + 平均。 - 链方向:非 RC 等变模型(DNABERT-2、NT)建议 正链 + 反向互补双路推理再融合;Caduceus-PS 原生支持。
- 分词一致性:微调与推理必须使用同一 tokenizer;k-mer 与 BPE 不可 混用权重。
- 进一步预训练:DNABERT-2 论文显示,在下游任务训练集上做 continued MLM 对部分任务有效,但非普适增益。
- 评估基准:DNA 建议 GUE / GenomicBenchmarks / NT 下游 18 任务;RNA 建议 ArchiveII、TS0、SpliceSite 等。
8. 总结与趋势
- 分词演进:重叠 k-mer → 非重叠 6-mer → BPE / 单碱基,样本效率与远程对齐能力逐步提升。
- 数据演进:人类参考基因组 → 1000 Genomes 人群多样性 → 850 物种 / 135 物种 多物种;原核 OpenGenome 开辟独立赛道。
- 架构演进:纯 BERT 编码器 → ALiBi / RoPE 长上下文 → Hyena / Mamba / StripedHyena 亚二次复杂度;双向 MLM 与因果生成并存。
- 选型核心原则:预训练域 ⊇ 应用域 优先于单纯追大参数;短程调控 DNABERT-2 / NT-v2 性价比最高;长程与生成 Caduceus / HyenaDNA / Evo 分工明确;RNA RiNALMo 正成为 ncRNA 新默认,RNA-FM 仍是轻量首选。
参考文献与资源
| 模型 | 论文 | 代码/权重 |
|---|---|---|
| DNABERT | Bioinformatics 2021 | jerryji1993/DNABERT |
| DNABERT-2 | ICLR 2024 / arXiv:2306.15006 | MAGICS-LAB/DNABERT_2 |
| DNABERT-S | ICLR 2024 / arXiv:2402.08777 | MAGICS-LAB/DNABERT_S |
| Nucleotide Transformer | Nature Methods 2024 | InstaDeepAI/nucleotide-transformer |
| HyenaDNA | NeurIPS 2023 | HazyResearch/hyena-dna |
| Caduceus | ICML 2024 | kuleshov-group/caduceus |
| GROVER | Nat. Mach. Intell. 2024 | 见论文补充材料 |
| Evo | Science 2024 / bioRxiv | evo-design/evo |
| RNA-FM | arXiv:2204.00300 | ml4bio/RNA-FM |
| RiNALMo | Nat. Commun. 2025 | lbcb-sci/RiNALMo |
文档版本:2026-05;数据与参数量均来自原始论文及 HuggingFace 模型卡,部署前请核对最新 checkpoint。