酶改造-03.聚合酶筛选的开源训练数据汇总

训练或微调「预测酶活性、稳定性、动力学」类模型时,公开数据的许可、实验条件与目标蛋白家族是否匹配决定可迁移性。本篇按数据类型汇总常用资源;专门针对某一商品化 DNA 聚合酶的大规模统一标注数据集在公开域仍较分散,实际项目常需结合自测数据与下列通用资源。

下列链接以官网说明为准(镜像、文件名、版本目录会随发布更新);大文件建议用 wget/aria2c 并做好校验。


1. 序列与进化信息

UniProt

下载命令(示例)

1
2
3
mkdir -p data/uniprot && cd data/uniprot
wget -c https://ftp.uniprot.org/pub/databases/uniprot/current_release/knowledgebase/complete/uniprot_sprot.fasta.gz
wget -c https://ftp.uniprot.org/pub/databases/uniprot/current_release/knowledgebase/complete/uniprot_trembl.fasta.gz

UniRef50 / UniRef100

下载命令(示例)

1
2
3
mkdir -p data/uniref && cd data/uniref
wget -c https://ftp.uniprot.org/pub/databases/uniprot/uniref/uniref50/uniref50.fasta.gz
wget -c https://ftp.uniprot.org/pub/databases/uniprot/uniref/uniref100/uniref100.fasta.gz

BFD(Big Fantastic Database)

  • 内容:宏基因组导向的大规模蛋白序列聚类资源,多见于 AlphaFold / ColabFold / PLM 训练管线说明;体积极大。
  • 官方下载说明与镜像https://bfd.mmseqs.com/
  • MMseqs2 数据索引页https://data.mmseqs.com/

下载命令(示例)

1
2
mkdir -p data/bfd && cd data/bfd
aria2c -x 16 -s 16 -c https://bfd.mmseqs.com/bfd_metaclust_clu_complete_id30_c90_final_seq.sorted_opt.tar.gz

用途简述:构建同源家族 MSA、PLM 嵌入、序列相似度过滤时,以上三类是最常用的公开序列来源。


2. 酶动力学与功能参数

BRENDA

下载命令(示例)

1
2
mkdir -p data/brenda && cd data/brenda
wget -c https://www.brenda-enzymes.org/download.php -O brenda_download_page.html

注:BRENDA 部分数据下载通常需要登录后选择文件,自动化下载以官网登录态与当期下载规则为准。

SABIO-RK

下载命令(示例)

1
2
mkdir -p data/sabiork && cd data/sabiork
curl -L "http://sabiork.h-its.org/sabioRestWebServices/kineticlawsExportTsv?q=Organism:\"Escherichia coli\"" -o sabiork_ecoli_kinetics.tsv

Rhea

下载命令(示例)

1
2
3
mkdir -p data/rhea && cd data/rhea
wget -c https://ftp.expasy.org/databases/rhea/tsv/rhea-tsv.tar.gz
wget -c https://ftp.expasy.org/databases/rhea/tsv/rhea2uniprot.tsv

聚合酶注意:BRENDA / SABIO 中条目按 EC、物种与反应式组织,训练模型时需核对底物是否为 DNA/RNA 聚合,避免错将其它水解/转移反应标成聚合酶任务。


3. 三维结构

PDB(wwPDB)

下载命令(示例)

1
2
mkdir -p data/pdb && cd data/pdb
rsync -avz --delete rsync.wwpdb.org::ftp_data/structures/divided/mmCIF/ ./mmCIF/

AlphaFold 蛋白质结构数据库(EBI)

下载命令(示例)

1
2
3
mkdir -p data/alphafold && cd data/alphafold
wget -c https://ftp.ebi.ac.uk/pub/databases/alphafold/latest/swissprot_pdb_v6.tar
wget -c https://ftp.ebi.ac.uk/pub/databases/alphafold/latest/swissprot_cif_v6.tar

CATH

下载命令(示例)

1
2
mkdir -p data/cath && cd data/cath
wget -c https://download.cathdb.info/cath/releases/latest-release/cath-classification-data/cath-domain-list.txt

SCOPe

下载命令(示例)

1
2
3
mkdir -p data/scope && cd data/scope
wget -c https://scop.berkeley.edu/downloads/parse/dir.cla.scope.2.08-stable.txt
wget -c https://scop.berkeley.edu/downloads/parse/dir.des.scope.2.08-stable.txt

DeepEnzyme 等「序列 + 结构」联合输入的管线对接时,需核对作者使用的结构来源(实验 vs 预测)与预处理脚本


4. 深度突变扫描与突变效应基准

ProteinGym

下载命令(示例)

1
2
3
mkdir -p data/proteingym && cd data/proteingym
git clone https://github.com/OATML-Markslab/ProteinGym.git
huggingface-cli download OATML-Markslab/ProteinGym --repo-type dataset --local-dir ./ProteinGym_hf

MaveDB

下载命令(示例)

1
2
mkdir -p data/mavedb && cd data/mavedb
wget -c https://www.mavedb.org/ -O mavedb_home.html

注:MaveDB 常按 score set 单独导出,建议在站内定位目标条目后下载 TSV/CSV。

DMS 文献补充材料

  • 内容:单篇论文 Supplementary Tables 常含完整突变–适应度表;无统一中心时,宜通过期刊页面或 Zenodo / Figshare DOI 获取。
  • 综合数据集示例(VEP 相关汇总,非酶专一)https://github.com/allydunham/dms_mutations

下载命令(示例)

1
2
mkdir -p data/dms && cd data/dms
git clone https://github.com/allydunham/dms_mutations.git

说明:ProteinGym 覆盖大量蛋白家族,未必含你关心的特定 DNA 聚合酶;可作通用预训练或迁移学习,再以自有筛选数据微调。


5. 通用蛋白质表征基准(非酶专一)

TAPE

  • 用途:评估蛋白质迁移学习在二级结构、接触、remote homology 等任务上的表现;不直接提供酶动力学回归标签
  • GitHub(任务定义与数据获取脚本)https://github.com/songlab-cal/tape
    具体 预处理后数据路径 以仓库 README 与 release 说明为准(部分任务需按脚本从原始来源拉取)。

下载命令(示例)

1
2
3
4
5
6
7
mkdir -p data/tape && cd data/tape
wget -c http://s3.amazonaws.com/songlabdata/proteindata/data_pytorch/pfam.tar.gz
wget -c http://s3.amazonaws.com/songlabdata/proteindata/data_pytorch/secondary_structure.tar.gz
wget -c http://s3.amazonaws.com/songlabdata/proteindata/data_pytorch/proteinnet.tar.gz
wget -c http://s3.amazonaws.com/songlabdata/proteindata/data_pytorch/remote_homology.tar.gz
wget -c http://s3.amazonaws.com/songlabdata/proteindata/data_pytorch/fluorescence.tar.gz
wget -c http://s3.amazonaws.com/songlabdata/proteindata/data_pytorch/stability.tar.gz

适合检验 PLM checkpoint 表征质量,而非替代酶活性回归数据。


6. 论文补充数据、代码与聚合酶相关仓库

通用数据仓储检索

下载命令(示例)

1
2
3
4
mkdir -p data/archives && cd data/archives
pip install -U zenodo-get figshare
zenodo_get 10.5281/zenodo.3727875
figshare-cli download --article-id 9782777 --outdir ./figshare_9782777

DeepEnzyme(示例:酶 kcat 预测,序列 + 结构)

下载命令(示例)

1
2
mkdir -p data/deepenzyme && cd data/deepenzyme
git clone https://github.com/hongzhonglu/DeepEnzyme.git

定向进化、高通量筛选类工作还常在 GitHub 单独发布 变异列表、丰度表、活性表;建议检索关键词如 DNA polymerase directed evolutiondeep mutational scanning polymerase 并跟进论文 Data availability 段落中的 URL。


7. 使用建议(避免常见坑)

  1. 条件对齐:同一 kcat 可能在不同 pH、辅助因子下不可比;建模时保留元数据字段。
  2. 泄漏控制:按 UniProt ID、家族或聚类划分 train/val/test,避免同源泄漏抬高指标。
  3. 标签语义:「测序读数错误率」≠「体外纯酶错配率」;合并数据前统一表型定义。
  4. 许可与再分发:商业产品需逐条核对各数据库对批量镜像、二次发布模型权重的条款。
  5. 链接失效:FTP 目录会随 current_release 变更;若 404,回到各站点 Download / Help 首页找最新路径。

8. 系列索引

-------------本文结束感谢您的阅读-------------