训练或微调「预测酶活性、稳定性、动力学」类模型时,公开数据的许可、实验条件与目标蛋白家族是否匹配决定可迁移性。本篇按数据类型汇总常用资源;专门针对某一商品化 DNA 聚合酶的大规模统一标注数据集在公开域仍较分散,实际项目常需结合自测数据与下列通用资源。
下列链接以官网说明为准(镜像、文件名、版本目录会随发布更新);大文件建议用 wget/aria2c 并做好校验。
1. 序列与进化信息
UniProt
- 内容:蛋白质序列、功能注释、文献交叉引用;可与 Rhea、PDB 等互链。
- 检索与门户:https://www.uniprot.org/
- 下载总说明:https://www.uniprot.org/help/downloads
- FTP(当前 release 目录):https://ftp.uniprot.org/pub/databases/uniprot/current_release/
- REST API:https://rest.uniprot.org/ · OpenAPI 文档
下载命令(示例)
1 | mkdir -p data/uniprot && cd data/uniprot |
UniRef50 / UniRef100
- 内容:聚类去冗余序列,常用于 PLM 预训练或同源序列检索。
- 说明文档:https://www.uniprot.org/help/uniref
- FTP(UniRef FASTA 等):https://ftp.uniprot.org/pub/databases/uniprot/uniref/
下载命令(示例)
1 | mkdir -p data/uniref && cd data/uniref |
BFD(Big Fantastic Database)
- 内容:宏基因组导向的大规模蛋白序列聚类资源,多见于 AlphaFold / ColabFold / PLM 训练管线说明;体积极大。
- 官方下载说明与镜像:https://bfd.mmseqs.com/
- MMseqs2 数据索引页:https://data.mmseqs.com/
下载命令(示例)
1 | mkdir -p data/bfd && cd data/bfd |
用途简述:构建同源家族 MSA、PLM 嵌入、序列相似度过滤时,以上三类是最常用的公开序列来源。
2. 酶动力学与功能参数
BRENDA
- 内容:手工整理的 Km、kcat、Ki 等及实验条件(pH、温度、底物等)。
- 门户:https://www.brenda-enzymes.org/
- 数据下载页(JSON 等):https://www.brenda-enzymes.org/download.php
- 许可:以官网当前声明为准(常见为 CC BY 4.0 一类开放许可)。
下载命令(示例)
1 | mkdir -p data/brenda && cd data/brenda |
注:BRENDA 部分数据下载通常需要登录后选择文件,自动化下载以官网登录态与当期下载规则为准。
SABIO-RK
- 内容:结构化反应与动力学实验条目,支持多种导出格式。
- 门户:https://sabiork.h-its.org/
- REST / Web Service 说明:https://sabiork.h-its.org/layouts/content/docuRESTfulWeb/RESTWebserviceIntro.gsp
- Python 示例:https://sabiork.h-its.org/layouts/content/docuRESTfulWeb/searchPython.gsp
下载命令(示例)
1 | mkdir -p data/sabiork && cd data/sabiork |
Rhea
- 内容:酶促反应本体、与 EC、ChEBI、UniProt 等映射,适合反应级标签或知识图。
- 门户:https://www.rhea-db.org/
- 下载页(Turtle/TSV 等):https://www.rhea-db.org/help/download
下载命令(示例)
1 | mkdir -p data/rhea && cd data/rhea |
聚合酶注意:BRENDA / SABIO 中条目按 EC、物种与反应式组织,训练模型时需核对底物是否为 DNA/RNA 聚合,避免错将其它水解/转移反应标成聚合酶任务。
3. 三维结构
PDB(wwPDB)
- 内容:实验解析结构;聚合酶家族可参考多条代表条目。
- 检索:https://www.rcsb.org/
- 批量数据(FTP):https://www.wwpdb.org/ftp/pdb-ftp-sites#sub-ftp-services(各中心镜像链接见该页)
下载命令(示例)
1 | mkdir -p data/pdb && cd data/pdb |
AlphaFold 蛋白质结构数据库(EBI)
- 内容:预测结构,覆盖大量 UniProt;无实验结构时作构象先验或接触约束(注意置信度与结构域)。
- 门户:https://alphafold.ebi.ac.uk/
- 批量下载说明:https://alphafold.ebi.ac.uk/download
下载命令(示例)
1 | mkdir -p data/alphafold && cd data/alphafold |
CATH
- 内容:结构域与折叠分类,便于按家族划分训练/测试。
- 门户:https://www.cathdb.info/
- 下载:https://www.cathdb.info/download
下载命令(示例)
1 | mkdir -p data/cath && cd data/cath |
SCOPe
- 内容:蛋白结构分类(与 CATH 类似用途,择一或交叉验证划分)。
- 门户:https://scop.berkeley.edu/
- 下载:https://scop.berkeley.edu/downloads/
下载命令(示例)
1 | mkdir -p data/scope && cd data/scope |
与 DeepEnzyme 等「序列 + 结构」联合输入的管线对接时,需核对作者使用的结构来源(实验 vs 预测)与预处理脚本。
4. 深度突变扫描与突变效应基准
ProteinGym
- 内容:大规模 DMS 替代/插入评分基准,用于训练或评估突变效应预测模型。
- 项目站:https://proteingym.org/
- GitHub:https://github.com/OATML-Markslab/ProteinGym
- Hugging Face 数据集(示例镜像):https://huggingface.co/datasets/OATML-Markslab/ProteinGym
下载命令(示例)
1 | mkdir -p data/proteingym && cd data/proteingym |
MaveDB
- 内容:存档多种 MAVE(multiplexed assays of variant effect)实验;可按目标蛋白检索是否有聚合酶相关研究。
- 门户:https://www.mavedb.org/
- API 文档:https://www.mavedb.org/docs/docs/mavedb-api
下载命令(示例)
1 | mkdir -p data/mavedb && cd data/mavedb |
注:MaveDB 常按 score set 单独导出,建议在站内定位目标条目后下载 TSV/CSV。
DMS 文献补充材料
- 内容:单篇论文 Supplementary Tables 常含完整突变–适应度表;无统一中心时,宜通过期刊页面或 Zenodo / Figshare DOI 获取。
- 综合数据集示例(VEP 相关汇总,非酶专一):https://github.com/allydunham/dms_mutations
下载命令(示例)
1 | mkdir -p data/dms && cd data/dms |
说明:ProteinGym 覆盖大量蛋白家族,未必含你关心的特定 DNA 聚合酶;可作通用预训练或迁移学习,再以自有筛选数据微调。
5. 通用蛋白质表征基准(非酶专一)
TAPE
- 用途:评估蛋白质迁移学习在二级结构、接触、remote homology 等任务上的表现;不直接提供酶动力学回归标签。
- GitHub(任务定义与数据获取脚本):https://github.com/songlab-cal/tape
具体 预处理后数据路径 以仓库 README 与 release 说明为准(部分任务需按脚本从原始来源拉取)。
下载命令(示例)
1 | mkdir -p data/tape && cd data/tape |
适合检验 PLM checkpoint 表征质量,而非替代酶活性回归数据。
6. 论文补充数据、代码与聚合酶相关仓库
通用数据仓储检索
- Zenodo:https://zenodo.org/(可按 DOI、关键词检索附录与数据集)
- Figshare:https://figshare.com/
下载命令(示例)
1 | mkdir -p data/archives && cd data/archives |
DeepEnzyme(示例:酶 kcat 预测,序列 + 结构)
- GitHub:https://github.com/hongzhonglu/DeepEnzyme
处理脚本、权重与训练数据构成以仓库及 Briefings in Bioinformatics 正文为准。
下载命令(示例)
1 | mkdir -p data/deepenzyme && cd data/deepenzyme |
定向进化、高通量筛选类工作还常在 GitHub 单独发布 变异列表、丰度表、活性表;建议检索关键词如 DNA polymerase directed evolution、deep mutational scanning polymerase 并跟进论文 Data availability 段落中的 URL。
7. 使用建议(避免常见坑)
- 条件对齐:同一 kcat 可能在不同 pH、辅助因子下不可比;建模时保留元数据字段。
- 泄漏控制:按 UniProt ID、家族或聚类划分 train/val/test,避免同源泄漏抬高指标。
- 标签语义:「测序读数错误率」≠「体外纯酶错配率」;合并数据前统一表型定义。
- 许可与再分发:商业产品需逐条核对各数据库对批量镜像、二次发布模型权重的条款。
- 链接失效:FTP 目录会随
current_release变更;若 404,回到各站点 Download / Help 首页找最新路径。