目前三个高通量数据合并
针对动物,植物,微生物的划分进行去除;将目前的动物,植物.微生物三个高通量测序数据库进行整合;合并为一个数据库 高通量测序数据库 :
合并原因:
- 有些项目有可能是存在跨物种的情况,进行分类的时候会产生问题(数据冗余或数据的缺失);
- 物种的分类进行无法直接获取,如果区分需要人工整理,后期自动更新受影响;
- 提供物种检索后,数据库的合并不会收到影响;
高通量测序数据库
类别 | NCBI | DDBJ | EBI |
---|---|---|---|
项目 | PRJNAxxx / SRPxxx | PRJDxxxxx | |
样品 | SAMN03085625 / SRSxxx | SAMDxxxxxx | |
实验 | SRXxxxx | DRAxxxxxx |
http://trace.ddbj.nig.ac.jp/bioproject/index_e.html
http://trace.ddbj.nig.ac.jp/biosample/index_e.html
http://trace.ddbj.nig.ac.jp/dra/index_e.html
数据获取
项目获取页面 NCBI项目
项目ID 拼出xml文件下载路径:
http://eutils.ncbi.nlm.nih.gov/entrez/eutils/efetch.fcgi?db=bioproject&retmode=xml&id=301661样品获取页面 NCBI样品
进入样品页面,获得样品的uid,拼出xml文件下载路径:
http://eutils.ncbi.nlm.nih.gov/entrez/eutils/efetch.fcgi?db=biosample&retmode=xml&id=1047767