生信相关公共数据库

整体数据库列表
|数据库|地址|简介|
|-|-|-|
|TCGA-GDC|https://portal.gdc.cancer.gov/|TCGA官网|
|GEPIA|http://gepia.cancer-pku.cn/|包含TCGA和GTEx|的9736个肿瘤和8687个正常对照样本的RNA-seq数据。可提供在线分析。|
|cBioPortal|http://www.cbioportal.org/|数据包括MUT(Mutation突变),CNA(Copy|Number|Alterations,拷贝数变化),EXP(mRNA|Expression,mRNA表达)和PORT/RPPA(Protein/|phosphoprotein|level,蛋白表达或磷酸化变化),部分数据含有临床信息。|
|MethHC|http://methhc.mbc.nctu.edu.tw/php/index.php|目前包含由Illumina|HumanMethylation450K|BeadChip产生的6548个DNA甲基化数据和由18个人癌症中的RNA-seq|/|miRNA-seq产生的12|567个mRNA|/|microRNA表达数据。|
|WebMEV|http://mev.tm4.org/#/welcome|可上传数据或下载TCGA或GEO数据|
|DriverDBv2|http://driverdb.tms.cmu.edu.tw/driverdbv2/index.php|肿瘤驱动基因查询|
|NCBI-gene|https://www.ncbi.nlm.nih.gov/gene|是分子生物学,生物化学,和遗传学知识的存储和分析的自动系统。|
|GeneCards|https://www.genecards.org/|收录关于人的蛋白质编码基因、假基因、RNA基因、遗传基因座、基因簇和未分类的基因等详细信息。|
|ICGC|https://icgc.org/|收集了50种不同癌症类型(或亚型)的肿瘤数据,其中包括基因异常表达,体细胞突变,表观遗传修饰,临床数据等。ICGC包括亚洲、澳大利亚、欧洲、北美和南美17个行政区的89项目,包括25000个癌症基因组。|
|HPA|https://www.proteinatlas.org/ |包括三大亚图谱:组织图谱、细胞图谱和病理图谱。可交互式展示数据。|
|UCSC|http://genome.ucsc.edu/|包含多个重要物种基因组草图,与ENCODE同步更新。可在线分析。|
|OncoKB|https://oncokb.org/ |包含有关554种癌症基因特定改变的详细信息,还有1级(FDA批准)、2级(标准护理)的治疗信息,3级临床证据和生物学证据。|
|MalaCards|https://www.malacards.org/|疾病相关基因查询|
|GEO|https://www.ncbi.nlm.nih.gov/gds|芯片数据库|
|SRA|https://www.ncbi.nlm.nih.gov/sra/|测序数据库|
|ArrayExpress|https://www.ebi.ac.uk/arrayexpress/|欧洲版GEO|
|DAVID|http://david.abcc.ncifcrf.gov/tools.jsp|功能富集分析|
|String|http://string-db.org/|蛋白互作查询+功能富集分析|
|GSEA|http://software.broadinstitute.org/gsea/index.jsp|功能富集分析|

规范化数据库

肿瘤相关数据库

  • TCGA
    肿瘤基因组图谱(TCGA)计划是由美国National Cancer Institute(NCI)和National Human Genome ResearchInstitute(NHGRI)于2006年联合启动的项目,作为目前最大的癌症基因信息数据库,收录33个癌种其中10个罕见癌种,及29种癌症器官,1万多个肿瘤样本,27万多份文件,含有多模式基因组学、表观基因组学和蛋白质组学数据。数据包括全基因组不同遗传特征的测量,如同一基因的DNA拷贝数、DNA甲基化、mRNA表达、SNP等。
    参考文献:The Cancer Genome Atlas (TCGA): an immeasurable source of knowledge

  • cBioportal
    cBioPortal数据库整合了126个肿瘤基因组研究的数据,包括TCGA和ICGC等大型的肿瘤研究项目,涵盖了两万八千例标本的数据,此外部分样品还包括了临床预后等表型的信息。cBioPortal用于探索,可视化和分析多维癌症基因组学数据。将癌症组织和细胞系的分子谱分析数据简化为易于理解的遗传,表观遗传,基因表达和蛋白质组学事件。查询界面与定制数据存储相结合,使研究人员能够以交互方式探索样本,基因和途径的基因改变,并在基础数据中提供时将这些与临床结果联系起来。提供来自多个平台的基因水平数据的图形摘要,网络可视化和分析,生存分析,以患者为中心的查询和软件程序化访问。

  • Cosmic(Catalogue Of Somatic Mutations In Cancer)
    是目前世界上最大和最综合性的数据库,可以帮助我们探索癌症患者体细胞突变的功能及影响。癌症相关的体细胞位点,是整个网站的核心,收录了来自不同研究机构和数据库的体细胞突变数据,并提供了方便的浏览,检索,下载功能。

  • Cell Lines Projec
    对癌症研究中常用的细胞系样本进行深入研究,分析其突变信息。相比COSMIC, 整个项目中涵盖的变异数据会少一点。

  • COSMIC-3D 通过交互式的网页,展现了基因突变导致的蛋白结构域的变化。在搜索框中输入一个具体的基因名称或者蛋白名称,可以查看具体的记录。

  • Cancer Gene Census
    在癌症研究中,找到相关的突变基因是最核心的目的之一。通过对各种癌症进行调研,整理了一份癌症相关的突变基因列表,这份列表就是Cancer Gene Census,简称CGC。
    在CGC种,将所有的癌症相关基因分成两类:

    • Tier1 : 对于这部分基因,有充分的证据表明,正是由于这些基因的突变,导致癌症的进一步发生。
    • Tier2 : 对于这部分基因,只能说在癌症中检测到了大量该基因的突变,但是并没有充分证据表明该基因突变对癌症发生的影响。
  • My cancer Genome
    我的癌症基因组包含有关癌症相关基因,蛋白质和其他生物标志物类型的分子生物标志物在癌症中使用抗癌疗法的临床影响的信息。

  • ICGC
    ICGC(International Cancer Genome Consortium,国际肿瘤基因组协作组),主要目标是全面阐明导致全球人类疾病负担的多种癌症中存在的基因组变化。收集了50种不同癌症类型(或亚型)的肿瘤数据,其中包括基因异常表达,体细胞突变,表观遗传修饰,临床数据等。ICGC包括亚洲、澳大利亚、欧洲、北美和南美17个行政区的89项目,包括25000个癌症基因组

  • OncoKB
    OncoKB是由Memorial Sloan Kettering癌症中心(MSK)维护的全面的精准肿瘤学知识库,包含来自FDA,NCCN或ASCO,ClinicalTrials.gov和科学文献的专业指导方针和建议,治疗策略,肿瘤专家或肿瘤协会共识,参考文献等信息。OncoKB目前包含有关554种癌症基因特定改变的详细信息,还有1级(FDA批准)、2级(标准护理)的治疗信息,3级临床证据和生物学证据。

人群数据库

  • ExAC/gnomAD.
    汇总了来自60,706个个体的完整外显子序列,并在这些志愿者的同意下,通过外显子集成联合(Exome Aggregation consortium ,ExAC,生物通译)共享这些序列信息。

  • 1000 Genomes Project

  • dbSNP

  • Exome Variant Server :
    在欧洲和非洲裔美国血统的几个大群体的外显子组测序期间发现的变体数据库。

功能预测数据库

  • Polyphen2
  • SIFT
  • MutationAssessor
    用Mutation-Assessor软件来看突变位点对基因或者蛋白功能的影响,
  • MutationTaster
  • [PhyloP]
    生成蛋白模型图
  • [PhastCons49]
    计算序列保守性
  • Human Splicing Finder
    为了更好地理解导致剪接缺陷的内含子和外显子突变,决定创建Human Splicing Finder网站。 该工具旨在帮助研究前mRNA剪接[更多关于剪接背景]。
  • MaxEntScan
    预测突变的软件?类似注释(内含子等)
  • NetGene2
    A service producing neural network predictions of splice sites in human, C. elegans and A. thaliana DNA. The prediction output for both server and mail server consist of the prediction for both direct (+) and complementary (-) strand. The output lists the predictions for donor and acceptor sites in the submitted sequence, as well as branchpoint predictions (for A. thaliana only).
  • NNSplice
    剪切位点预测。
  • GeneSplicer
    剪切位点预测。

其他数据库

  • UCSC

  • ClinVar
    clinvar的注释,可以寻找出对应的基因变异信息,发生频率,表型,临床意义,评审状态以及染色体位置等。

  • HGMD
    疾病基因突变注释数据库,收集文献发表的基因变异与疾病的关系信息
  • GEO
    GEO数据库全称GENE EXPRESSION OMNIBUS,是由美国国立生物技术信息中心NCBI创建并维护的基因表达数据库,用于从任何物种或人造的来源检索基因表达数据。它创建于2000年,收录了世界各国研究机构提交的来自microarray,高密度寡核苷酸array(HAD),杂交膜(filter)和SAGE的许多类型的基因表达数据,目前已经发表的论文,论文中涉及到的基因表达检测的数据可以通过此数据库中找到。作为一个公共数据集合含有一系列预先计算的数据的定义和描述,以及用于交互检索和分析表达数据的在线工具。

  • MethHC
    MethHC专注于人类疾病的异常甲基化。MethHC整合了来自TCGA的DNA甲基化数据,基因表达数据和microRNA表达数据。MethHC目前包含由Illumina HumanMethylation450K BeadChip产生的6548个DNA甲基化数据和由18个人癌症中的RNA-seq / miRNA-seq产生的12 567个mRNA / microRNA表达数据。

  • HPA
    人类蛋白质表达图集(The human protein atlas)涵盖了17000个不同蛋白及26009种不同抗体的蛋白质水平分析。现在人类蛋白质图谱共包括三大亚图谱:组织图谱、细胞图谱和病理图谱。组织图谱包含了人类基因在RNA和蛋白质水平的表达信息。其中,蛋白质表达信息是来自免疫组化分析结果,依赖于无数商业化或者自制的抗体。细胞图谱包含人类细胞内蛋白质的空间信息。病理图谱涵盖了17种主要癌症类型、大约8000名病人的信息。病理图谱的一个创新是交互式生存散点图,可以以交互形式展示病人的生存数据。
    参考文献文档及文献:http://www.proteinatlas.org/about/publications

  • String
    String(search tool for the retrival of interacting genes/proteins)基因、蛋白质相互作用关系检索工具
    可以获取独特的,覆盖范围广的实验以及预测的相互作用关系信息。string提供的相互作用关系主要基于confidence score(可靠指数),以及其他附属信息,比如提供蛋白质域和3D结构。目前包括1100+个物种的5200+万蛋白质。构建蛋白质蛋白质相互作用网络可以用于过滤和评估功能性基因组学的数据,以及为注释蛋白质的结构、功能和进化性。

  • GeneCards
    基本覆盖了几大数据库对于基因的分析数据,是人类基因的综合数据库。该数据库整合了125个网站的基因数据中心的数据(包括HUGO(Human Gene Nomenclature Committee)、GDB(Genome Database)、MGD(Mouse Genome Database)等)。由以色列魏茨曼科学研究所维护的关于基因及其产物以及生物医学应用的文献库。
    GeneCards提供简明的基因组,蛋白质组,转录,遗传和功能上所有已知和预测的人类基因。GeneCards中的信息功能信息包括指向疾病的关系,突变和多态性,基因表达,基因功能,途径,蛋白质与蛋白质相互作用,相关的药物及化合物和切割等先进的研究抗体的试剂和工具等,重组蛋白,克隆,表达分析和RNAi试剂等。(还有各种数据库ID相互转换)

    GeneCards以卡片的形式给出结果,列出所查询基因的

    • 1、官方名称,GDB同义列表、小鼠中的同源物、细胞遗传学定位、基因产物名称、产物功能,如在细胞中的作用、表达方式、定位、与其他蛋白质的同源性及其在疾病中的作用等;
    • 2、相关基因家族;
    • 3、相关疾病列表;
    • 4、有关的研究论文;
    • 5、医学应用,如根据该基因的有关知识而建立的新的治疗与诊断方法等。
-------------本文结束感谢您的阅读-------------