Database-ENCODE-人类基因组_黑名单

高通量测序检测基因组变异的过程依赖准确的基因组注释和绘图。而在组装困难的区域存在底层注释的不一致(T2T基因组的到来也许可以有效的缓解这个问题带来的影响)。但是在hg19和38的人类基因组中,相对于实际的基础基因组序列,参考序列中的重复区会由于区域的特殊性出现测序数据的富集或测序数据中模板的代表性不足导致整体组装结果出现噪音。这些有问题的区域其实没有得到足够的关注,通常被忽略或过滤掉。
在ENCODE的项目中,使用 blacklist 来排除基因组组装结果中的错误信号和假阳性信号区域带来的影响。
同时为了客观的方式生成黑名单,ENCODE 开发了一套程序来标记具有假阳性信号的区域。构建的方式是基于大量的样本。

构建方式

参考github项目
项目已经针对hg19和GRCh38基因组提供了构建好的黑名单信息。
其中Hg19的黑名单说明

reference

  1. The ENCODE Blacklist: Identification of Problematic Regions of the Genome
    pdf下载
-------------本文结束感谢您的阅读-------------