人类参考基因组序列知多少

做人源相关的研究,不管是科研探索还是医学方向的临床应用。都离不开人类参考基因组的使用。人类参考基因组有很多版本,在2022年也新发布了T2T的全基因组完整图谱。之前我们可能了解到的只有Hg19和GRCh38比较多。知道Hg19是旧的,GRCh38是更新的版本。所以借此机会,捋一下人类基因组参考序列发布的时间节点,同时也梳理下各个不同版本参考基因组版本的特点。

第一阶段 - 国际人类基因组测序联盟

提到人类基因组,离不开人类基因组计划,这项计划和曼哈顿原子弹计划 、阿波罗登月计划并称为20世纪人类三大科学计划。
人类基因组计划 (HGP)于 1990年 启动,该计划的标志性目标是对人类基因组的 30 亿个碱基 进行测序。其他目标包括生成人类基因组的物理和遗传图谱,以及生物医学研究中使用的关键模型生物的绘图和测序。为了执行人类基因组测序的这部分工作,国际人类基因组测序联盟 (IHGSC) 成立,这是一个开放式合作组织,涉及六个国家的 20 个中心,包括美国、英国、法国、德国、日本和我国科学家。
1998年,HGP正式实施了百慕大原则:自动发布>1kb的序列组装体,最好在24小时内;立即出版完成的注释序列;并将整个序列在公共领域免费提供以供研究和开发。来尽可能规避专利和商业化问题限制基因组序列的应用。
2000年3月14日,美国总统克林顿和英国首相托尼·布莱尔 联合宣布人类基因组序列“应该世界各地的科学家都可以免费获得”
2001年,国际人类基因组测序联盟(the International Human Genome Sequencing Consortium)报告了人类基因组常染色质部分的草图序列。
2001年2月,同时发表了两篇文章(由Venter 等人在 Science国际人类基因组测序联盟在 Nature 上发表),描述了人类基因组测序草案基因组序列。该序列包括 26,588 个有强有力确凿证据的蛋白质编码转录本,以及另外约 12,000 个具有小鼠同源物或其他薄弱证据的计算衍生基因。
2004年,HGP的工作最终发表了高度准确(每 100,000 个碱基约 1 个错误)的人类基因组序列(Build 35/hg17)包含 28.5 亿个核苷酸,仅被 341 个缺口打断,覆盖了约 99% 的常染色质基因组。项目内容发表在Nature:Finishing the euchromatic sequence of the human genome,此前发布的版本还有NCBI33NCBI34NCBI35
2006年,国际人类基因组测序联盟提交了他们的最终版本的参考基因组序列(NCBI36/hg18)。

第二阶 - 段参考基因组联盟

后续人类参考基因组由 GRC(Genome Reference Consortium)进行维护。
GRC 也是有多个国家机构组成,成员包括Sanger研究所McDonnell基因研究所EMBL-EBI:欧洲生物信息研究所NCBI:国际生物信息中心等。

2009年,GRC 发布了GRCh37,也就是搭乘基因测序发展的快车,成为行业内使用最多的 Hg19。该参考基因组于2009年发布,后续共计进行了13个补丁版本的发布。其中最后一个修正版本 GRCh37.p13 发布于2013年6月。是人类基因组的第19版参考序列,完成了2.9GB长度的测序(总预计3.1GB)。包含了基因、非编码区域和其他功能元件的位置信息。

2013年底GRC 发布了[GRCh38],截止2022年2月,GRCh38累计发布了14个修正版本。

在人类基因组草图发布后的20多年里,随着技术的进步不断进行和升级,我们可以看到参考基因组序列也一直在进行着非常高频升级和迭代。早期的基因组版本,NCBI33、NCBI34、NCBI35、NCBI36已经退出了历史的舞台,甚至于很多人可能不曾听到。而Hg19、GRCh38为疾病研究、医学研究等研究的开展奠定了基础,极大的推进了人类科学研究进展。但放眼整个人类参考基因组仍然仅仅覆盖了基因组的常染色质部分,而重要的异染色质区域由于技术上的问题,一直存在缺失,整个基因组中仍有8%的区域未覆盖。
|参考基因组|GRCh37|GRCh38.p14|
|-|-|-|
|Ref.Version|GRCh37|GRCh38|
|Genome size|3.1 Gb|3.1 Gb|
|Total ungapped length|2.9 Gb|2.9 Gb|
|Gaps between scaffolds|271|349|
|Number of chromosomes|24|24|
|Number of scaffolds|249|473|
|Scaffold N50|46.4 Mb|67.8 Mb|
|Scaffold L50|21|16|
|Number of contigs|350|999|
|Contig N50|38.5 Mb|57.9 Mb|
|Contig L50|24|18|
|GC percent|40.5|40.5|
|Assembly level|Chromosome|Chromosome|

第三阶段 - T2T联盟

2022年Telomere-to-Telomere (T2T)国际研究联盟基于细胞系(葡萄胎)构建了第一个完整的从头到尾无间隙人类参考基因组T2T-CHM13,填补了最后缺失的约2亿碱基对的测序,成果发布在Science上发表(“The complete sequence of a human genome”)。该研究针对CHM13进行了多种测序(包括30× PacBio HiFi 、120× ONT 、100× ILMN、70× Hi-C 、BioNano optical maps 、Strand-seq )并结合新开发的组装算法,组装增加了五个完整的染色体臂,实现了除 Y 染色体之外的所有染色体的无间隙组装。T2T-CHM13 组装代表了比 GRCh38 更完整、更具代表性和更准确的参考。
image

2023年7月14日,浙江大学张国捷教授团队与深圳农业基因组研究所阮珏团队,以及华大生命科学研究院合作,通过开发算法,以个体的父本和母本数据作为参考系,完美地将不同染色体上的数据区分,将人的46条染色体的数据分别组装出来。然后对因为数据过于复杂而仍然存在的69个缺口进行了手工补洞。最终,获得了健康个体(汉族男性)的完整二倍体基因组。该完整基因组作为东亚人群遗传学研究的参考序列,可以提高东亚人群的序列比对并降低错误率,对单碱基多态性的检测准确率也会更高。该完整图谱的绘制,为我国开展精准医疗研究提供了更准确的参考基因组。

在人类全基因组图发布不久,上海交通大学毛亚飞课题组在Genome Biology发表题为Characterization of large-scale genomic differences in the first complete human genome的研究论文,比较分析了T2T-CHM13完整基因组与当前人类参考基因组模版(GRCh38)之间的大规模基因组差异。,系统地表征了两个人类基因组组装之间的大型结构变异(≥10 kbp),通过新开发的结构变异分析工具网站(SynPlotter)验证238个基因组差异区域并发现了67个新鉴定的结构差异区域。

参考资料

相关文献

相关基因组获取

Milestones in Genomic Sequencing

-------------本文结束感谢您的阅读-------------