人类参考基因组序列知多少

做人源相关的研究,不管是科研探索还是医学方向的临床应用。都离不开人类参考基因组的使用。人类参考基因组有很多版本,在2022年也新发布了T2T的全基因组完整图谱。之前我们可能了解到的只有Hg19和GRCh38比较多。知道Hg19是旧的,GRCh38是更新的版本。所以借此机会,捋一下人类基因组参考序列发布的时间节点,同时也梳理下各个不同版本参考基因组版本的特点。

第一阶段 - 国际人类基因组测序联盟

提到人类基因组,离不开人类基因组计划,这项计划和曼哈顿原子弹计划 、阿波罗登月计划并称为20世纪人类三大科学计划。
人类基因组计划 (HGP)于 1990年 启动,该计划的标志性目标是对人类基因组的 30 亿个碱基 进行测序。其他目标包括生成人类基因组的物理和遗传图谱,以及生物医学研究中使用的关键模型生物的绘图和测序。为了执行人类基因组测序的这部分工作,国际人类基因组测序联盟 (IHGSC) 成立,这是一个开放式合作组织,涉及六个国家的 20 个中心,包括美国、英国、法国、德国、日本和我国科学家。
1998年,HGP正式实施了百慕大原则:自动发布>1kb的序列组装体,最好在24小时内;立即出版完成的注释序列;并将整个序列在公共领域免费提供以供研究和开发。来尽可能规避专利和商业化问题限制基因组序列的应用。
2000年3月14日,美国总统克林顿和英国首相托尼·布莱尔 联合宣布人类基因组序列“应该世界各地的科学家都可以免费获得”
2001年,国际人类基因组测序联盟(the International Human Genome Sequencing Consortium)报告了人类基因组常染色质部分的草图序列。
2001年2月,同时发表了两篇文章(由Venter 等人在 Science国际人类基因组测序联盟在 Nature 上发表),描述了人类基因组测序草案基因组序列。该序列包括 26,588 个有强有力确凿证据的蛋白质编码转录本,以及另外约 12,000 个具有小鼠同源物或其他薄弱证据的计算衍生基因。
2004年,HGP的工作最终发表了高度准确(每 100,000 个碱基约 1 个错误)的人类基因组序列(Build 35/hg17)包含 28.5 亿个核苷酸,仅被 341 个缺口打断,覆盖了约 99% 的常染色质基因组。项目内容发表在Nature:Finishing the euchromatic sequence of the human genome,此前发布的版本还有NCBI33NCBI34NCBI35
2006年,国际人类基因组测序联盟提交了他们的最终版本的参考基因组序列(NCBI36/hg18)。

第二阶 - 段参考基因组联盟

后续人类参考基因组由 GRC(Genome Reference Consortium)进行维护。
GRC 也是有多个国家机构组成,成员包括Sanger研究所McDonnell基因研究所EMBL-EBI:欧洲生物信息研究所NCBI:国际生物信息中心等。

2009年,GRC 发布了GRCh37,也就是搭乘基因测序发展的快车,成为行业内使用最多的 Hg19。该参考基因组于2009年发布,后续共计进行了13个补丁版本的发布。其中最后一个修正版本 GRCh37.p13 发布于2013年6月。是人类基因组的第19版参考序列,完成了2.9GB长度的测序(总预计3.1GB)。包含了基因、非编码区域和其他功能元件的位置信息。

2013年底GRC 发布了[GRCh38],截止2022年2月,GRCh38累计发布了14个修正版本。

在人类基因组草图发布后的20多年里,随着技术的进步不断进行和升级,我们可以看到参考基因组序列也一直在进行着非常高频升级和迭代。早期的基因组版本,NCBI33、NCBI34、NCBI35、NCBI36已经退出了历史的舞台,甚至于很多人可能不曾听到。而Hg19、GRCh38为疾病研究、医学研究等研究的开展奠定了基础,极大的推进了人类科学研究进展。但放眼整个人类参考基因组仍然仅仅覆盖了基因组的常染色质部分,而重要的异染色质区域由于技术上的问题,一直存在缺失,整个基因组中仍有8%的区域未覆盖。

参考基因组 GRCh37 GRCh38.p14
Ref.Version GRCh37 GRCh38
Genome size 3.1 Gb 3.1 Gb
Total ungapped length 2.9 Gb 2.9 Gb
Gaps between scaffolds 271 349
Number of chromosomes 24 24
Number of scaffolds 249 473
Scaffold N50 46.4 Mb 67.8 Mb
Scaffold L50 21 16
Number of contigs 350 999
Contig N50 38.5 Mb 57.9 Mb
Contig L50 24 18
GC percent 40.5 40.5
Assembly level Chromosome Chromosome

第三阶段 - T2T联盟

2022年Telomere-to-Telomere (T2T)国际研究联盟基于细胞系(葡萄胎)构建了第一个完整的从头到尾无间隙人类参考基因组T2T-CHM13,填补了最后缺失的约2亿碱基对的测序,成果发布在Science上发表(“The complete sequence of a human genome”)。该研究针对CHM13进行了多种测序(包括30× PacBio HiFi 、120× ONT 、100× ILMN、70× Hi-C 、BioNano optical maps 、Strand-seq )并结合新开发的组装算法,组装增加了五个完整的染色体臂,实现了除 Y 染色体之外的所有染色体的无间隙组装。T2T-CHM13 组装代表了比 GRCh38 更完整、更具代表性和更准确的参考。
image

2023年7月14日,浙江大学张国捷教授团队与深圳农业基因组研究所阮珏团队,以及华大生命科学研究院合作,通过开发算法,以个体的父本和母本数据作为参考系,完美地将不同染色体上的数据区分,将人的46条染色体的数据分别组装出来。然后对因为数据过于复杂而仍然存在的69个缺口进行了手工补洞。最终,获得了健康个体(汉族男性)的完整二倍体基因组。该完整基因组作为东亚人群遗传学研究的参考序列,可以提高东亚人群的序列比对并降低错误率,对单碱基多态性的检测准确率也会更高。该完整图谱的绘制,为我国开展精准医疗研究提供了更准确的参考基因组。

在人类全基因组图发布不久,上海交通大学毛亚飞课题组在Genome Biology发表题为Characterization of large-scale genomic differences in the first complete human genome的研究论文,比较分析了T2T-CHM13完整基因组与当前人类参考基因组模版(GRCh38)之间的大规模基因组差异。,系统地表征了两个人类基因组组装之间的大型结构变异(≥10 kbp),通过新开发的结构变异分析工具网站(SynPlotter)验证238个基因组差异区域并发现了67个新鉴定的结构差异区域。

参考资料

相关文献

相关基因组获取

Milestones in Genomic Sequencing

-------------本文结束感谢您的阅读-------------