概念-基因结构介绍

今天被问到一个问题,基因结构注释中的 CDS1\CDS2\5U1E 是什么意思。简单来说是编码区,但是想想好像从未系统的梳理过基因结构注释结果中的各个概念。所以借此梳理以下。

  • 基因组
    指一个生物体或细胞内所有遗传物质的总和。它不仅包含基因,还包含非基因序列(如端粒、着丝粒等)
    • DNA
      即脱氧核糖核酸,是基因组的化学本质。
      • 核DNA
        • 染色体
          • 编码区: 直接参与蛋白质合成
            • Exon: 基因中被转录并保留在成熟 mRNA 中的片段
              • 5U1E: 位于起始密码子之前。影响核糖体结合及翻译效率
              • CDS : 严格指 mRNA 上从起始密码子到终止密码子之间、能被翻译成蛋白质的核苷酸序列。它对应于基因组中的外显子序列(除去 UTR 部分)
              • 3U1E:位于终止密码子之后。包含 miRNA 结合位点,调控 mRNA 稳定性和翻译效率
            • Intron:基因中位于两个外显子之间的间隔序列。在转录后被剪接体切除,不进入成熟 mRNA
          • 非编码区: 不直接编码蛋白质,但负责调控和结构功能
            • 启动子 (Promoter):通常位于基因转录起始位点的上游 (Upstream)(5’端附近);功能:RNA 聚合酶识别并结合的位置,决定转录是否开始
            • 增强子 (Enhancer):可以位于基因的 上游、下游,甚至内含子中。无方向性。功能:像“加速器”一样显著增强启动子的活性,使基因在特定时空高表达。机制:通过染色质环化(Looping)物理接触启动子发挥作用。
      • 线粒体DNA

alt text

alt text

  1. 编码区(CDS)
    • 以起始密码子ATG的第一个碱基A开始,并记为c.1,以终止密码子(TAA, TAG, TGA)的最后一个碱基为终点。
  2. 内含子区(Intron)
    • 靠近内含子5’末端的变异位点,需依据上游最近外显子的最后一个碱基来定位,如c.87+4,代表上游最近外显子的边界位置为87,变异位点在内含子5’ 端开始的第4个碱基;
    • 靠近内含子3’ 末端的变异位点,要依据下游最近外显子的第一个碱基来定位,如c.88-11,
    • 内含子碱基个数为偶数时,中间碱基平分后按上下游外显子碱基来定位命名,如…,c.87+676, c.87+677, c.87+678, c.88-678, c.88-677, c.88-676, …
    • 内含子碱基个数为奇数时,中间碱基相对于上游外显子最后一个碱基来定位命名,如…,c.87+677, c.87+678, c.87+679, c.88-678, c.88-677, …
  3. 非编码区(UTR区):
    • 起始密码子ATG上游(5’ UTR区)标记为“-”,编号为c.-1, c.-2, c.-3…
    • 终止密码子下游(3’ UTR区)标记为“”,编号为c.1, c.2, c.3…
    • 位于靠近5’ UTR和3’ UTR区的内含子变异位点,命名规则同内含子区,如:5’ UTR区内含子为c.-85+1,c.-84-3等;3’ UTR区内含子为c.37+1,c.38-3等。

参考示意图如下:

-------------本文结束感谢您的阅读-------------