地中海贫血检测-HBA2融合基因检测.md

地中海贫血(以下简称“地贫”)是一种常见的溶血性单基因隐性遗传病,主要是由于珠蛋白基因缺陷导致珠蛋白链合成减少或缺如而引起的 。我国长江以南地区,特别是广西、广东、云南、海南是该病的高发区。同时在不同地区具有各地特异的分型,很多数据库也记录了这些分型信息,常用名称和具体变异的信息。比如:HbVar 记录了影响血红蛋白的变异和地贫相关的突变(截至20240325,地贫相关突变有541条记录, ithanet记录了大量突变,同事可以基于突变的蛋白链和地贫类型进行一些筛选,同时提供了一些common的名称,对于初接触的人可以从这里根据常用名称查找具体突变信息。比如常见的 -α3.7、-α4.2、–SEA、和–THAI,其实都是对应一种具体的突变,
alt text

目前临床实践中常规使用的检测试剂盒,主要是针对中国人群的常见基因突变。 导致地贫表型的 α2 珠蛋白融合基因于 2013 年首次报道 ,其人群分布尚不清楚,常规试剂盒常不包含该检测位点,故此突变的临床检测是目前所面临的一个具体问题。[^1]

α2 珠蛋白融合基因(HBA1/HBA2) 是在配子生成过程中,α2 珠蛋白基因与 Ψα1 发生了片段重组, 改变了 α2 珠蛋白基因的 3’UTR,并引起了多聚腺苷酸信号突变,从而产生广泛的 α2 珠蛋白基因转录本,引起 α+-地贫。 此融合基因的序列结构是 α2珠蛋白基因中有一段序列与 Ψα1 一致,涉及 7 个差异碱基位点,故据此 7 个差异位点,从而实现此基因的准确检测分析。虽然叫HBA的融合基因加测,但是显然,这并不是检测融合的思路(┓( ´∀` )┏。u 因为是,α2 珠蛋白基因与 Ψα1 发生了片段重组后,重组后的序列,仅影响了原,α2 珠蛋白基因末端8个bp的碱基(实际一些临床应用可能都是重点关注前7个位点),所以检测的本质其实更多的是检测固定位点的SNV,如果检测到SNV信号就认为发生了HBA2基因和Ψα1 的融合。
针对 α2珠蛋白融合基因 检测,目前有一些已经发表的方法和专利,但是大部分都是基于实验方案进行检测,比如有:

  1. 基于融合前后基因结构变化,设计引物,通过琼脂糖凝胶电泳法即可检测α珠蛋白Fusion gene的 一种α-地中海贫血相关基因检测试剂盒

结合文献中提供的原始位点,基于序列信息,获得这7个位点在 HBA2基因上的位置,通过基因位置获得染色体位置,最终相关位置信息如下。方便追溯,记录回溯过程如下:

  1. 首先我们通过 NG_000006.1 获得文献中的nt位置对应在HBA2 基因上的位置, 下载 NG_000006.1的genebank文件,相关部分展示如下:
    1
    2
    3
    4
    5
    6
    7
    8
    9
    10
    11
    12
    13
    14
    15
    16
    gene            33739..34573
    /gene="HBA2"
    /gene_synonym="HBA-T2; HBH"
    /note="hemoglobin subunit alpha 2"
    /db_xref="GeneID:3040"
    /db_xref="HGNC:HGNC:4824"
    /db_xref="MIM:141850"
    mRNA join(33739..33870,33988..34192,34335..34573)
    /gene="HBA2"
    /gene_synonym="HBA-T2; HBH"
    /product="hemoglobin subunit alpha 2"
    /transcript_id="NM_000517.6"
    /db_xref="GeneID:3040"
    /db_xref="HGNC:HGNC:4824"
    /db_xref="MIM:141850"
    CDS join(33776..33870,33988..34192,34335..34463)

我们可以看到HBA2基因全长835bp,对应 NG_000006.1的 33739..34573 区段。

  1. 然后我们通过NCBI,获得HBA2基因的基因序列
1
2
3
4
5
6
7
8
9
10
11
12
13
>NC_000016.9:222875-223709 Homo sapiens chromosome 16, GRCh37.p13 Primary Assembly
ACTCTTCTGGTCCCCACAGACTCAGAGAGAACCCACCATGGTGCTGTCTCCTGCCGACAAGACCAACGTC
AAGGCCGCCTGGGGTAAGGTCGGCGCGCACGCTGGCGAGTATGGTGCGGAGGCCCTGGAGAGGTGAGGCT
CCCTCCCCTGCTCCGACCCGGGCTCCTCGCCCGCCCGGACCCACAGGCCACCCTCAACCGTCCTGGCCCC
GGACCCAAACCCCACCCCTCACTCTGCTTCTCCCCGCAGGATGTTCCTGTCCTTCCCCACCACCAAGACC
TACTTCCCGCACTTCGACCTGAGCCACGGCTCTGCCCAGGTTAAGGGCCACGGCAAGAAGGTGGCCGACG
CGCTGACCAACGCCGTGGCGCACGTGGACGACATGCCCAACGCGCTGTCCGCCCTGAGCGACCTGCACGC
GCACAAGCTTCGGGTGGACCCGGTCAACTTCAAGGTGAGCGGCGGGCCGGGAGCGATCTGGGTCGAGGGG
CGAGATGGCGCCTTCCTCTCAGGGCAGAGGATCACGCGGGTTGCGGGAGGTGTAGCGCAGGCGGCGGCTG
CGGGCCTGGGCCGCACTGACCCTCTTCTCTGCACAGCTCCTAAGCCACTGCCTGCTGGTGACCCTGGCCG
CCCACCTCCCCGCCGAGTTCACCCCTGCGGTGCACGCCTCCCTGGACAAGTTCCTGGCTTCTGTGAGCAC
CGTGCTGACCTCCAAATACCGTTAAGCTGGAGCCTCGGTAGCCGTTCCTCCTGCCCGCTGGGCCTCCCAA
CGGGCCCTCCTCCCCTCCTTGCACCGGCCCTTCCTGGTCTTTGAATAAAGTCTGAGTGGGCAGCA

我们可以看到HBA2 基因的835bp 对应的染色体位置是 NC_000016.9(chr16):222875-223709, 所以借此,我们可以基于文献中提供的 nt34528T>C 获得该位点在基因HBA2上的相对位置 789,然后根据HBA2的染色体位置获得对应的染色体位置 chr16:173764 (38基因组)和 chr16:223663(hg19基因组) 。

七个SNP位点最终的位置对应关系如下:
| nt | HBA2 gene site | 染色体位置(38 NC_000016.10:172876-173710) | 染色体位置(hg19 NC_000016.9:222875-223709) |
| ———- | ————– | —————————————– | —————————————— |
| nt34528T>C | c.789T>C | 173764 | 223663 |
| nt34532A>C | c.793A>C | 173768 | 223667 |
| nt34535G>A | c.796G>A | 173771 | 223670 |
| nt34538C>A | c.799C>A | 173774 | 223673 |
| nt34546G>A | c.807G>A | 173782 | 223681 |
| nt34556A>G | c.817A>G | 173792 | 223691 |
| nt34562T>C | c.822T>C | 173797 | 223696 |

  1. 文章位点的最终确认
    同时我们也在另一篇文献[^2]中看到了研究这7个变异位点的文章,提供了比较长的序列,经过对比和我们最终得到的参考序列一致。
    alt text
    1
    2
    3
    4
    5
    6
    7
    8
    9
    >NC_000016.10:172876-173710 HBA2 的 769-835
    AACGGGCCCTCC TCCCCTCC\
    TT GCACCGGCCC TTCCTGGTCT TTGAATAAAG TCTGAGTGGG CAGCA
    C C A A A G C
    3 3 3 3 3 3 3
    4 4 4 4 4 4 4
    5 5 5 5 5 5 5
    2 3 3 3 4 5 6
    8 2 5 8 6 6 2

同时,我们也查看了一些样本的数据,可以看到一些HBA2融合样本和非融合的样本在这些位点缺失有非常明显的差异。
alt text

alt text
我们可以看到,阳性样本和阴性样本在这几个位点存在明显的差异,用这7个位点进行HBA2融合基因的检测性能不会有什么瓶颈。

  1. 建立预测模型
    其实通过查看上面的截图,可以看到,其实两类数据的区分度非常明显。对手上的阴阳性数据也进行了一些简单的统计,发现除了nt34562位点外,其他的6个位点,进行任意的单一指标的统计量都存在明显的差异。
column cut neg_max pos_min
nt34528 0.2551733780760626 0.2083333333333333 0.3020134228187919
nt34532 0.2622971285892634 0.2134831460674157 0.3111111111111111
nt34535 0.23971471471471467 0.1888888888888888 0.2905405405405405
nt34538 0.24000000000000002 0.2 0.28
nt34546 0.2242424242424242 0.1818181818181818 0.2666666666666666
nt34556 0.16107579053036636 0.127906976744186 0.1942446043165467
nt34562 1.0 1.0 1.0

所以在这里面,我们也不太有必要进行画蛇添足的复杂模型应用,首先我们剔除掉对最终判断没有太大帮助的nt34562位点,然后建立模型。模型也可以比较简单的对单个位点根据测试数据取得二分类的阈值(在这里面使用pos的最小值和neg的最大值的平均值,因为数据分离度很大,在这里面也没有使用ROC之类方法的必要性)。
剔除一个位点后,我们还有6个位点用于判断,我们简单的指定个标准,有4个及以上位点的状态定义为样本的最终状态。

references

[^1]: 2021.10 α-地中海贫血融合基因检测方法及应用评价
[^2]: 2019 一个黎族α-地中海贫血融合基因遗传家系的鉴定_胡俊杰.pdf)

-------------本文结束感谢您的阅读-------------