地中海贫血(以下简称“地贫”)是一种常见的溶血性单基因隐性遗传病,主要是由于珠蛋白基因缺陷导致珠蛋白链合成减少或缺如而引起的 。我国长江以南地区,特别是广西、广东、云南、海南是该病的高发区。同时在不同地区具有各地特异的分型,很多数据库也记录了这些分型信息,常用名称和具体变异的信息。比如:HbVar 记录了影响血红蛋白的变异和地贫相关的突变(截至20240325,地贫相关突变有541条记录, ithanet记录了大量突变,同事可以基于突变的蛋白链和地贫类型进行一些筛选,同时提供了一些common的名称,对于初接触的人可以从这里根据常用名称查找具体突变信息。比如常见的 -α3.7、-α4.2、–SEA、和–THAI,其实都是对应一种具体的突变,
目前临床实践中常规使用的检测试剂盒,主要是针对中国人群的常见基因突变。 导致地贫表型的 α2 珠蛋白融合基因于 2013 年首次报道 ,其人群分布尚不清楚,常规试剂盒常不包含该检测位点,故此突变的临床检测是目前所面临的一个具体问题。[^1]
α2 珠蛋白融合基因(HBA1/HBA2) 是在配子生成过程中,α2 珠蛋白基因与 Ψα1 发生了片段重组, 改变了 α2 珠蛋白基因的 3’UTR,并引起了多聚腺苷酸信号突变,从而产生广泛的 α2 珠蛋白基因转录本,引起 α+-地贫。 此融合基因的序列结构是 α2珠蛋白基因中有一段序列与 Ψα1 一致,涉及 7 个差异碱基位点,故据此 7 个差异位点,从而实现此基因的准确检测分析。虽然叫HBA的融合基因加测,但是显然,这并不是检测融合的思路(┓( ´∀` )┏。u 因为是,α2 珠蛋白基因与 Ψα1 发生了片段重组后,重组后的序列,仅影响了原,α2 珠蛋白基因末端8个bp的碱基(实际一些临床应用可能都是重点关注前7个位点),所以检测的本质其实更多的是检测固定位点的SNV,如果检测到SNV信号就认为发生了HBA2基因和Ψα1 的融合。
针对 α2珠蛋白融合基因 检测,目前有一些已经发表的方法和专利,但是大部分都是基于实验方案进行检测,比如有:
- 基于融合前后基因结构变化,设计引物,通过琼脂糖凝胶电泳法即可检测α珠蛋白Fusion gene的 一种α-地中海贫血相关基因检测试剂盒
结合文献中提供的原始位点,基于序列信息,获得这7个位点在 HBA2基因上的位置,通过基因位置获得染色体位置,最终相关位置信息如下。方便追溯,记录回溯过程如下:
- 首先我们通过 NG_000006.1 获得文献中的nt位置对应在HBA2 基因上的位置, 下载 NG_000006.1的genebank文件,相关部分展示如下:
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16gene 33739..34573
/gene="HBA2"
/gene_synonym="HBA-T2; HBH"
/note="hemoglobin subunit alpha 2"
/db_xref="GeneID:3040"
/db_xref="HGNC:HGNC:4824"
/db_xref="MIM:141850"
mRNA join(33739..33870,33988..34192,34335..34573)
/gene="HBA2"
/gene_synonym="HBA-T2; HBH"
/product="hemoglobin subunit alpha 2"
/transcript_id="NM_000517.6"
/db_xref="GeneID:3040"
/db_xref="HGNC:HGNC:4824"
/db_xref="MIM:141850"
CDS join(33776..33870,33988..34192,34335..34463)
我们可以看到HBA2基因全长835bp,对应 NG_000006.1的 33739..34573 区段。
- 然后我们通过NCBI,获得HBA2基因的基因序列
1 | >NC_000016.9:222875-223709 Homo sapiens chromosome 16, GRCh37.p13 Primary Assembly |
我们可以看到HBA2 基因的835bp 对应的染色体位置是 NC_000016.9(chr16):222875-223709, 所以借此,我们可以基于文献中提供的 nt34528T>C 获得该位点在基因HBA2上的相对位置 789,然后根据HBA2的染色体位置获得对应的染色体位置 chr16:173764 (38基因组)和 chr16:223663(hg19基因组) 。
七个SNP位点最终的位置对应关系如下:
| nt | HBA2 gene site | 染色体位置(38 NC_000016.10:172876-173710) | 染色体位置(hg19 NC_000016.9:222875-223709) |
| ———- | ————– | —————————————– | —————————————— |
| nt34528T>C | c.789T>C | 173764 | 223663 |
| nt34532A>C | c.793A>C | 173768 | 223667 |
| nt34535G>A | c.796G>A | 173771 | 223670 |
| nt34538C>A | c.799C>A | 173774 | 223673 |
| nt34546G>A | c.807G>A | 173782 | 223681 |
| nt34556A>G | c.817A>G | 173792 | 223691 |
| nt34562T>C | c.822T>C | 173797 | 223696 |
- 文章位点的最终确认
同时我们也在另一篇文献[^2]中看到了研究这7个变异位点的文章,提供了比较长的序列,经过对比和我们最终得到的参考序列一致。1
2
3
4
5
6
7
8
9>NC_000016.10:172876-173710 HBA2 的 769-835
AACGGGCCCTCC TCCCCTCC\
TT GCACCGGCCC TTCCTGGTCT TTGAATAAAG TCTGAGTGGG CAGCA
C C A A A G C
3 3 3 3 3 3 3
4 4 4 4 4 4 4
5 5 5 5 5 5 5
2 3 3 3 4 5 6
8 2 5 8 6 6 2
同时,我们也查看了一些样本的数据,可以看到一些HBA2融合样本和非融合的样本在这些位点缺失有非常明显的差异。
我们可以看到,阳性样本和阴性样本在这几个位点存在明显的差异,用这7个位点进行HBA2融合基因的检测性能不会有什么瓶颈。
- 建立预测模型
其实通过查看上面的截图,可以看到,其实两类数据的区分度非常明显。对手上的阴阳性数据也进行了一些简单的统计,发现除了nt34562位点外,其他的6个位点,进行任意的单一指标的统计量都存在明显的差异。
column | cut | neg_max | pos_min |
---|---|---|---|
nt34528 | 0.2551733780760626 | 0.2083333333333333 | 0.3020134228187919 |
nt34532 | 0.2622971285892634 | 0.2134831460674157 | 0.3111111111111111 |
nt34535 | 0.23971471471471467 | 0.1888888888888888 | 0.2905405405405405 |
nt34538 | 0.24000000000000002 | 0.2 | 0.28 |
nt34546 | 0.2242424242424242 | 0.1818181818181818 | 0.2666666666666666 |
nt34556 | 0.16107579053036636 | 0.127906976744186 | 0.1942446043165467 |
nt34562 | 1.0 | 1.0 | 1.0 |
所以在这里面,我们也不太有必要进行画蛇添足的复杂模型应用,首先我们剔除掉对最终判断没有太大帮助的nt34562位点,然后建立模型。模型也可以比较简单的对单个位点根据测试数据取得二分类的阈值(在这里面使用pos的最小值和neg的最大值的平均值,因为数据分离度很大,在这里面也没有使用ROC之类方法的必要性)。
剔除一个位点后,我们还有6个位点用于判断,我们简单的指定个标准,有4个及以上位点的状态定义为样本的最终状态。
references
[^1]: 2021.10 α-地中海贫血融合基因检测方法及应用评价
[^2]: 2019 一个黎族α-地中海贫血融合基因遗传家系的鉴定_胡俊杰.pdf)