实验原理-Barcode

barcode是做什么的

$\qquad$前NGS检测在精准医疗领域广泛应用,但是目前主要测序机型和实际样本数据需求量之前仍然存在较大的距离,以MGISeq-2000为例,一次测序下机数据量约320G(80G*4Lane),但是目前临床产品所需的数据量普遍达不到这样的需求(一般在15G~40G不等),有一些小的靶向捕获芯片,所需数据量甚至不足1G。

$\qquad$在这种测序仪器的测序能力远大于单一测试样本需求数据量的情况下,为避免仪器浪费,一个lane同时测定多个样品成为很自然的思路。然而为了区分多种样品的序列,就必须要给不同样品加上特定的“标签”,从而可以在后续数据分析时将不同样品数据分开,而这个“标签”就是barcode。

$\qquad$简言之,barcode就是测序中混合样品的”身份证“,用于区分不同样品。

如何选择好的barcode

barcode的选择有两个原则:碱基平衡和激光平衡。所有的原则,都是尽可能保证数据的分布均匀,不会给测序过程带来严重的干扰。

碱基平衡

碱基平衡是指的需要兼顾barcode序列的平衡度与复杂度,平衡度是指的碱基的比例是均衡的(1:1是最均衡的),而复杂度是指的碱基的种类是多样的(四种碱基同时存在是最多样的)。

所以最好的barcode序列应该是同时有A、T、G、C四种碱基,且各碱基所占比例近似均为25%。

此处所说的碱基平衡是指的多个barcode之间的平衡,并非一个barcode内部的碱基平衡。举例来说,有12个转录组样品需要测定,那么就需要12个barcode(假定每个barcode长度为6位),根据碱基平衡原则,第一位barcode碱基应该尽量同时存在A、T、G、C四种碱基,且各碱基所占比例近似均为25%,也就是这12个barcode序列最佳情况应该是以A、T、G、C开头各3个。剩余5个碱基位的barcode以此类推。

激光平衡

在illumina测序仪中,A和C两种碱基共用一种激光,由波长660nm的红激光激发;G和T共用一种激光,由波长532 nm的绿激光激发。因此假使不能满足碱基平衡的情况下,可以退而求其次,尽量满足激光平衡。

简单来说,激光平衡就是尽量在使用的一组barcode中满足每个碱基位都是A+C=G+T。

既不满足碱基平衡,又不满足激光平衡的barcode将会有很大的数据分离隐患,或者无法分离开样品,或者无法识别某些测序片段。

-------------本文结束感谢您的阅读-------------