RPKM, FPKM and TPM

过去,进行 RNA-seq 时,会以

  • RPKM(每千碱基百万读取数)或
  • FPKM(每千碱基百万片段数)的形式报告结果。
    然而,
  • TPM(每千基百万转录本)现在变得非常流行。
    由于这些术语似乎有很多混淆,我想我会使用 StatQuest 来清除所有内容。

这三个指标试图标准化测序深度和基因长度。

RPKM 的计算过程参考如下操作:

  1. 计算样本中的总读数并将该数字除以 1,000,000——这是我们的“每百万”比例因子。
  2. 将读取计数除以“每百万”比例因子。这使测序深度标准化,为您提供每百万读数 (RPM)
  3. 将 RPM 值除以基因的长度,以千碱基为单位。这为您提供 RPKM。

FPKM 与 RPKM 非常相似。 RPKM 是为单端 RNA-seq 制作的,其中每个读取对应一个已测序的片段。 FPKM 是为PE测序的 RNA-seq 制作的。使用配对末端 RNA-seq,两个读数可以对应一个片段,或者,如果对中的一个读数没有映射,一个读数可以对应一个片段。 RPKM 和 FPKM 之间的唯一区别是 FPKM 考虑到两次读取可以映射到一个片段(因此它不会将该片段计算两次)

TPM 与 RPKM 和 FPKM 非常相似。唯一的区别是操作顺序。以下是计算 TPM 的方法:

  1. 将读取计数除以每个基因的长度(以千碱基为单位)。这为您提供了每千碱基 (RPK) 的读数。
  2. 计算一个样本中的所有 RPK 值并将这个数字除以 1,000,000。这是您的“每百万”比例因子。
  3. 将 RPK 值除以“每百万”比例因子。这为您提供了 TPM。

所以你看,在计算 TPM 时,唯一的区别是你首先对基因长度进行归一化,然后对测序深度进行归一化。然而,这种差异的影响是相当深远的。

当您使用 TPM 时,每个样本中所有 TPM 的总和是相同的。这使得比较每个样本中映射到基因的读数比例变得更加容易。相比之下,使用 RPKM 和 FPKM,每个样本中归一化读数的总和可能不同,这使得直接比较样本变得更加困难。

这是一个例子。如果样本 1 中基因 A 的 TPM 为 3.33,样本 B 中的 TPM 为 3.33,那么我知道在两个样本中映射到基因 A 的总读数的比例完全相同。这是因为两个样本中的 TPM 总和总是相同的数字(因此计算比例所需的分母是相同的,无论您正在查看哪个样本。)

使用 RPKM 或 FPKM,每个样本中归一化读数的总和可能不同。因此,如果样本 1 中基因 A 的 RPKM 为 3.33,样本 2 中 RPKM 为 3.33,我不知道样本 1 中相同比例的读数是否与样本 2 中的基因 A 对应。这是因为需要分母计算两个样本的比例可能不同。

参考来源

rna-seqblog

-------------本文结束感谢您的阅读-------------