相关分析

相关分析是研究两个或两个以上处于同等地位的随机变量间的相关关系的统计分析方法。可以帮助我们测量多个变量变量之间线性关系的强度和方向。

在进行生信方法开发过程中,我们会经常用到,比如开发一个biomarker时,如何进行特征的选择,如何确定我们的选择的特征是有益于判断的,包括在生物统计方向的各种大规模人群研究探索。当然不只生物信息领域,数据科学都无法脱离相关性分析。例如,我们的BMI是基于身高和体重之间相关性;天气预报是基于空气中的相对湿度、温度、气流和天气变化的相关分析研究。
在这里补充一点,相关分析与回归分析之间的区别:回归分析侧重于研究随机变量间的依赖关系,以便用一个变量去预测另一个变量;相关分析侧重于发现随机变量间的种种相关特性。当然很多时候,进行回归前,我们可能也需要基于数据的相关性进行特征的选择,以便获得更好的回归结果,这也是目前一系列机器学习、 神经网络乃至于大模型的底层基础。

相关分析的方法

  1. 皮尔逊相关系数(Pearson Correlation Coefficient): 皮尔逊相关系数是一种用于衡量两个连续变量之间线性关系的方法。它的取值范围在-1到1之间,其中1表示完全正相关,-1表示完全负相关,0表示无相关性。皮尔逊相关系数基于协方差和标准差计算,适用于连续型数据且假定数据呈正态分布。
  2. 斯皮尔曼相关系数(Spearman Rank Correlation Coefficient): 斯皮尔曼相关系数是一种非参数的相关性分析方法,它基于变量的等级顺序而不是原始数值。这使得它更适用于有序数据、序数数据或偏态数据。斯皮尔曼相关系数可以用于测量变量之间的单调关系,不要求数据满足正态分布假设。
  3. 肯德尔相关系数(Kendall’s Tau Correlation Coefficient): 肯德尔相关系数也是一种非参数的相关性分析方法,用于测量两个变量之间的排序关系。它基于排列对的数量,可以度量变量的等级之间的一致性程度。肯德尔相关系数对于小样本数据和存在重复值的情况更稳健。
  4. 点二列相关系数(Point-Biserial Correlation Coefficient): 点二列相关系数用于衡量一个二元变量与一个连续变量之间的关系。它类似于皮尔逊相关系数,但适用于包含一个二元变量的情况,其中0和1表示两种不同的状态。
  5. 双变量相关性分析(Bivariate Correlation Analysis): 这种方法用于衡量两个连续变量之间的关系。它包括散点图、回归分析和相关系数等技术,可用于可视化和量化两个变量之间的线性或非线性关系。
  6. 多变量相关性分析(Multivariate Correlation Analysis): 多变量相关性分析用于研究多个变量之间的关系。主成分分析(PCA)和因子分析是常见的多变量相关性分析方法,用于降维和识别主要相关性模式。
  7. 假设检验: 假设检验方法用于验证两个或多个变量之间是否存在显著的关系。例如,t检验和方差分析可以用于比较组之间的均值差异,从而确定它们是否相关。
  8. 交叉表和卡方检验: 交叉表用于分析两个或多个分类变量之间的关系。卡方检验可用于确定观察到的频数是否与预期频数有显著差异,从而评估两个变量之间的相关性。
-------------本文结束感谢您的阅读-------------