箱线图的详细解析

箱线图介绍

箱形图是一张图表,能很好地指示数据中的值如何分布,尽管与直方图或密度图相比,箱线图似乎是原始的,但它们具有占用较少空间的优势,这在比较许多组或数据集之间的分布时非常有用。
image
上图箱线图,箱线图是一个能够通过5个数字来描述数据的分布的标准方式,这5个数字包括:最小值,第一分位,中位数,第三分位数,最大值,箱线图能够明确的展示离群点的信息,同时能够让我们了解数据是否对称,数据如何分组、数据的峰度;

箱线图是一种基于五位数摘要(“最小”,第一四分位数(Q1),中位数,第三四分位数(Q3)和“最大”)显示数据分布的标准化方法。
image

  • 中位数(Q2 / 50th百分位数):数据集的中间值;
  • 第一个四分位数(Q1 / 25百分位数):最小数(不是“最小值”)和数据集的中位数之间的中间数;
  • 第三四分位数(Q3 / 75th Percentile):数据集的中位数和最大值之间的中间值(不是“最大值”);
  • 四分位间距(IQR):第25至第75个百分点的距离;
  • 晶须(蓝色显示)
  • 离群值(显示为绿色圆圈)
  • 最大值:Q3 + 1.5 * IQR 范围内的最大值(剔除异常值)
  • 最小值:Q1 -1.5 * IQR 范围内的最小值(剔除异常值)

特殊注意点

如果会发现,箱线图中IQR相同,但是我们做箱线图时,图中的两条虚线(上下边缘到上下四分位的线)长度经常不同。
上下边缘的定义应该是上下四分位数加1.5IQR范围内数据的最大最小值,也就是说IQR并不是个定值,而是个取值范围。

1
2
3
4
5
6
7
8
9
10
11
12
13
14
举例[1,20,20,20,30,30,35],n=7,可以容易看出其各项参数:

中位数:20
下四分位数:位置【(n+1)/4=2】,值=20
上四分位数:位置【(n+1)*3/4=6】,值30
IQR:30-20=10

其中上下四分位数的求值,如果数组为奇数,可以通过举例的方式直接求得,但是如果数组为偶数,假设下四分位求得的位置为2.25,并且第二位为2,第三位为3,那么下四分位的值为:
2*(2.25-2)+3*(3-2.25)=2*(0.25)+3*(0.75)=2.75

再来看上下边缘,根据公式(Q1-1.5IQR或Q3+1.5IQR),我们可以得到相应值。
下边缘=10
上边缘=40
但是我们观察数据可以发现,最大值为35,所以上边缘只能取到35。最小值为1,下边缘可以取到10。所以作图上虚线长度为35,尔下虚线长度为10。另外我们可以确定1是异常值。

箱线图和概率密度图关系

对于一个近似正态数据,整天分布图和箱线图的概率分布关系如下图 ,
image

参考信息

wikipedia
统计学知识门户 - 箱线图
如何深刻理解箱线图(boxplot)

-------------本文结束感谢您的阅读-------------