定义
统计学术语,如果将一组数据从小到大排序,并计算相应的累计百分位,则某一百分位所对应数据的值就称为这一百分位的百分位数。可表示为:一组n个观测值按数值大小排列。如,处于p%位置的值称第p百分位数。
- 说明一:
用99个数值或99个点,将按大小顺序排列的观测值划分为100个等分,则这99个数值或99个点就称为百分位数,分别以Pl,P2,…,P99代表第1个,第2个,…,第99个百分位数。第j个百分位数j=1,2…100。式中Lj,fj和CFj分别是第j个百分位数所在组的下限值、频数和该组以前的累积频数,Σf是观测值的数目。
百分位通常用第几百分位来表示,如第五百分位,它表示在所有测量数据中,测量值的累计频次达5%。以身高为例,身高分布的第五百分位表示有5%的人的身高小于此测量值,95%的身高大于此测量值。
百分位数则是对应于百分位的实际数值。
= - 说明二:
第25百分位数又称第一个四分位数(First Quartile),用Q1表示;
第50百分位数又称第二个四分位数(Second Quartile),用Q2表示,该值对应的也是中位数;
第75百分位数又称第三个四分位数(Third Quartile),用Q3表示。
若求得第p百分位数为小数,可完整为整数。
分位数是用于衡量数据的位置的量度,但它所衡量的,不一定是中心位置。百分位数提供了有关各数据项如何在最小值与最大值之间分布的信息。对于无大量重复的数据,第p百分位数将它分为两个部分。大约有p%的数据项的值比第p百分位数小;而大约有(100-p)%的数据项的值比第p百分位数大。对第p百分位数,严格的定义如下。
第p百分位数是这样一个值,它使得至少有p%的数据项小于或等于这个值,且至少有(100-p)%的数据项大于或等于这个值。
高等院校的入学考试成绩经常以百分位数的形式报告。比如,假设某个考生在入学考试中的语文部分的原始分数为54分。相对于参加同一考试的其他学生来说,他的成绩如何并不容易知道。但是如果原始分数54分恰好对应的是第70百分位数,我们就能知道大约70%的学生的考分比他低,而约30%的学生考分比他高。
计算原理
下面的步骤来说明如何计算第p百分位数。
方法一
第1步:以递增顺序排列原始数据(即从小到大排列)。
第2步:计算指数i=n * p%
第3步:
l)若 i 不是整数,将 i 向上取整。大于i的毗邻整数即为第p百分位数的位置。
2) 若i是整数,则第p百分位数是第i项与第(i+l)项数据的平均值。
方法二
除了以上方法,再介绍另外一种方法,这种方法是SPSS所用方法,也是SAS所用方法之一。
第一步:将n个变量值从小到大排列,X(j)表示此数列中第j个数。
第二步:计算指数,设(n+1)P%=j+g,j为整数部分,g为小数部分。
第三步:1)当g=0时:P百分位数=X(j);
2)当g≠0时:P百分位数=gX(j+1)+(1-g)X(j)=X(j)+g*[X(j+1)-X(j)]。
相关代码函数
pyhton
1 | import numpy as np |