均值差异性的检验方法:T检验

数据分析中有一块很大的版图是属于均值对比的,应用广泛。例如,对比试验前后病人的症状,证明某种药是否有效;对比某个班级两次语文成绩,验证是否有提高;对比某个产品在投放广告前后的销量,看广告是否有效。这些都属于两均值对比的应用。

均值对比的假设检验方法主要有Z检验和T检验,它们的区别在于Z检验面向总体数据和大样本数据,而T检验适用于小规模抽样样本。下面分别介绍Z检验和T检验。

Z检验虽然能够进行均值差异性检验,但是,它要求总体标准差已知或者样本容量足够大,这是很难做到甚至无法达成的。这时候t检验就粉墨登场了,只需从正态总体中抽取小规模的样本数据,并计算均值与标准差,用来代替正态总体的均值和标准差即可,t值计算公式如下:

img

样本数据计算得到的所有t值就组成了新的数据序列,这个新的数据形态就是t分布。t分布是曲线族,曲线与自由度密切相关,自由度为n-k-1(这里n是样本容量,k是样本中已知变量个数),自由度越小,曲线越低平,三自由度越大,曲线越接近正态分布。

有了t分布和t值计算公式,我们就能够进行T检验了,T检验在数据分析中的用途非常广,它是针对满足正态分布的数据所采取的均值差异显著性的检验方法。

T检验在使用前有三个应用的注意点:

1、分析的数据对象需要满足正态分布,T检验前需判断样本是否正态分布;

2、分析对比的统计量是均值;

3、对比对象是两个,可以是两个样本;也可以是一个样本和一个常数;

T检验有四种类别:

1、配对样本的T检验;

2、等方差的独立样本T检验;

3、异方差的独立样本T检验;

4、单样本的T检验。T检验与Z检验不同,需要考虑样本方差是否相同,这是因为自由度决定了T分布曲线,同时,自由度也影响样本方差。下面分别介绍四种T检验的检验公式。

1、配对样本的T检验

所谓配对样本的T检验,是指参与对比的两列数据都是满足正态分布,而且两列数据之间存在一一对应关系。要想判断这种数据序列之间的差异是否显著,就可以使用配对样本T检验。处于待检验状态的两列配对样本,应该具有相同的数据个数,而且两列数据在语义上有一一对应关系。例如对同一个班级的两次考试成绩,这两次成绩都按照学号顺序存放,具有明确的对应关系。T检验公式如下:

img

独立样本T检验

独立样本是两个没有对应关系的独立正态分布数据集合,可以有不同的数据个数,例如,对同一学校的某次考试,如果需要检验男生与女生的成绩之间有无显著性差异在总体成绩满足正态分布的情况下,则都可以使用独立样本的T检验,但是在进行T检验之前,需要明确两个样本的方差是否相同,然后根据方差齐性与否选择相应的计算方法。

2、等方差独立样本T检验

img

3、异方差独立样本T检验

img

4、单样本T检验

除了针对两列正态分布数据的均值差异显著性检验,有时还经常需要判断单列正态分布数据是否与某一给定值有显著性差异,或单列正态分布数据是否来自满足某一均值的总体。例如,判断某班语文成绩的均值是否与80分有显著性差别。T检验公式为:

img