卡方检验是一种用来判断两个分类变量之间是否有关联的假设检验方法。在计算过程中,需要先将数据整理成列联表,然后根据列联表中的观察值和期望值来计算卡方统计量,最后再根据卡方分布进行显著性检验。
具体的计算步骤如下:
1. 将数据整理成列联表。
例如,假设想要比较男女两组人对于某项产品喜好或不喜好的情况,可以将数据整理成以下表格:
| | 喜欢 | 不喜欢 |
| -------- | ---- | ------ |
| 男生 | 20 | 30 |
| 女生 | 40 | 10 |
2. 计算每行、每列和总体的频数和频率。
例如,在上述表格中,男生组中喜欢该产品的人数为20,不喜欢该产品的人数为30。因此,男生组的总样本量为50。同样地,女生组中喜欢该产品的人数为40,不喜欢该产品的人数为10。女生组的总样本量也为50。
3. 计算期望频数和期望频率。
在卡方检验中,期望频数是指如果两个变量之间不存在关系,则在各自分类的数据中预期的频数。期望频率是指期望频数除以总样本量得到的比例。
例如,在上述表格中,可以先计算出每行、每列和总体的期望频数。例如,男生组中喜欢该产品的人数占比为(20+30)/100=0.5,女生组中喜欢该产品的人数占比为(40+10)/100=0.5。因此,在没有性别和喜好之间关联的情况下,男生组中喜欢该产品的期望频数为50*0.5=25,不喜欢该产品的期望频数也为50*0.5=25。同样地,女生组中喜欢该产品和不喜欢该产品的期望频数也分别为25。
4. 计算卡方统计量。
在上述表格中,可以根据以下公式计算卡方统计量:
χ²=∑(观察值-期望值)²÷期望值
其中,观察值是指列联表中各个单元格内真实观测到的样本数量;期望值是指在两个变量之间不存在关系时预测会出现多少样本数量。
在这个例子中,可以先根据上述公式计算男生组中喜欢和不喜欢该产品对应的卡方值:[(20-25)²/25]+[(30-25)²/25]=2.0。同样地,女生组中喜欢和不喜欢该产品对应的卡方值也分别为2.0。最终,将这些卡方值相加起来得到总的卡方统计量:χ²=2.0+2.0+2.0+2.0=8.0。
5. 判断显著性并得出结论。
在判断显著性时,需要根据样本量和自由度来查找卡方分布表,并找到所对应的p值。如果p值小于预设的显著性水平(通常为0.05),则拒绝原假设,认为两个变量之间存在关系;否则接受原假设,认为两个变量之间不存在关系。
在上述例子中,假设使用显著性水平为0.05。根据表格可以看出,在总样本量为100时,该检验的自由度为1。因此,在卡方分布表中查找df=1下p≤0.05对应的临界值时可看到其为3.84。因此,在这个例子中计算出来的卡方统计量8.0大于3.84,因此可以拒绝原假设,并认为性别和产品喜好之间存在关联。