Stata入门 - 卡方检验

卡方检验是一个非常常见的统计检验方法, 它最主要的应用是在类别变量里. 类别变量和连续变量的不同在于, 类别变量不会取某一个特定的值, 它只能属于一个类别, 比如性别, 颜色 ,鸟的种类等等. 通过进行卡方检验, 我们可以判断类别变量在统计决断中是否是显著的变量. 比如, 性别对于宠物种类的选择是否有影响, 这里性别是一个类别变量, 宠物种类也是一个类别变量.

我会用auto.dta来作为示范说明如何在Stata里运用卡方检验.

sysuse auto

首先, 在Stata上方的下拉菜单, 选择: 统计(S) > 汇总, 表格和假设检验 > 频数表 > 双向表(关联性分析):

接着会弹出一个双向表的窗口. 行变量选择rep78, 列变量选择foreign, 检验统计量Perason卡方量, 然后点击确定:

我们注意到这里我们选择的两个变量都是类别变量. Stata的输出结果窗口会给出一个表格, 这是一个记录在不同类别下汽车数量的表格:


比如说, 在74个观察样本里, 有两个样本既是国产车, 同时Repair Record是1. 卡方检验检测的是两个类别变量是否是相关的还是各自独立的. 比如说 在这里我们的原假设就是: rep78foreign是各自独立的. 如果我们的p值小于检测值0.05 (你也可以选择0.01作为检测值使检验更加精确, 但一般我们会选择0.05作为检测值), 也就是说我们的检验结果具有显著性, 那我们就有足够的理由拒绝原假设, 这两个类别变量不是独立的, 他们之间存在相关性.

在这个例子中, 我们得到的p值是0 (如果数据非常接近0, 输出结果也会自动转化成0), 也就是说 维修记录的种类和是否是国产车是相互关联的.

一点说明, 这里我们的自由度是4. 自由度是通过(行数-1) * (列数-1) 得到的. 所以才得到自由度为4.


想了解更多的Stata入门知识, 不妨看一看Data Analysis using Stata

© 2020 by Survey Design and Analysis Services. 

  • LinkedIn
  • Facebook
  • Twitter
  • YouTube