卡方公式-两组率比较只有卡方检验？ ​| 30天学会医学统计与SPSS公益课(D10）

Day 10：两组率比较的统计方法

本日学习任务

1. 微信群内视频2段（共37分钟）

2. 公众号推文1篇：Day10

3.微信群内测试题

4. SPSS 卡方检验实操与群内讨论

请务必先观看视频，再看本推文再测试，否则效果不佳！

欢迎加入高校公益免费群全面学习医学统计学与SPSS应用（发送关键词“打卡”到公众号）

系列课程前面2-9日为实验性定量数据统计分析策略。从第10日开始，介绍实验性分类数据结局的基本统计分析方法。

分类结局包括这两种形式，一种无序分类的结局，一种是有序分类结局。无序分类结局又包括二分类结局和多分类结局。

本文的内容是二分类结局的分析。二分类结局往往以率的形式开展描述，因此统计分析探讨的是率有无差异。

实例分析

吲达帕胺片治疗原发性高血压疗效，将患者随机按照2：1的比例分为两组。试验组用吲达帕胺片加辅助治疗，对照组用安慰剂加辅助治疗。试分析两组率有无统计学差异？数据详见ht.sav

卡方公式_天天富翁s卡合成公式_天天富翁特莉莎s卡合成公式

思考

这个案例需要思考：

-该研究属于何种类型的研究设计？

-结局变量属于什么类型的变量？

-分组数是多少？

-正态性问题如何考虑？

案情分析

本案例结局为疗效为二分类结局。该结局开展描述时计算有效率，比如治疗组有效率、对照组有效率等。分组变量为处理因素，分为2个水平：吲达帕胺片组和安慰剂组。

如此数据，在统计描述上，可以绘制出三线表

天天富翁特莉莎s卡合成公式_天天富翁s卡合成公式_卡方公式

该研究核心数据有2行2列（红框内），因此称之为2*2行列表或者交叉表资料。此外，由于红框中的结果在表格中占据4个单元格（a、b、c、d），这样的交叉表资料被俗称为四格表资料。

一般来说，分析四格表资料就等同于分析两个率的差异性。

最后，两组率的差异分析，不考虑正态性问题。

统计分析策略

两个率的差异如何分析呢？基本统计学方法有三类：z检验、卡方检验和Fisher确切概率法。最常见的就是卡方检验（c2检验，Chi-square）和Fisher确切概率法。

卡方检验是统计学奠基人Karl-Pearson百年前提出，其基本理论是比较理论值（期望值）和实际值的吻合程度来探讨不同样本是否来源于同一个总体。具体原理不再赘述。Fisher确切概率法是另外一位统计学奠基人Fisher提出，主要基于二项分布和二项分布函数，计算极端事件发生概率是否属于小概率事件的一种方法。

总结来说，

天天富翁特莉莎s卡合成公式_天天富翁s卡合成公式_卡方公式

具体来说，采用卡方检验还是Fisher确切概率法，一般有如下考虑：

1.如果整个研究样本量≥40，四个单元格（a,b,c,d）的理论值T，又称期望值，（expectation）都大于或等于5，则可采用卡方检验进行比较。

n≥40，且T ≥ 5卡方公式，卡方检验

2.如果整个研究样本量≥40 ，四个单元格（a,b,c,d）的理论值T（期望值，expectation）至少有一个在1-5之间，普通的卡方检验的结果不太可靠，需要对卡方检验方法进行改进，采用校正卡方检验进行比较。

n≥40，且至少一个1≤T ，校正卡方检验

3.如果整个研究样本量

n＜40或至少1个T ＜1 ，Fisher确切概率法

值得注意的是，上述方法均为我国教材流传至今的常规操作。实际工作可便宜行事，具体可见最后的讨论。

如何利用SPSS进行卡方和Fisher确切法检验

本日软件操作的SPSS数据库是ht.sav，加入课程群即可获得。

卡方和Fisher检验入口界面

分析-描述统计-交叉表

卡方公式_天天富翁特莉莎s卡合成公式_天天富翁s卡合成公式

卡方和Fisher检验检验对话框

在“交叉表”对话框中，分别选择分组变量和结局变量到“行”和“列”中。

天天富翁特莉莎s卡合成公式_卡方公式_天天富翁s卡合成公式

①、②：行”和“列”分别放哪个变量没有规定，结果是一致的（分组变量可以放“行”，也可以放“列”中）。一般建议与最后论文报告中的行列方向一致。

③精确：点击选择“精确”选项，进行Fisher检验

天天富翁特莉莎s卡合成公式_卡方公式_天天富翁s卡合成公式

④统计：选择“卡方”，进行卡方检验

天天富翁s卡合成公式_天天富翁特莉莎s卡合成公式_卡方公式

⑤单元格：可进行计算①实际频数（必选）和期望频数（可选，不建议选择），②选择计算百分比中的行与列，不必同时选择，选择一项即可，一般和交叉表的分组变量的放入行”“列”位置一致。

卡方公式_天天富翁s卡合成公式_天天富翁特莉莎s卡合成公式

天天富翁特莉莎s卡合成公式_卡方公式_天天富翁s卡合成公式

统计分析结果与解释

结果主要为2张表格。

第1表：分组统计描述结果，分别给出试验组和对照组各自的结局信息，包括发生数以及相应的百分比。

卡方公式_天天富翁s卡合成公式_天天富翁特莉莎s卡合成公式

第2表：卡方和Fisher确切检验的结果。该结果同时展示了卡方、校正卡方、和Fisher确切概率分析结果，也显示了总样本量、理论（期望）频数的情况。

阅读表格，首先要关注总样本量和理论（期望）频数。总样本量在表格最后一行①：有效个案数。需要关注是否≥40。理论（期望）频数在表格下方第一个注释a②。注释前半句说的是多少单元格期望数小于5，这半句将决定是否采用卡方检验；后半句指出最小期望数，将决定是否采用Fisher法。

卡方公式_天天富翁特莉莎s卡合成公式_天天富翁s卡合成公式

卡方检验，当n≥40，且T ≥ 5，选择第一行的“皮尔逊卡方”①，卡方值②，选择P值（渐进显著性双侧）③。

天天富翁特莉莎s卡合成公式_卡方公式_天天富翁s卡合成公式

校正卡方检验，n≥40，且至少一个1≤T

，卡方值②，选择P值（渐进显著性双侧）③。

天天富翁s卡合成公式_卡方公式_天天富翁特莉莎s卡合成公式

Fisher确切概率法，n＜40或至少1个T ＜1 ，选择第四行的“费希尔精确检验”①，选择值（精确显著性双侧）②。

天天富翁s卡合成公式_天天富翁特莉莎s卡合成公式_卡方公式

对于本例，样本量70，0单元格（0%）期望计数小5，最小为10.77，应选择一般的卡方检验，卡方值8.399，P=0.004。两组人群的有效率存在着统计学差异。

结果及表格的规范表达

根据统计分析可以得到以下的规范的结果：

规范文字：吲达帕胺片组有效率80.77%，安慰剂组有效率45.45%，两组有效率存在着统计学差异（差值0.35，差值95%CI 0.14-0.56，P=0.004）。

规范的统计表（其中一种形式）为：

天天富翁特莉莎s卡合成公式_天天富翁s卡合成公式_卡方公式

问题：和均数一样，率和率差也建议计算置信区间。这里率差95%CI (0.14-0.56)怎么计算出来的？

率差的算法SPSS25没有操作方法（版本27.0 即最新版本28.0有了！），只有公式计算方法，你可以采用excel或者手工计算方法进行以计算：

假如P1 和P2 代表两组率，则率差为P2-P1，而率差的95%CI则为

其中，

比如，本例，P1=45.5%，Q1=54.5%，P2=80.8%，Q2=19.2%，n1=44，n2=26，把数据带入公式中，就可以计算了。

如果你会R语言，也可以利用R语言进行计算率差的置信区间。

再说一遍：SPSS只能计算率的置信区间，但不能算率差的置信区间！

拓展知识

1.Fisher方法不是两个率比较的辅助方法

上文写到，Fisher方法应用条件是n＜40或至少1个T ＜1 。实际上，这一条件可以放宽。理论上，Fisher方法可以使用在所有分类数据的比较上，当然也包括四格表资料，而且它的结果更为精确。所以不要觉得Fisher是配角，Fisher使用没有条件限制。

那为什么一直以来卡方检验更常见而不是Fisher法呢？部分原因是计算能力的问题，Fisher对计算机的性能要求较高。Fisher很难人工进行运算，或者早些年在计算机运算能力较弱的时，Fisher法会卡壳！而卡方就没有这个问题，而且大样本时卡方检验结果和Fisher几乎一致。所以，之前教材一直推崇卡方而不是Fisher。现在情况不同了，一般软件都能应付大部分的Fisher检验。所以不要被“n＜40或至少1个T ＜1”条件限制，不要觉得达不到这个条件Fisher结果不正确。比如一篇小样本研究的论文，按照四格表统计分析的条件，有一些需要卡方、有一些需要校正卡方、有一些是Fisher法，为了统一，全部用Fisher方法，也没有任何问题的，只要SPSS能够给出Fisher的结果。

特别是，当卡方检验P值在0.05附近时，更推荐Fisher法。因为Fisher结果更精确，它能够真正判断一项研究P值到底>0.05，还是

总结起来，卡方受条件限制，而Fisher不受数据限制，只受计算机运算能力限制，很多时候卡方公式，Fisher方法可以成为主角。

最后提醒

要学习本推文的完全对应的课程视频（看推文是不足够学会统计分析的），请发送关键词“打卡”入群高校公益免费课程群来学习吧。

-本讲结束-

更多信息

本公众号作为医学数据分析公众号，提供一些免费医学统计学学习资源下载，欢迎点击下载。

特别提醒：上述资源每天限分享和下载一个。

培训通告

2021年，我们召集了一批富有经验的高校专业队伍，着手举行短期统计课程培训班。如果您有需求，不妨点击查看：

天天富翁s卡合成公式_卡方公式_天天富翁特莉莎s卡合成公式