在之前的推送中,我们已经了解了、标准误公式,以及。
在介绍中心极限定理时,我们知道:在大样本情况下,如果已知总体的标准差σ,那么样本均值分布的标准差为σ/√n,称为样本均值的标准差(StandardDeviation)。
因此,我们可以用总体的标准差σ估计样本均值分布的标准差。
但,现实生活中考察的总体通常都会很大,调查总体中的每一个个体不太现实,并且成本巨大。因此,我们很少能知道真实的总体均值μ和总体标准差σ,而且还考虑通过样本的均值和标准差来估算总体的均值。
我们可以很容易地在总体中抽取到一个样本,但它并不能完全代表总体。如果进行随机抽样模拟实验会发现,在总体和样本量相同的情况下,每次抽取得到的样本都可能不同;样本均值虽然与总体均值近似,但样本均值与总体均值不同。
阅读下方的“正态总体与其样本均值的抽样分布图”,中间紫色的正态分布表示的是从总体中抽取的样本均值的分布,总体均值可能落在紫色正态分布图中的任意一点。
正态总体与其样本均值的抽样分布
在σ未知的情况下,可以用样本的标准差来估计样本均值分布的标准差:
称为样本均值的标准误(Standard Error)。
但用样本均值估计总体均值会存在一定的误差,所以我们下一步就是计算误差的范围,以及构建置信区间——区间估计。
根据正态分布的性质,与90%,95%,99%的概率区间对应的标准差倍数分别应该为:1.645, 1.96, 2.575。其中,大约有95%的数值落在距均值1.96个标准差的区间内。
正态分布的3σ原则
因此,当用样本均值作为总体均值的估计时,95%的置信区间是:
我们估计,所有可能的样本中,95%的样本均值都在总体均值约2个标准差以内。因此,如果多次重复抽样以及构建置信区间,那么95%的置信区间将会包含总体均值标准误公式,而5%的则不包含。
上图很好的描述了样本均值95%的置信区间的含义。在大部分的情况下,总体真实的均值都是落在样本均值的置信区间内的,只有少数的样本均值的置信区间没有包含总体真实的均值。
小案例:
根据上述对标准误和置信区间的解释,我们来分析一个与中国家庭收入调查有关的数据:
在2013年进行了中国家庭收入调查,总共调查了n=16907个家庭,数据显示:2013年家庭收入的平均值为55329.19元,标准差为s=53794.82。请基于此数据估计全国居民家庭收入的平均值。
阅读完整篇文章后,我们可以轻松地根据样本均值和样本量计算出样本的标准误;
再根据,95%的置信区间公式,
计算得到2013年全国居民的家庭平均收入95%的置信区间为[54518.30, 56140.08]。
在这篇推文中,我们重点需要了解的知识点是标准误和标准差的区别,如何计算样本均值的误差范围,以及如何构建置信区间。
如果之前对正态分布、标准分布和中心极限定理等知识点了解得不够透彻,可能会被绕晕,建议大家先回过头去补补课。
我之前的推文中已经积累了很多有关统计学的基础介绍,大家可以翻阅。我发布的内容主要参考了松鼠的《妙趣横生的统计学》课程,你也可以和我一样,直接学习视听课程,学习会更系统更高效。
想要了解或学习这套课程的小伙伴可以扫描下方二维码,或点击文末的阅读原文,和我一起每天学点统计学。
《妙趣横生的统计学》
你可能会遇到的问题
Q:课程有效期?
A:松鼠全部课程,都是购买后永久有效。
Q:课程观看方式?
A:课程是上传在网易云课堂的,因此在电脑,手机,Pad上都可以看(需要用购买课程的账号登录),其中手机和Pad上可以下载【网易云课堂APP】离线观看视频。
Q:购买课程后,看课程不懂的地方是否可以提问?
A:每个课程都有对应的课程QQ群,老师会在群里解答大家的疑问。
Q:是否可以开发票?
A:如果需要开发票,则不能使用优惠券,且购买前先联系小编沟通。
小编微信是:cccc_fys
限 时 特 惠: 本站每日持续更新海量各大内部创业教程,一年会员只需98元,全站资源免费下载 点击查看详情
站 长 微 信: muyang-0410