什么是抽样分布?
抽样分布是从特定总体中抽取的大量样本获得的统计量的概率分布。给定总体的抽样分布是总体统计中可能出现的一系列不同结果的频率分布。
在统计学中,总体是从中抽取统计样本的整个池。总体可以指整个群体的人、物体、事件、医院就诊或测量结果。因此,总体可以说是对按共同特征分组在一起的受试者的聚合观察。
- 抽样分布是通过从较大总体中重复抽样得出的统计数据。
- 它描述了统计数据的一系列可能结果,例如某些变量的平均值或众数,因为它确实存在于总体中。
- 研究人员分析的大部分数据实际上来自样本,而不是总体。
了解抽样分布
院士、统计学家、研究人员、营销人员、分析师等提取和使用的大量数据实际上是样本,而不是总体。样本是总体的子集。例如,一位医学研究人员想要将 1995 年至 2005 年在北美出生的所有婴儿的平均体重与同一时间段内在南美出生的婴儿的平均体重进行比较,但无法在合理的时间内得出整个北美人口的数据。十年间发生了超过一百万次分娩。相反,他只会使用每个大陆 100 个婴儿的体重来得出结论。以200名婴儿的体重为样本,计算出的平均体重为样本平均值。
现在假设医学研究人员不是从各大洲仅抽取 100 个新生儿体重的样本,而是从一般人群中重复随机抽取样本,并计算每个样本组的样本平均值。因此,对于北美,他提取了美国、加拿大和墨西哥记录的 100 个新生儿体重数据,如下:来自美国选定医院的 4 个 100 个样本、来自加拿大的 5 个 70 个样本和来自墨西哥的 3 个 150 条记录,总计1200 名新生婴儿的体重分为 12 组。他还收集了南美洲12个国家各100个出生体重的样本数据。
每个样本都有自己的样本均值,样本均值的分布称为样本分布。
为每个样本集计算的平均权重是均值的抽样分布。不仅仅是可以根据样本计算平均值。其他统计数据,例如标准差、方差、比例和范围可以根据样本数据计算。标准差和方差衡量抽样分布的变异性。
总体中的观测值数量、样本中的观测值数量以及用于抽取样本集的程序决定了抽样分布的变异性。抽样分布的标准差称为标准误差。虽然抽样分布的平均值等于总体平均值,但标准误差取决于总体的标准差、总体规模和样本规模。
了解每个样本集的均值彼此之间以及与总体均值的分布程度将表明样本均值与总体均值的接近程度。抽样分布的标准误差随着样本量的增加而减小。
特别注意事项
总体或一组数字样本将服从正态分布。然而,由于抽样分布包括多组观测值,因此它不一定具有钟形曲线形状。
按照我们的例子,北美和南美婴儿的人口平均体重呈正态分布,因为有些婴儿体重不足(低于平均值)或超重(高于平均值),而大多数婴儿介于两者之间(在平均值附近) )。如果北美新生儿的平均体重为 7 磅,则北美记录的 12 组样本观察中每组的样本平均体重也将接近 7 磅。
但是,如果将 1,200 个样本组中每个样本组中计算出的每个平均值绘制成图表,则所得形状可能会导致均匀分布,但很难确定地预测实际形状会是什么。研究人员从超过一百万体重数据的人群中使用的样本越多,图表就越开始形成正态分布。