什麼是抽樣分佈?
抽樣分佈是從特定總體中抽取的大量樣本獲得的統計量的概率分佈。給定總體的抽樣分佈是總體統計中可能出現的一系列不同結果的頻率分佈。
在統計學中,總體是從中抽取統計樣本的整個池。總體可以指整個羣體的人、物體、事件、醫院就診或測量結果。因此,總體可以說是對按共同特徵分組在一起的受試者的聚合觀察。
- 抽樣分佈是通過從較大總體中重複抽樣得出的統計數據。
- 它描述了統計數據的一系列可能結果,例如某些變量的平均值或衆數,因爲它確實存在於總體中。
- 研究人員分析的大部分數據實際上來自樣本,而不是總體。
瞭解抽樣分佈
院士、統計學家、研究人員、營銷人員、分析師等提取和使用的大量數據實際上是樣本,而不是總體。樣本是總體的子集。例如,一位醫學研究人員想要將 1995 年至 2005 年在北美出生的所有嬰兒的平均體重與同一時間段內在南美出生的嬰兒的平均體重進行比較,但無法在合理的時間內得出整個北美人口的數據。十年間發生了超過一百萬次分娩。相反,他只會使用每個大陸 100 個嬰兒的體重來得出結論。以200名嬰兒的體重爲樣本,計算出的平均體重爲樣本平均值。
現在假設醫學研究人員不是從各大洲僅抽取 100 個新生兒體重的樣本,而是從一般人羣中重複隨機抽取樣本,並計算每個樣本組的樣本平均值。因此,對於北美,他提取了美國、加拿大和墨西哥記錄的 100 個新生兒體重數據,如下:來自美國選定醫院的 4 個 100 個樣本、來自加拿大的 5 個 70 個樣本和來自墨西哥的 3 個 150 條記錄,總計1200 名新生嬰兒的體重分爲 12 組。他還收集了南美洲12個國家各100個出生體重的樣本數據。
每個樣本都有自己的樣本均值,樣本均值的分佈稱爲樣本分佈。
爲每個樣本集計算的平均權重是均值的抽樣分佈。不僅僅是可以根據樣本計算平均值。其他統計數據,例如標準差、方差、比例和範圍可以根據樣本數據計算。標準差和方差衡量抽樣分佈的變異性。
總體中的觀測值數量、樣本中的觀測值數量以及用於抽取樣本集的程序決定了抽樣分佈的變異性。抽樣分佈的標準差稱爲標準誤差。雖然抽樣分佈的平均值等於總體平均值,但標準誤差取決於總體的標準差、總體規模和樣本規模。
瞭解每個樣本集的均值彼此之間以及與總體均值的分佈程度將表明樣本均值與總體均值的接近程度。抽樣分佈的標準誤差隨着樣本量的增加而減小。
特別注意事項
總體或一組數字樣本將服從正態分佈。然而,由於抽樣分佈包括多組觀測值,因此它不一定具有鐘形曲線形狀。
按照我們的例子,北美和南美嬰兒的人口平均體重呈正態分佈,因爲有些嬰兒體重不足(低於平均值)或超重(高於平均值),而大多數嬰兒介於兩者之間(在平均值附近) )。如果北美新生兒的平均體重爲 7 磅,則北美記錄的 12 組樣本觀察中每組的樣本平均體重也將接近 7 磅。
但是,如果將 1,200 個樣本組中每個樣本組中計算出的每個平均值繪製成圖表,則所得形狀可能會導致均勻分佈,但很難確定地預測實際形狀會是什麼。研究人員從超過一百萬體重數據的人羣中使用的樣本越多,圖表就越開始形成正態分佈。