什麼是統計學?
統計學是應用數學的一個分支,涉及從定量數據中收集、描述、分析和推斷結論。統計學背後的數學理論很大程度上依賴於微分和積分、線性代數和概率論。
從事統計工作的人被稱爲統計學家。他們特別關心如何根據小樣本的行爲和其他可觀察特徵得出關於大羣體和一般事件的可靠結論。這些小樣本代表大羣體的一部分或一般現象的有限數量的實例。
要點
- 統計學是對數據的研究和操作,包括收集、審查、分析數據和從數據中得出結論的方法。
- 統計學的兩個主要領域是描述性統計和推論性統計。
- 統計數據可以在不同級別上進行交流,從非數字描述符(標稱級別)到參考零點(比率級別)的數字。
- 可以使用多種抽樣技術來編制統計數據,包括簡單隨機、系統、分層或整羣抽樣。
- 統計數據幾乎存在於每家公司的每個部門,也是投資不可或缺的一部分。
瞭解統計數據
統計學幾乎應用於所有科學學科,例如物理科學和社會科學以及商業、人文、政府和製造業。統計學從根本上來說是應用數學的一個分支,它是從微積分和線性代數到概率論等數學工具的應用發展而來的。
在實踐中,統計學的理念是,我們可以通過研究少量相似對象或事件(樣本)的特徵來了解大量對象或事件(總體)的屬性。在許多情況下,收集整個人口的全面數據成本太高、太困難或不可能,因此統計數據從可以方便或經濟地觀察的樣本開始。
統計學家測量和收集樣本中個體或元素的數據,然後分析這些數據以生成描述性統計數據。然後,他們可以使用樣本數據的這些觀察到的特徵(正確地稱爲“統計數據”)來對更廣泛羣體的未測量(或未測量)特徵(稱爲參數)做出推論或有根據的猜測。
非正式的統計數據可以追溯到幾個世紀前。 1654 年法國數學家皮埃爾·德·費馬 (Pierre de Fermat) 和布萊斯·帕斯卡 (Blaise Pascal) 之間的早期通信記錄經常被引用爲統計概率分析的早期例子。
描述性統計和推論性統計
統計學的兩個主要領域被稱爲描述性統計和推論統計,前者描述樣本和總體數據的屬性,後者使用這些屬性來檢驗假設並得出結論。描述性統計包括平均值、方差、偏度和峯度。推論統計包括線性迴歸分析、方差分析 (ANOVA)、logit/Probit 模型和原假設檢驗。
描述性統計
描述性統計主要關注樣本數據的集中趨勢、變異性和分佈。集中趨勢是指對樣本或總體的特徵、典型元素的估計。它包括描述性統計數據,例如均值、中位數和衆數。
變異性是指一組統計數據,顯示樣本或總體的元素之間在測量的特徵上存在多少差異。它包括範圍、方差和標準差等指標。
分佈是指數據的整體“形狀”,可以用直方圖或點圖等圖表來描繪,幷包括概率分佈函數、偏度和峯度等屬性。描述性統計還可以描述數據集元素的觀察到的特徵之間的差異。它們可以幫助我們理解數據樣本元素的集體屬性,並形成使用推論統計檢驗假設和進行預測的基礎。
推論統計
推論統計是統計學家用來從樣本特徵中得出有關總體特徵的結論的工具,並確定他們對這些結論的可靠性的確定程度。根據樣本量和分佈,統計學家可以計算統計數據的概率,該統計數據衡量數據樣本內的集中趨勢、變異性、分佈以及特徵之間的關係,從而提供整個總體的相應參數的準確圖像,並從中得出總體數據。抽取樣本。
推論統計用於對大羣體進行概括,例如通過調查消費者購買習慣樣本或嘗試預測未來事件來估計產品的平均需求。這可能意味着根據樣本期間的回報來預測證券或資產類別的未來回報。
迴歸分析是一種廣泛使用的統計推斷技術,用於確定因變量與一個或多個解釋(自)變量之間關係(相關性)的強度和性質。通常對迴歸模型的輸出進行統計顯着性分析,這是指通過測試或實驗產生的結果不太可能是隨機或偶然發生的。這很可能歸因於數據闡明的特定原因。
對於嚴重依賴分析數據和研究的學科或從業者來說,具有統計顯着性非常重要。
均值、中位數和衆數
術語均值、中位數和衆數屬於集中趨勢的範疇。它們描述了給定樣本組中的典型元素。您可以通過將組中的數字相加並將結果除以數據集觀測值的數量來找到平均描述符。
集合中的中間數字是中位數。所有包含的數字中有一半高於中位數,一半低於中位數。如果一個社區有五棟房屋,且價值分別爲 500,000 美元、400,000 美元、350,000 美元、325,000 美元和 300,000 美元,那麼該社區的房屋中位值將爲 350,000 美元。兩個值較高,兩個值較低。
衆數標識介於最高值和最低值之間的數字。它在數據集中出現的頻率最高。
瞭解統計數據
統計的根源是由變量驅動的。變量是標記項目特徵或屬性的可計數的數據集。例如,汽車可以具有品牌、型號、年份、里程、顏色或狀況等變量。通過組合一組數據中的變量(例如給定停車場中所有汽車的顏色),統計數據使我們能夠更好地瞭解趨勢和結果。
變量有兩種主要類型。首先,定性變量是通常是非數字的特定屬性。汽車示例中給出的許多示例都是定性的。統計中定性變量的其他例子包括性別、眼睛顏色或出生城市。定性數據最常用於確定任何給定定性變量發生結果的百分比。定性分析通常不依賴於數字。例如,試圖確定女性擁有一家企業的比例需要分析定性數據。
統計學中的第二類變量是定量變量。定量變量是通過數值研究的,只有當它們涉及非數值描述符時才具有權重。與定量分析類似,這些信息植根於數字。在上面的汽車示例中,行駛里程是一個定量變量,但數字 60,000 沒有任何價值,除非我們知道這是行駛的總里程數。
定量變量可以進一步分爲兩類。首先,離散變量在統計上有侷限性,並推斷潛在的離散變量值之間存在差距。足球比賽中的得分是一個離散變量,因爲:
- 不能有小數,並且
- 一支球隊不可能只拿到一分
統計學還利用連續定量變量。這些值是有一定範圍的。離散值有侷限性,但連續變量通常以小數表示。在測量足球運動員的身高時,可以獲得可能限度內的任何值,並且高度可以測量到 1/16 英寸(如果不是更進一步的話)。
統計學家可以在公司內擔任各種頭銜和職位。截至 2021 年 12 月,具有 1 至 3 年經驗的統計師的平均總薪酬爲 84,958 美元,截至 2022 年 5 月。這一數字增加到具有 15 年經驗的 111,846 美元。
測量的統計水平
分析變量和結果後,會產生幾個測量級別。統計數據可以通過四種方式量化結果。
標稱電平測量
沒有數字或數量價值,質量也沒有排名。相反,名義水平測量只是分配給其他變量的標籤或類別。最容易將名義水平測量視爲有關變量的非數字事實。
示例: 2020 年當選的總統的名字是小約瑟夫·羅比內特·拜登 (Joseph Robinette Dead)。
序數級測量
結果可以按順序排列,但所有數據值都具有相同的值或權重。儘管數字,序數級別的測量在統計中不能相互相減,因爲只有數據點的位置很重要。序數水平通常被納入非參數統計並與總變量組進行比較。
示例:美國人 Fred Kerley 是 2020 年東京奧運會上 100 米衝刺成績第二快的男子。
間隔電平測量
結果可以按順序排列,但數據值之間的差異現在可能有意義。兩個數據點通常用於比較數據集中時間的流逝或條件的變化。數據值範圍通常沒有“起點”,並且日曆日期或溫度可能沒有有意義的固有零值。
示例: 2022 年 5 月,通貨膨脹率達到 8.6%。上次通貨膨脹率達到如此高水平是在 1981 年 12 月。
比率水平測量
結果可以按順序排列,數據值之間的差異現在有意義。但有一個起點或“零值”可用於進一步爲統計值提供價值。數據值之間的比率具有意義,包括其距零的距離。
示例:南極洲記錄的最低氣象溫度爲 -128.6 華氏度。
統計抽樣技術
通常不可能從總體中的每個數據點收集數據來收集統計信息。相反,統計數據依賴於不同的抽樣技術來創建更易於分析的具有代表性的總體子集。在統計學中,統計抽樣有幾種主要類型。
簡單隨機抽樣
簡單隨機抽樣要求總體中的每個成員都有平等的機會被選擇進行分析。將整個總體作爲抽樣的基礎,任何基於機會的隨機生成器都可以選擇樣本項。例如,排列 100 個人,然後隨機選擇 10 個人。
系統抽樣
系統抽樣也需要隨機抽樣,但其技術稍作修改,使其更容易進行。生成一個隨機數,然後以指定的規則間隔選擇個體,直到樣本大小完成。例如,100 個人排成一排並編號。選擇第 7 個個體作爲樣本,隨後選擇第 9 個個體,直到選擇了 10 個樣本項目。
分層抽樣
分層抽樣要求對樣本進行更多控制。根據相似的特徵將人口分爲亞組。然後計算每個子組中有多少人代表整個人口。例如,100 個人按性別和種族分組。然後,根據該子組在總體中的代表性程度,按比例從每個子組中抽取樣本。
整羣抽樣
整羣抽樣也需要分組,但每個分組都應該代表總體。整個子組是隨機選擇的,而不是隨機選擇子組內的個體。
不確定哪位美國職業棒球大聯盟球員應該贏得去年的最有價值球員獎?統計數據通常用於確定價值,在頒發最佳球員獎時經常會引用統計數據。統計數據可以包括安打率、本壘打數和盜壘數。
統計的用途
統計學在金融、投資、商業以及世界範圍內都很突出。您看到的大部分信息和提供的數據都來自統計數據,這些統計數據用於企業的各個方面。
- 投資統計數據包括平均交易量、52 周低點、52 周高點、貝塔值以及資產類別或證券之間的相關性。
- 經濟學統計數據包括國內生產總值、失業率、消費者價格、通貨膨脹和其他經濟增長指標。
- 營銷中的統計數據包括轉化率、點擊率、搜索量和社交媒體指標。
- 會計統計包括不同時間段的流動性、償付能力和盈利能力指標。
- 信息技術中的統計數據包括帶寬、網絡能力和硬件物流。
- 人力資源統計數據包括員工流動率、員工滿意度以及相對於市場的平均薪酬。
爲什麼統計很重要?
統計數據提供信息來指導事物如何運作。它們用於進行研究、評估結果、培養批判性思維並做出明智的決策。統計數據可用於查詢幾乎所有研究領域,以調查事情發生的原因、何時發生以及重複發生是否可以預測。
描述性統計和推論性統計有什麼區別?
描述性統計用於描述或總結樣本或數據集的特徵,例如變量的平均值、標準差或頻率。推論統計採用多種技術將數據集中的變量相互關聯。一個例子是使用相關性或迴歸分析。然後可以使用這些來估計預測或推斷因果關係。
誰使用統計數據?
統計數據廣泛應用於各種應用和專業領域。每當收集和分析數據時就會進行統計。範圍包括從政府機構到學術研究再到投資分析。
統計學如何應用於經濟和金融?
經濟學家收集並研究各種數據,從消費者支出、住房開工、通貨膨脹到國內生產總值增長。在金融領域,分析師和投資者收集有關公司、行業、情緒以及價格和交易量的市場數據。推論統計在這些領域的使用被稱爲計量經濟學。一些重要的金融模型,從CAPM到現代投資組合理論 (MPT) 和Black-Scholes期權定價模型,都依賴於統計推斷。
綜述
統計學是對乍一看和表面上看起來相互矛盾或不相關的信息進行分析的實踐。它可以爲統計學家帶來穩定的職業生涯,但它也可以成爲日常生活中的一個方便的衡量標準,也許當你在下注之前分析你最喜歡的球隊贏得超級碗的可能性時,衡量一項投資,或確定您的產品或服務是否被收取相對過高的費用。