什麼是多重共線性?
多重共線性是指多元迴歸模型中兩個或多個獨立變量之間存在高度相關性。當研究人員或分析師試圖確定每個獨立變量如何最有效地用於預測或理解統計模型中的因變量時,多重共線性可能會導致結果扭曲或誤導。
一般來說,多重共線性會導致更寬的置信區間,從而產生模型中獨立變量效應的可靠性較低的概率。
概要
- 多重共線性是一個統計概念,其中模型中的幾個獨立變量是相關的。
- 如果兩個變量的相關係數爲 +/- 1.0,則認爲它們完全共線。
- 獨立變量之間的多重共線性將導致統計推斷的可靠性降低。
- 在建立使用兩個或多個變量的多元迴歸模型時,最好使用不相關或重複的獨立變量。
- 數據集中存在多重共線性會由於標準誤差較大而導致結果的可靠性降低。
理解多重共線性
統計分析師使用多元迴歸模型根據兩個或多個獨立變量的值預測特定因變量的值。因變量有時被稱爲結果、目標或標準變量。
一個例子是多元迴歸模型,它試圖根據市盈率(P/E 比率)、市值、過往表現或其他數據來預測股票收益。股票收益是因變量,而各種財務數據是自變量。
多元迴歸模型中的多重共線性表示共線獨立變量以某種方式相關,儘管這種關係可能是偶然的,也可能不是偶然的。例如,過去的表現可能與市值有關,因爲過去表現良好的股票的市值將會上升。
換句話說,當兩個獨立變量高度相關時,就會存在多重共線性。如果一個獨立變量是根據數據集中的其他變量計算出來的,或者兩個獨立變量提供相似且重複的結果,也會出現多重共線性。
特別注意事項
消除多重共線性問題的最常見方法之一是首先識別共線獨立變量,然後刪除除一個變量之外的所有變量。
也可以通過將兩個或多個共線變量合併爲一個變量來消除多重共線性。然後可以進行統計分析來研究指定的因變量與單個自變量之間的關係。
包含多重共線性的模型的統計推斷可能不可靠。
多重共線性的例子
在投資方面
對於投資而言,在進行技術分析以預測證券(例如股票或商品期貨)未來價格可能變動時,多重共線性是一個常見的考慮因素。
市場分析師應避免使用共線技術指標,因爲這些指標基於非常相似或相關的輸入;它們往往會對價格變動的因變量做出類似的預測。相反,市場分析必須基於明顯不同的獨立變量,以確保他們從不同的獨立分析角度分析市場。
潛在多重共線性問題的一個例子是僅使用幾個相似的指標進行技術分析。
著名技術分析師、布林線指標的創始人約翰·布林格指出:“成功使用技術分析的一條基本規則是避免指標之間的多重共線性。”爲了解決這個問題,分析師避免使用兩個或多個相同類型的技術指標。相反,他們使用一種指標(如動量指標)分析證券,然後使用另一種指標(如趨勢指標)進行單獨分析。
例如,隨機指標、相對強弱指數 (RSI)和威廉斯 %R 都是依賴類似輸入的動量指標,並且可能產生類似的結果。在這種情況下,最好刪除所有指標,只留下一個,或者找到一種方法將其中幾個指標合併爲一個指標,同時添加一個不太可能與動量指標高度相關的趨勢指標。
在生物學中
多重共線性在許多其他情況下也存在。其中一個情況就是人類生物學。例如,一個人的血壓與年齡不共線,體重、壓力和脈搏也不共線。
如何檢測多重共線性?
一種稱爲方差膨脹因子(VIF) 的統計技術用於檢測和測量多元迴歸模型中的共線性量。
如何處理多重共線性?
爲了減少模型中發現的多重共線性,可以刪除被確定爲最共線性的特定變量。您還可以嘗試合併或轉換有問題的變量以降低它們的相關性。如果這不起作用或無法實現,可以使用改進的迴歸模型來更好地處理多重共線性,例如嶺迴歸、主成分迴歸或偏最小二乘迴歸。
什麼是完全共線性?
當模型中的兩個獨立變量之間存在精確的 1:1 對應關係時,即存在完全共線性。這可以是 +1.0 或 -1.0 的相關性。