什麼是逐步迴歸?
逐步迴歸是迴歸模型的逐步迭代構建,其中涉及選擇要在最終模型中使用的自變量。它涉及連續添加或刪除潛在的解釋變量,並在每次迭代後測試統計顯着性。
統計軟件包的可用性使得逐步迴歸成爲可能,即使在具有數百個變量的模型中也是如此。
關鍵點
- 逐步迴歸是一種迭代檢查線性迴歸模型中每個自變量的統計顯着性的方法。
- 前向選擇方法從零開始,逐步添加每個新變量,測試統計顯着性。
- 後向消除方法從加載了多個變量的完整模型開始,然後刪除一個變量以測試其相對於整體結果的重要性。
- 然而,逐步迴歸有其缺點,因爲它是一種將數據擬合到模型中以達到預期結果的方法。
逐步迴歸的類型
逐步迴歸的基本目標是,通過一系列檢驗(例如 F 檢驗、 t 檢驗)找到一組對因變量有顯着影響的自變量。這是通過計算機通過迭代完成的,迭代是通過重複的輪次或循環分析得出結果或決策的過程。在統計軟件包的幫助下自動進行測試具有節省時間和減少錯誤的優勢。
逐步迴歸可以通過一次嘗試一個自變量並將其包含在迴歸模型中(如果它具有統計顯着性)或通過將所有潛在自變量包含在模型中並消除那些不具有統計顯着性來實現。有些人結合使用這兩種方法,因此有三種逐步迴歸方法:
- 前向選擇從模型中沒有變量開始,在將每個變量添加到模型時對其進行測試,然後保留那些被認爲在統計上最顯着的變量——重複該過程直到結果達到最佳。
- 向後消除從一組自變量開始,一次刪除一個,然後測試刪除的變量是否具有統計顯着性。
- 雙向消除是前兩種方法的組合,用於測試應包含或排除哪些變量。
例子
使用反向消除法逐步迴歸的一個示例是嘗試使用設備運行時間、設備使用年限、員工人數、室外溫度和一年中的時間等變量來了解工廠的能源使用情況。該模型包括所有變量,然後每次刪除每個變量,以確定哪個在統計上最不顯着。最後,該模型可能會顯示一年中的時間和溫度是最重要的,這可能表明工廠的峯值能耗是空調使用率最高的時候。
逐步迴歸的侷限性
迴歸分析,無論是線性的還是多元的,都廣泛用於當今的經濟和投資領域。這個想法通常是找到過去存在的模式,這些模式也可能在未來再次出現。例如,一個簡單的線性迴歸可能會查看多年來的市盈率和股票回報,以確定低市盈率(自變量)的股票是否提供更高的回報(因變量)。這種方法的問題在於,市場條件經常發生變化,過去的關係在現在或未來不一定成立。
同時,逐步迴歸過程受到了很多批評,甚至有人呼籲完全停止使用該方法。統計學家注意到該方法的幾個缺點,包括不正確的結果、過程本身的固有偏差,以及通過迭代開發複雜迴歸模型需要強大的計算能力。