什么是逐步回归?
逐步回归是回归模型的逐步迭代构建,其中涉及选择要在最终模型中使用的自变量。它涉及连续添加或删除潜在的解释变量,并在每次迭代后测试统计显着性。
统计软件包的可用性使得逐步回归成为可能,即使在具有数百个变量的模型中也是如此。
概要
- 逐步回归是一种迭代检查线性回归模型中每个自变量的统计显着性的方法。
- 前向选择方法从零开始,逐步添加每个新变量,测试统计显着性。
- 后向消除方法从加载了多个变量的完整模型开始,然后删除一个变量以测试其相对于整体结果的重要性。
- 然而,逐步回归有其缺点,因为它是一种将数据拟合到模型中以达到预期结果的方法。
逐步回归的类型
逐步回归的基本目标是,通过一系列检验(例如 F 检验、 t 检验)找到一组对因变量有显着影响的自变量。这是通过计算机通过迭代完成的,迭代是通过重复的轮次或循环分析得出结果或决策的过程。在统计软件包的帮助下自动进行测试具有节省时间和减少错误的优势。
逐步回归可以通过一次尝试一个自变量并将其包含在回归模型中(如果它具有统计显着性)或通过将所有潜在自变量包含在模型中并消除那些不具有统计显着性来实现。有些人结合使用这两种方法,因此有三种逐步回归方法:
- 前向选择从模型中没有变量开始,在将每个变量添加到模型时对其进行测试,然后保留那些被认为在统计上最显着的变量——重复该过程直到结果达到最佳。
- 向后消除从一组自变量开始,一次删除一个,然后测试删除的变量是否具有统计显着性。
- 双向消除是前两种方法的组合,用于测试应包含或排除哪些变量。
例子
使用反向消除法逐步回归的一个示例是尝试使用设备运行时间、设备使用年限、员工人数、室外温度和一年中的时间等变量来了解工厂的能源使用情况。该模型包括所有变量,然后每次删除每个变量,以确定哪个在统计上最不显着。最后,该模型可能会显示一年中的时间和温度是最重要的,这可能表明工厂的峰值能耗是空调使用率最高的时候。
逐步回归的局限性
回归分析,无论是线性的还是多元的,都广泛用于当今的经济和投资领域。这个想法通常是找到过去存在的模式,这些模式也可能在未来再次出现。例如,一个简单的线性回归可能会查看多年来的市盈率和股票回报,以确定低市盈率(自变量)的股票是否提供更高的回报(因变量)。这种方法的问题在于,市场条件经常发生变化,过去的关系在现在或未来不一定成立。
同时,逐步回归过程受到了很多批评,甚至有人呼吁完全停止使用该方法。统计学家注意到该方法的几个缺点,包括不正确的结果、过程本身的固有偏差,以及通过迭代开发复杂回归模型需要强大的计算能力。