什么是多重共线性?
多重共线性是指多元回归模型中两个或多个独立变量之间存在高度相关性。当研究人员或分析师试图确定每个独立变量如何最有效地用于预测或理解统计模型中的因变量时,多重共线性可能会导致结果扭曲或误导。
一般来说,多重共线性会导致更宽的置信区间,从而产生模型中独立变量效应的可靠性较低的概率。
概要
- 多重共线性是一个统计概念,其中模型中的几个独立变量是相关的。
- 如果两个变量的相关系数为 +/- 1.0,则认为它们完全共线。
- 独立变量之间的多重共线性将导致统计推断的可靠性降低。
- 在建立使用两个或多个变量的多元回归模型时,最好使用不相关或重复的独立变量。
- 数据集中存在多重共线性会由于标准误差较大而导致结果的可靠性降低。
理解多重共线性
统计分析师使用多元回归模型根据两个或多个独立变量的值预测特定因变量的值。因变量有时被称为结果、目标或标准变量。
一个例子是多元回归模型,它试图根据市盈率(P/E 比率)、市值、过往表现或其他数据来预测股票收益。股票收益是因变量,而各种财务数据是自变量。
多元回归模型中的多重共线性表示共线独立变量以某种方式相关,尽管这种关系可能是偶然的,也可能不是偶然的。例如,过去的表现可能与市值有关,因为过去表现良好的股票的市值将会上升。
换句话说,当两个独立变量高度相关时,就会存在多重共线性。如果一个独立变量是根据数据集中的其他变量计算出来的,或者两个独立变量提供相似且重复的结果,也会出现多重共线性。
特别注意事项
消除多重共线性问题的最常见方法之一是首先识别共线独立变量,然后删除除一个变量之外的所有变量。
也可以通过将两个或多个共线变量合并为一个变量来消除多重共线性。然后可以进行统计分析来研究指定的因变量与单个自变量之间的关系。
包含多重共线性的模型的统计推断可能不可靠。
多重共线性的例子
在投资方面
对于投资而言,在进行技术分析以预测证券(例如股票或商品期货)未来价格可能变动时,多重共线性是一个常见的考虑因素。
市场分析师应避免使用共线技术指标,因为这些指标基于非常相似或相关的输入;它们往往会对价格变动的因变量做出类似的预测。相反,市场分析必须基于明显不同的独立变量,以确保他们从不同的独立分析角度分析市场。
潜在多重共线性问题的一个例子是仅使用几个相似的指标进行技术分析。
著名技术分析师、布林线指标的创始人约翰·布林格指出:“成功使用技术分析的一条基本规则是避免指标之间的多重共线性。”为了解决这个问题,分析师避免使用两个或多个相同类型的技术指标。相反,他们使用一种指标(如动量指标)分析证券,然后使用另一种指标(如趋势指标)进行单独分析。
例如,随机指标、相对强弱指数 (RSI)和威廉斯 %R 都是依赖类似输入的动量指标,并且可能产生类似的结果。在这种情况下,最好删除所有指标,只留下一个,或者找到一种方法将其中几个指标合并为一个指标,同时添加一个不太可能与动量指标高度相关的趋势指标。
在生物学中
多重共线性在许多其他情况下也存在。其中一个情况就是人类生物学。例如,一个人的血压与年龄不共线,体重、压力和脉搏也不共线。
如何检测多重共线性?
一种称为方差膨胀因子(VIF) 的统计技术用于检测和测量多元回归模型中的共线性量。
如何处理多重共线性?
为了减少模型中发现的多重共线性,可以删除被确定为最共线性的特定变量。您还可以尝试合并或转换有问题的变量以降低它们的相关性。如果这不起作用或无法实现,可以使用改进的回归模型来更好地处理多重共线性,例如岭回归、主成分回归或偏最小二乘回归。
什么是完全共线性?
当模型中的两个独立变量之间存在精确的 1:1 对应关系时,即存在完全共线性。这可以是 +1.0 或 -1.0 的相关性。