在 Excel 中创建线性回归模型

  |  

什么是线性回归?

线性回归是一种数据分析,它考虑因变量与一个或多个自变量之间的线性关系。它通常用于直观地显示各种因素之间关系或相关性的强度以及结果的离散性——所有这些都是为了解释因变量的行为。线性回归模型的目标是估计变量之间关系的大小以及它是否具有统计显著性

假设我们想测试冰淇淋的摄入量与肥胖之间的关系强度。我们将冰淇淋的摄入量作为独立变量,并将其与肥胖作为因变量联系起来,看看是否存在关系。鉴于回归是这种关系的图形显示,数据的变异性越低,关系越强,回归线的拟合度就越高。

在金融领域,线性回归用于确定资产价格与经济数据之间的关系,应用范围广泛。例如,它用于确定Fama-French 模型中的因子权重,并且是确定资本资产定价模型(CAPM) 中股票贝塔系数的基础。

在这里,我们研究如何使用导入到 Microsoft Excel 的数据执行线性回归以及如何解释结果。

重点摘要

  • 线性回归模拟因变量和自变量之间的关系。
  • 线性回归也称为普通最小二乘法 (OLS),本质上是估计模型中所有变量之间的最佳拟合线。
  • 如果变量是独立的,不存在异方差,并且变量的误差项不相关,则可以认为回归分析是稳健的。
  • 使用数据分析工具库可以更轻松地在 Excel 中建立线性回归模型。
  • 回归输出可以解释为因变量上一个或多个变量之间的相关性的大小和强度。

重要注意事项

要进行回归分析,必须对数据集做出几个关键假设。否则,结果将被错误解释或出现偏差:

  1. 变量必须真正独立(使用卡方检验)。
  2. 数据不能有不同的误差方差(这称为异方差性(也拼写为异方差性))。
  3. 每个变量的误差项必须不相关。 如果不是,则表示变量是序列相关的

如果这三点听起来很复杂,那确实如此。但如果其中一个考虑因素不成立,就会导致估计有偏差。本质上,你会错误地陈述你正在衡量的关系。

在 Excel 中输出回归

在 Excel 中运行回归分析的第一步是仔细检查是否安装了免费的 Excel 插件数据分析工具库。此插件使计算一系列统计数据变得非常容易。它不需要绘制线性回归线,但它使创建统计表变得更简单。要验证是否已安装,请从工具栏中选择“数据”。如果“数据分析”是一个选项,则该功能已安装并可供使用。如果未安装,您可以通过单击 Office 按钮并选择“Excel 选项”来请求此选项。

使用数据分析工具库,只需单击几下即可创建回归输出。

Excel 中的独立变量处于 X 范围内。

假设我们想知道,给定标准普尔 500 指数的回报,我们是否可以估计 Visa ( V )股票回报的强度和关系。Visa (V) 股票回报数据填充第 1 列作为因变量。标准普尔 500 指数回报数据填充第 2 列作为自变量。

  1. 从工具栏中选择“数据”。显示“数据”菜单。
  2. 选择“数据分析”。显示“数据分析 - 分析工具”对话框。
  3. 从菜单中选择“回归”,然后单击“确定”。
  4. 在回归对话框中,单击“输入 Y 范围”框并选择因变量数据(Visa(V)股票收益)。
  5. 单击“输入X范围”框并选择独立变量数据(标准普尔500指数回报)。
  6. 单击“确定”运行结果。

[注意:如果表格看起来很小,请右键单击图像并在新选项卡中打开以获得更高的分辨率。]

解释结果

使用该数据(与我们的R 平方文章相同),我们得到下表:

R 2值,也称为判定系数,用于测量自变量解释因变量变异的比例,或回归模型与数据的拟合程度。R 2值的范围为 0 到 1,值越大表示拟合度越高。p 值或概率值的范围也为 0 到 1,表示检验是否显著。与 R 2值相比,p 值越小越有利,因为它表示因变量和自变量之间存在相关性。

解释结果

这里的底线是 Visa 股票的变化似乎与标准普尔 500 指数高度相关。

  • 在上面的回归输出中,我们可以看到 Visa 每变化 1 个点,标准普尔 500 指数就会相应变化 1.36 个点。
  • 我们还可以看到 p 值非常小(0.000036),这也对应于非常大的 T 检验。这表明这一发现具有高度的统计显著性,因此这一结果由偶然因素造成的可能性极低。
  • 从 R 平方我们可以看出,仅 V 价格就能解释标准普尔 500 指数中 62% 以上的波动。

然而,分析师此时可能会出于以下原因而保持谨慎:

  • 由于模型中只有一个变量,因此尚不清楚 V 是否影响标准普尔 500 指数的价格,标准普尔 500 指数是否影响 V 价格,或者某个未观察到的第三个变量是否影响两个价格。
  • Visa 是标准普尔 500 指数的成分股,因此这里的变量之间可能存在相关性。
  • 只有 20 个观察结果,可能不足以做出正确的推断。
  • 数据是时间序列,因此也可能存在自相关
  • 所研究的时间段可能不代表其他时间段。

在 Excel 中绘制回归图表

我们可以在 Excel 中通过突出显示数据并将其绘制为散点图来绘制回归图。要添加回归线,请从“图表工具”菜单中选择“布局”。在对话框中,选择“趋势线”,然后选择“线性趋势线”。要添加 R 2值,请从“趋势线”菜单中选择“更多趋势线选项”。最后,选择“在图表上显示 R 平方值”。视觉结果总结了关系的强度,尽管其代价是没有提供上表那么多细节。

如何解释线性回归?

回归模型的输出将产生各种数值结果。系数(或 beta 值)告诉您其他所有变量保持不变的情况下独立变量与因变量之间的关联。如果系数为 +0.12,则表示该变量每变化 1 个点,因变量就会在同一方向上变化 0.12 个点。如果系数为 -3.00,则意味着解释变量变化 1 个点,因变量就会在相反方向上变化 3 倍。

如何知道回归是否显著?

除了产生 beta 系数外,回归输出还将根据每个系数的标准误差(例如p 值置信区间)指示统计显著性检验。分析师通常使用 0.05 或更小的 p 值来表示显著性;如果 p 值更大,则不能排除由此产生的 beta 系数的偶然性或随机性。回归模型中的其他显著性检验可以是每个变量的t 检验,以及用于模型中所有变量联合显著性的 F 统计量或卡方。

如何解释线性回归的 R 平方?

R 2 ( R 平方) 是线性回归模型拟合优度的统计量度(从 0.00 到 1.00),也称为判定系数。一般而言,R 2越高,模型拟合度越高。R 平方也可以解释为因变量的变化中有多少是由模型中的独立(解释)变量解释的。因此,R 平方为 0.50 表示因变量中观察到的所有变化中有一半可以由因变量解释。

推荐阅读

相关文章

企业家和创业精神的定义

创业精神企业家是一个以有限的资源和规划创办和经营企业的个人,并对其企业的所有风险和回报负责。商业理念通常包含新产品或服务,而不是现有的商业模式。此类创业企业以高回报为目标,但同时也具有很高的不确定性。

蒂姆库克的管理风格是什么?

蒂姆库克的管理风格是什么?苹果首席执行官蒂姆库克的管理风格可以广义地定义为民主。库克并没有与苹果前 CEO史蒂夫·乔布斯形成鲜明对比,而是似乎采用了这位传奇企业家的一些现有做法,并制定了独特的混合领导力口头禅。蒂姆库克的优势许多人担心库克缺乏乔布斯大胆的远见风格,但他有自己的优势。他经常被苹果员工形容为有魅力、有思想。

为什么公司会执行反向股票分割?

什么是反向股票分割?反向股票分割是公司为减少其在市场上流通的股票数量而採取的措施。现有股票被合併为更少、按比例更有价值的股票,从而提高了公司的股价。要点一家公司通过减少流通股数量来执行反向股票分割以提高其股价。反向股票分割对公司价值没有内在影响,执行后市值保持不变。

如何使用 Excel 计算相关性?

什么是相关性?相关性衡量两个变量之间的线性关系。通过测量和关联每个变量的方差,相关性可以指示关系的强度。换句话说,相关性回答了这样一个问题:变量 A(自变量)在多大程度上解释了变量 B(因变量)?要点相关性是两个变量之间变化的统计线性对应关系。在金融领域,相关性用于分析的多个方面,包括投资组合标准差的计算。

线性与多元回归:有什么区别?

线性回归与多重回归:概述回归分析是金融和投资中常用的统计方法。线性回归是回归分析中最常用的技术之一。多元回归是更广泛的回归类别,包括具有多个解释变量的线性和非线性回归。回归作为一种工具有助于将数据汇集在一起,以帮助人们和公司做出明智的决策。

R 平方与调整 R 平方:有什么区别?

R 平方与调整后的 R 平方:概述R 平方和调整后的 R 平方可让投资者衡量共同基金相对于基准的表现。投资者还可以使用它们来计算其投资组合相对于给定基准的表现。在投资领域,R 平方以 0 到 100 之间的百分比表示,100 表示完全相关,0 表示完全不相关。该数字并不表示特定证券组的表现如何。

相关词条

业务活动定义

什么是商业活动?商业活动包括企业以盈利为主要目的而从事的任何活动。这是一个通用术语,包括公司在业务过程中进行的所有经济活动。包括经营、投资和融资活动在内的商业活动持续进行,并专注于为股东创造价值。概要商业活动是公司为赚取利润而进行的任何活动。

反稀释定义

什么是抗稀释剂?反稀释是描述某些行动对每股收益 (EPS)或投票权的影响的术语,例如证券退市、证券转换或其他公司行动(例如,通过发行普通股或其他证券进行的收购)现有股东。反稀释活动通过降低公司的流通股数量或增加公司的收益来维持或增加现有股东的投票权或每股收益。

回归定义

什么是回归?回归是一种用于金融、投资和其他学科的统计方法,它试图确定一个因变量(通常用 Y 表示)与一系列其他变量(称为自变量)之间关系的强度和特征。回归有助于投资和财务经理评估资产并了解变量之间的关系,例如商品价格和从事这些商品交易的企业的股票。

残差平方和 (RSS) 定义

什么是残差平方和 (RSS)?残差平方和 (RSS) 是一种统计技术,用于测量数据集中无法由回归模型本身解释的方差量。相反,它估计残差或误差项的方差。线性回归是一种有助于确定因变量与一个或多个其他因素(称为自变量或解释变量)之间关系强度的度量。概要残差平方和 (RSS) 衡量回归模型的误差项或残差的方差水平。

逐步回归

什么是逐步回归?逐步回归是回归模型的逐步迭代构建,其中涉及选择要在最终模型中使用的自变量。它涉及连续添加或删除潜在的解释变量,并在每次迭代后测试统计显着性。统计软件包的可用性使得逐步回归成为可能,即使在具有数百个变量的模型中也是如此。概要逐步回归是一种迭代检查线性回归模型中每个自变量的统计显着性的方法。

最小二乘法定义

什么是最小二乘法?最小二乘法是数学回归分析的一种形式,用于确定一组数据的最佳拟合线,提供数据点之间关系的直观演示。每个数据点代表已知自变量和未知因变量之间的关系。要点最小二乘法是一种统计过程,通过最小化绘制曲线中各点的偏移或残差之和来找到一组数据点的最佳拟合。最小二乘回归用于预测因变量的行为。