什么是残差平方和 (RSS)?
残差平方和 (RSS) 是一种统计技术,用于测量数据集中无法由回归模型本身解释的方差量。相反,它估计残差或误差项的方差。
线性回归是一种有助于确定因变量与一个或多个其他因素(称为自变量或解释变量)之间关系强度的度量。
概要
- 残差平方和 (RSS) 衡量回归模型的误差项或残差的方差水平。
- 残差平方和越小,模型越适合您的数据;残差平方和越大,您的模型越适合您的数据。
- 值为零表示您的模型非常适合。
- 投资者和投资组合经理使用统计模型来跟踪投资价格并使用该数据来预测未来走势。
- 金融分析师使用 RSS 来估计其计量经济模型的有效性。
了解残差平方和
一般而言,平方和是回归分析中用于确定数据点离散度的统计技术。在回归分析中,目标是确定数据系列与可能有助于解释数据系列是如何生成的函数的拟合程度。平方和用作从数据中找到最适合(变化最小)的函数的数学方法。
RSS 测量模型运行后回归函数和数据集之间剩余的误差量。较小的 RSS 数字表示非常适合数据的回归函数。
RSS,也称为残差平方和,本质上决定了回归模型解释或表示模型中数据的程度。
如何计算残差平方和
RSS = ∑ n i=1 (y i - f(x i )) 2
在哪里:
y i = 要预测的变量的第 i个值
f(x i ) = y i的预测值
n = 总和的上限
残差平方和 (RSS) 与残差标准误差 (RSE)
残差标准误差 (RSE) 是另一个统计术语,用于描述观察值与预测值的标准偏差差异,如回归分析中的点所示。它是一种拟合优度度量,可用于分析一组数据点与实际模型的拟合程度。
RSE 的计算方法是将 RSS 除以样本中的观测数减去 2,然后取平方根:RSE = [RSS/(n-2)] 1/2
特别注意事项
金融市场越来越受数量驱动;因此,为了寻求优势,许多投资者正在使用先进的统计技术来帮助他们做出决策。大数据、机器学习和人工智能应用进一步需要使用统计属性来指导当代投资策略。残差平方和(或 RSS 统计)是许多正在复兴的统计属性之一。
投资者和投资组合经理使用统计模型来跟踪投资价格并使用该数据来预测未来走势。这项称为回归分析的研究可能涉及分析商品与从事生产该商品的公司股票之间的价格变动关系。
手动查找残差平方和 (RSS) 可能既困难又耗时。因为它涉及大量的减法、平方和求和,所以计算很容易出错。因此,您可能决定使用 Excel 等软件进行计算。
任何模型都可能在预测值和实际结果之间存在差异。尽管回归分析可以解释方差,但 RSS 表示未解释的方差或误差。
由于可以制作足够复杂的回归函数以紧密拟合几乎任何数据集,因此需要进一步研究以确定回归函数实际上是否有助于解释数据集的方差。
然而,通常情况下,较小或较低的 RSS 值在任何模型中都是理想的,因为这意味着数据集中的变化较小。换句话说,残差平方和越低,回归模型对数据的解释越好。
残差平方和的示例
对于 RSS 计算的简单(但冗长)演示,请考虑一个国家的消费者支出与其GDP之间众所周知的相关性。下图反映了截至 2020 年欧盟 27 个国家公布的消费者支出和国内生产总值的数值。
欧盟成员国的消费者支出与 GDP | ||
---|---|---|
国家 | 消费支出 (百万) | 国内生产总值 (百万) |
奥地利 | 309,018.88 | 433,258.47 |
比利时 | 388,436.00 | 521,861.29 |
保加利亚 | 54,647.31 | 69,889.35 |
克罗地亚 | 47,392.86 | 57,203.78 |
塞浦路斯 | 20,592.74 | 24,612.65 |
捷克共和国 | 164,933.47 | 245,349.49 |
丹麦 | 251,478.47 | 356,084.87 |
爱沙尼亚 | 21,776.00 | 30,650.29 |
芬兰 | 203,731.24 | 269,751.31 |
法国 | 2,057,126.03 | 2,630,317.73 |
德国 | 2,812,718.45 | 3,846,413.93 |
希腊 | 174,893.21 | 188,835.20 |
匈牙利 | 110,323.35 | 155,808.44 |
爱尔兰 | 160,561.07 | 425,888.95 |
意大利 | 1,486,910.44 | 1,888,709.44 |
拉脱维亚 | 25,776.74 | 33,707.32 |
立陶宛 | 43,679.20 | 56,546.96 |
卢森堡 | 35,953.29 | 73,353.13 |
马耳他 | 9,808.76 | 14,647.38 |
荷兰 | 620,050.30 | 913,865.40 |
波兰 | 453,186.14 | 596,624.36 |
葡萄牙 | 190,509.98 | 228,539.25 |
罗马尼亚 | 198,867.77 | 248,715.55 |
斯洛伐克共和国 | 83,845.27 | 105,172.56 |
斯洛文尼亚 | 37,929.24 | 53,589.61 |
西班牙 | 997,452.45 | 1,281,484.64 |
瑞典 | 382,240.92 | 541,220.06 |
消费支出与GDP具有很强的正相关关系,可以根据消费支出(CS)来预测一个国家的GDP。使用最佳拟合线的公式,这种关系可以近似为:
GDP = 1.3232 x CS + 10447
GDP 和消费者支出的单位都是百万美元。
这个公式在大多数情况下都非常准确,但由于每个国家经济的个体差异,它并不完美。下图比较了根据上述公式预测的每个国家的 GDP 和世界银行记录的实际 GDP。
欧盟成员国的预计和实际 GDP 数据,以及残差平方 | ||||
---|---|---|---|---|
国家 | 消费者支出的最新价值(百万) | GDP 最新值(百万) | 预计 GDP(基于趋势线) | 残差平方(投影 - 实数)^2 |
奥地利 | 309,018.88 | 433,258.47 | 419,340.782016 | 193,702,038.819978 |
比利时 | 388,436.00 | 521,861.29 | 524,425.52 | 6,575,250.87631504 |
保加利亚 | 54,647.31 | 69,889.35 | 82,756.320592 | 165,558,932.215393 |
克罗地亚 | 47,392.86 | 57,203.78 | 73,157.232352 | 254,512,641.947534 |
塞浦路斯 | 20,592.74 | 24,612.65 | 37,695.313568 | 171,156,086.033474 |
捷克共和国 | 164,933.47 | 245,349.49 | 228,686.967504 | 277,639,655.929706 |
丹麦 | 251,478.47 | 356,084.87 | 343,203.311504 | 165,934,549.28587 |
爱沙尼亚 | 21,776.00 | 30,650.29 | 39,261.00 | 74,144,381.8126542 |
芬兰 | 203,731.24 | 269,751.31 | 280,024.176768 | 105,531,791.633079 |
法国 | 2,057,126.03 | 2,630,317.73 | 2,732,436.162896 | 10,428,174,337.1349 |
德国 | 2,812,718.45 | 3,846,413.93 | 3,732,236.05304 | 13,036,587,587.0929 |
希腊 | 174,893.21 | 188,835.20 | 241,865.695472 | 2,812,233,450.00581 |
匈牙利 | 110,323.35 | 155,808.44 | 156,426.85672 | 382,439.239575558 |
爱尔兰 | 160,561.07 | 425,888.95 | 222,901.407824 | 41,203,942,278.6534 |
意大利 | 1,486,910.44 | 1,888,709.44 | 1,977,926.894208 | 7,959,754,135.35658 |
拉脱维亚 | 25,776.74 | 33,707.32 | 44,554.782368 | 117,667,439.825176 |
立陶宛 | 43,679.20 | 56,546.96 | 68,243.32 | 136,804,777.364243 |
卢森堡 | 35,953.29 | 73,353.13 | 58,020.393328 | 235,092,813.852894 |
马耳他 | 9,808.76 | 14,647.38 | 23,425.951232 | 77,063,312.875298 |
荷兰 | 620,050.30 | 913,865.40 | 830,897.56 | 6,883,662,978.71 |
波兰 | 453,186.14 | 596,624.36 | 610,102.900448 | 181,671,052.608372 |
葡萄牙 | 190,509.98 | 228,539.25 | 262,529.805536 | 1,155,357,865.6459 |
罗马尼亚 | 198,867.77 | 248,715.55 | 273,588.833264 | 618,680,220.331183 |
斯洛伐克共和国 | 83,845.27 | 105,172.56 | 121,391.061264 | 263,039,783.25037 |
斯洛文尼亚 | 37,929.24 | 53,589.61 | 60,634.970368 | 49,637,102.7149851 |
西班牙 | 997,452.45 | 1,281,484.64 | 1,330,276.08184 | 2,380,604,796.8261 |
瑞典 | 382,240.92 | 541,220.06 | 516,228.185344 | 624,593,798.821215 |
右侧的列表示残差平方——每个预测值与其实际值之间的平方差。这些数字看起来很大,但它们的总和实际上低于任何其他可能趋势线的 RSS。如果不同的线对这些数据点具有较低的 RSS,则该线将是最佳拟合线。
残差平方和是否与 R 平方相同?
残差平方和 (RSS) 是解释变异的绝对量,而 R 平方是变异的绝对量占总变异的比例。
RSS 是否与误差平方和 (SSE) 相同?
残差平方和 (RSS) 也称为误差平方和 (SSE)。
残差平方和和总平方和有什么区别?
总平方和 (TSS) 衡量观测数据中存在多少变化,而残差平方和衡量观测数据和建模值之间的误差变化。在统计学中,残差平方和和总平方和 (TSS) 的值经常相互比较。
残差平方和可以为零吗?
残差平方和可以为零。残差平方和越小,模型越适合您的数据;残差平方和越大,您的模型越适合您的数据。值为零表示您的模型非常适合。