下一步是购买或生成测试理论的数据。当然,我们总能买到几千个时间序列,也可以做实验、做调查来生成数据。不幸的是,可用的数据看上去从不是我们想测量的量,也不是我们想用它来测量的量。那些数据总是存在污染、噪声和错误,至少没有大量数据是完全合乎要求的。
数据质最涉及许多数量级。可用的证据显示,最熟知的价格序列几乎总是正确的,当它们不正确时,误差也很微小,例如只有小麦价格的1美分或者2美分。另一方面,对国民生产总值(GDP)的估算总是有错误,而误差值可能有几千万甚至几亿美元。
误差的范围很多是按百分比计算的,许多价格序列的误差可能在1%或者2%。另一方面,许多企业的业绩报表有约50%的误差。如果某公司的年度报告宣称每股收益是2.53美元,这意味着公司经营者根据可用数据、某些会计评审和假设,估计每股收益为2.53美元。不同的假设和判断会产生不同水平的每股收益估计值,例如,每股收益从1.25美元至3.75美元不等。
上文给出的例子给人这样一种不好的印象,即问题更客观。某一数据序列的误差大小在很大程度上取决于误差到底是什么意思。例如,如果国民生产总值没有计算地下经济、家计部门、休闲和经济总体中许多其他的部门,而同时它们又非常重要的话,那么报告的GDP可能会低估实际GDP水平约20%至40%。更糟糕的是,报告的GDP低估实际GDP的程度在时间和地点上几乎是不变的。例如,休闲越来越多地占据了我们的时间。如果这是真的,没有其他重要的抵消因素,那么报告的GDP就会越来越低估实际的GDP。另一方面,如果可以忽略上述的技术细节和许多其他技术细节,且关注GDP每季度的变化,那么我们可以假设误差率为1%,或者1%的一部分。
误差问题有的严重程度,取决于如何使用数据。一些预测一两年内商业票据的利率变化的人不用担心GDP中几十亿美元的误差。相反,许多基于统计技巧的短线追踪系统可能会因为每日价格序列中的微小误差而受到极大影响。
如果我们想要预测通用电气的价格,而不是《华尔街日报》中记录的价格,那么了解感兴趣的数据所包含的误差的程度和类型是很有用的。根据定义,只有两种类型的误差:系统误差和随机误差。系统误差包括数据中的偏向。换句话说,应该被取样的人口并未被取样。例如,由于许多投资方面的原因,有关个人或者家庭的收人分布的信息会有用处。但这类数据最明显的一个来源——税收记录的价值却不确定。这些记录可能是有偏向性的。至少,只要纳税人说谎会有好处的,记录就是有偏向性。美国税务局尽一切所能来保证记录的准确性。但是只要是在一个敌对环境下,它能做的事情都会受到严格的限制。
随机误差是非系统误差以外的误差。例如,当输入数据时,存在按错键的可能性。5.01美元可能被输入为5.04美元或者5.02美元。如果误差的概率无法确定,那么误差就是随机的。如果数据误差很小而且是随机的,那么它们就不重要。更准确的说,我们很容易通过标准统计技巧米控制微小的随机误差。
当然,数据包含的系统误差的类型取决于数据的类型。误差的类型如此之多,以至于无法在此一一列出。尽管如此,大多数投资者只对定量时间序列感兴趣,而它们至少包括四种重要的系统误差。第一,数据源本身可能因许多原因而有误差。例如,数据可以完全是谎言,就像一些收入和经理人绩效数据。或者就像国民生产力数据那样,概念被错定了。生产力是指每工时的产出,只有我们知道如何测量它时,它才能引起我们足够的兴趣。我们可以测量一个钢铁厂或者发电厂的生产力,但是我们如何测量吗家银行或者一个经纪公司的生产力呢?考虑到每四个美国人中就有三个从事服务业,这明显是一个重要的技术问题。
第二,即使数据源是正确的,数据也可能会有记录、抄写错误。例如,电脑可能只能记录两位数的价格,而实际价格却是三位数。如果左边的数据被删除,价格166就变成了66。
第三,即使在严格意义上数据是正确的,它们也可能不完整。价格序列尤其容易受这一问题影响。更糟糕的是,可能只有相对熟练的使用者才能发现数据不完整。例如,专业用钢每桶价格不仅包括了每桶钢的价格,还包括所有的贴现、折扣和回扣,更不用提制造商其他的诸多特殊服务类型。许多价格序列不仅仅是一个数字。
第四,数据在记录的日期还不可用。例如,不利的收入报告经常推迟发布。同时,历史总结常常呈现修正的数据,而系统没有注意到数据已经被修正了。修正数据是指在报告发布后根据可用信息而修正的数据。许多宏观经济预测和索引有时在发布之后被多次修正。
有两种方法能找出数据误差。
第一,根据数据中的信息或者数据序列本身进行检查。没有基准线会无限地出人意料,它几乎总在我们的预计之内。一个序列中的每个基准线都有--定的特性,我们应该根据这些特性来检测数据。例如,大多数价格序列都用大于0的数字表示。对这些序列而言,任何不是数字的基准线,或者基准线低于0都是错误的。数据内部的关系也应检查。例如,在任意给定日,股票的最高价都应该大于等于它的最低价。当情况与之不符时,其中一个价格一定是错了,或者两个价格都错了。这样的关系可以具有任意的复杂性。
有许多特性数据不是必须具备,但可能存在。如果一个值并非不可能,只是不大可能,那么检查该值就很必要得了。因此,在任何序列中较大和较小的值都值得检查。我们还能检查数据之间的关系。例如,几组数据序列的散布式绘图常常揭示一些不寻常的地方,所以也值得检查。
第二,如果有观察,我们就能根据原始观察而检查数据。如果没有观察,总体来讲,除了最后一个观察以外,在时间序列数据中这种情况很显著,那么不管它们产生了什么历史痕迹,我们都要据此来检查数据。例如,1985年7月19日通用电气的收盘价格已经看不见了,纽约证券交易所的价格追踪记录本身就有误差,但是这是我们所能做的最好的。如果误差是独立的,观察多个记录就和看原.始数据一样好。另一方面,如果误差是相关的,例如《华尔街日报》简单地将证券交易所的记录抄过来,观察多个记录不会增加任何信息。事实上,每复制一次数据,就会增加一层的误差。因此,不管在哪种程度上,检查错误都应该回到最早的数据源。
不论我们有多仔细地追踪数据、改正数据,数据中仍然会存在错误。剩余偏差和误差率是指更正后数据中仍存在的错误的比重。除非我们已知剩余偏差和误差率,否则试图从数据中得出结论是危险的。一种估计剩余偏差的方法是,先从未更正的数据中抽取样本,将样本中每个基准线和原始观察,或者至少和可用的最佳记录相比较。估计完成后,它就能指示出我们是该舍弃数据、进一步清理数据,还是信任该数据。
偏差信息的一个重要来源是更正过程本身。所有的更正程序将自己的偏差引人数据中。例如,任何用于检查价格变化离群值的程序——它们检查所有较大的价格变化,不管变化是正是负——都保证较小的价格变化比一般的价格变化锆得更多。这个变化也许重要,也许不重要。它不大可能影响大多数的计量经济学方法,但是它可能影响许多技术系统。
尽管我们能购买或者生成数据,但好的数据不总是能通过这样的方式得到,至少不会在合理的代价之内获得。当发生这样的情况时,我们就必须放弃或者修正项目。修正项目的方法之一是使用替代数据序列——那些和我们真正感兴趣的序列相似的序列。在某种意义上,如果我们能得到这样的序列的话,几乎每个数据序列都是我们真正想得到的序列的替代品。例如,我们想得到一个小型投资者市场意见的每日调查,但是我们勉强接受了每周零星的购买、销售和卖空数据。从这个意义上讲,购买或者生成数据包含了想要什么、能做什么、花费如何之间的权衡。如果可接受的替代序列足够便宜,那么这个项目就具有高性价比。
由于研究者在他/她发现之前对自己能发现什么所知甚少,成本效益分析在此处帮助不大。尽管如此,我们必须做出重要的选择。考虑到失败的代价,除非有强有力的原因另觅方法,否则我们就要么审慎地购买或开发高质量的数据,要么就干脆不购买、不生成数据。