下一步是購買或生成測試理論的數據。當然,我們總能買到幾千個時間序列,也可以做實驗、做調查來生成數據。不幸的是,可用的數據看上去從不是我們想測量的量,也不是我們想用它來測量的量。那些數據總是存在污染、噪聲和錯誤,至少沒有大量數據是完全合乎要求的。
數據質最涉及許多數量級。可用的證據顯示,最熟知的價格序列幾乎總是正確的,當它們不正確時,誤差也很微小,例如只有小麥價格的1美分或者2美分。另一方面,對國民生產總值(GDP)的估算總是有錯誤,而誤差值可能有幾千萬甚至幾億美元。
誤差的範圍很多是按百分比計算的,許多價格序列的誤差可能在1%或者2%。另一方面,許多企業的業績報表有約50%的誤差。如果某公司的年度報告宣稱每股收益是2.53美元,這意味着公司經營者根據可用數據、某些會計評審和假設,估計每股收益爲2.53美元。不同的假設和判斷會產生不同水平的每股收益估計值,例如,每股收益從1.25美元至3.75美元不等。
上文給出的例子給人這樣一種不好的印象,即問題更客觀。某一數據序列的誤差大小在很大程度上取決於誤差到底是什麼意思。例如,如果國民生產總值沒有計算地下經濟、家計部門、休閒和經濟總體中許多其他的部門,而同時它們又非常重要的話,那麼報告的GDP可能會低估實際GDP水平約20%至40%。更糟糕的是,報告的GDP低估實際GDP的程度在時間和地點上幾乎是不變的。例如,休閒越來越多地佔據了我們的時間。如果這是真的,沒有其他重要的抵消因素,那麼報告的GDP就會越來越低估實際的GDP。另一方面,如果可以忽略上述的技術細節和許多其他技術細節,且關注GDP每季度的變化,那麼我們可以假設誤差率爲1%,或者1%的一部分。
誤差問題有的嚴重程度,取決於如何使用數據。一些預測一兩年內商業票據的利率變化的人不用擔心GDP中幾十億美元的誤差。相反,許多基於統計技巧的短線追蹤系統可能會因爲每日價格序列中的微小誤差而受到極大影響。
如果我們想要預測通用電氣的價格,而不是《華爾街日報》中記錄的價格,那麼瞭解感興趣的數據所包含的誤差的程度和類型是很有用的。根據定義,只有兩種類型的誤差:系統誤差和隨機誤差。系統誤差包括數據中的偏向。換句話說,應該被取樣的人口並未被取樣。例如,由於許多投資方面的原因,有關個人或者家庭的收人分佈的信息會有用處。但這類數據最明顯的一個來源——稅收記錄的價值卻不確定。這些記錄可能是有偏向性的。至少,只要納稅人說謊會有好處的,記錄就是有偏向性。美國稅務局盡一切所能來保證記錄的準確性。但是隻要是在一個敵對環境下,它能做的事情都會受到嚴格的限制。
隨機誤差是非系統誤差以外的誤差。例如,當輸入數據時,存在按錯鍵的可能性。5.01美元可能被輸入爲5.04美元或者5.02美元。如果誤差的概率無法確定,那麼誤差就是隨機的。如果數據誤差很小而且是隨機的,那麼它們就不重要。更準確的說,我們很容易通過標準統計技巧米控制微小的隨機誤差。
當然,數據包含的系統誤差的類型取決於數據的類型。誤差的類型如此之多,以至於無法在此一一列出。儘管如此,大多數投資者只對定量時間序列感興趣,而它們至少包括四種重要的系統誤差。第一,數據源本身可能因許多原因而有誤差。例如,數據可以完全是謊言,就像一些收入和經理人績效數據。或者就像國民生產力數據那樣,概念被錯定了。生產力是指每工時的產出,只有我們知道如何測量它時,它才能引起我們足夠的興趣。我們可以測量一個鋼鐵廠或者發電廠的生產力,但是我們如何測量嗎家銀行或者一個經紀公司的生產力呢?考慮到每四個美國人中就有三個從事服務業,這明顯是一個重要的技術問題。
第二,即使數據源是正確的,數據也可能會有記錄、抄寫錯誤。例如,電腦可能只能記錄兩位數的價格,而實際價格卻是三位數。如果左邊的數據被刪除,價格166就變成了66。
第三,即使在嚴格意義上數據是正確的,它們也可能不完整。價格序列尤其容易受這一問題影響。更糟糕的是,可能只有相對熟練的使用者才能發現數據不完整。例如,專業用鋼每桶價格不僅包括了每桶鋼的價格,還包括所有的貼現、折扣和回扣,更不用提製造商其他的諸多特殊服務類型。許多價格序列不僅僅是一個數字。
第四,數據在記錄的日期還不可用。例如,不利的收入報告經常推遲發佈。同時,歷史總結常常呈現修正的數據,而系統沒有注意到數據已經被修正了。修正數據是指在報告發布後根據可用信息而修正的數據。許多宏觀經濟預測和索引有時在發佈之後被多次修正。
有兩種方法能找出數據誤差。
第一,根據數據中的信息或者數據序列本身進行檢查。沒有基準線會無限地出人意料,它幾乎總在我們的預計之內。一個序列中的每個基準線都有--定的特性,我們應該根據這些特性來檢測數據。例如,大多數價格序列都用大於0的數字表示。對這些序列而言,任何不是數字的基準線,或者基準線低於0都是錯誤的。數據內部的關係也應檢查。例如,在任意給定日,股票的最高價都應該大於等於它的最低價。當情況與之不符時,其中一個價格一定是錯了,或者兩個價格都錯了。這樣的關係可以具有任意的複雜性。
有許多特性數據不是必須具備,但可能存在。如果一個值並非不可能,只是不大可能,那麼檢查該值就很必要得了。因此,在任何序列中較大和較小的值都值得檢查。我們還能檢查數據之間的關係。例如,幾組數據序列的散佈式繪圖常常揭示一些不尋常的地方,所以也值得檢查。
第二,如果有觀察,我們就能根據原始觀察而檢查數據。如果沒有觀察,總體來講,除了最後一個觀察以外,在時間序列數據中這種情況很顯著,那麼不管它們產生了什麼歷史痕跡,我們都要據此來檢查數據。例如,1985年7月19日通用電氣的收盤價格已經看不見了,紐約證券交易所的價格追蹤記錄本身就有誤差,但是這是我們所能做的最好的。如果誤差是獨立的,觀察多個記錄就和看原.始數據一樣好。另一方面,如果誤差是相關的,例如《華爾街日報》簡單地將證券交易所的記錄抄過來,觀察多個記錄不會增加任何信息。事實上,每複製一次數據,就會增加一層的誤差。因此,不管在哪種程度上,檢查錯誤都應該回到最早的數據源。
不論我們有多仔細地追蹤數據、改正數據,數據中仍然會存在錯誤。剩餘偏差和誤差率是指更正後數據中仍存在的錯誤的比重。除非我們已知剩餘偏差和誤差率,否則試圖從數據中得出結論是危險的。一種估計剩餘偏差的方法是,先從未更正的數據中抽取樣本,將樣本中每個基準線和原始觀察,或者至少和可用的最佳記錄相比較。估計完成後,它就能指示出我們是該捨棄數據、進一步清理數據,還是信任該數據。
偏差信息的一個重要來源是更正過程本身。所有的更正程序將自己的偏差引人數據中。例如,任何用於檢查價格變化離羣值的程序——它們檢查所有較大的價格變化,不管變化是正是負——都保證較小的價格變化比一般的價格變化鋯得更多。這個變化也許重要,也許不重要。它不大可能影響大多數的計量經濟學方法,但是它可能影響許多技術系統。
儘管我們能購買或者生成數據,但好的數據不總是能通過這樣的方式得到,至少不會在合理的代價之內獲得。當發生這樣的情況時,我們就必須放棄或者修正項目。修正項目的方法之一是使用替代數據序列——那些和我們真正感興趣的序列相似的序列。在某種意義上,如果我們能得到這樣的序列的話,幾乎每個數據序列都是我們真正想得到的序列的替代品。例如,我們想得到一個小型投資者市場意見的每日調查,但是我們勉強接受了每週零星的購買、銷售和賣空數據。從這個意義上講,購買或者生成數據包含了想要什麼、能做什麼、花費如何之間的權衡。如果可接受的替代序列足夠便宜,那麼這個項目就具有高性價比。
由於研究者在他/她發現之前對自己能發現什麼所知甚少,成本效益分析在此處幫助不大。儘管如此,我們必須做出重要的選擇。考慮到失敗的代價,除非有強有力的原因另覓方法,否則我們就要麼審慎地購買或開發高質量的數據,要麼就乾脆不購買、不生成數據。