數據集測試的基本假設是,對於某個證券,我們所接收到的數據服從的分佈是不隨時間變化的,並且以不同頻率進行採樣時,數據的分佈性質也應該是一致的,例如,美元/加元的I分鐘數據的分佈應該與過去一年的1分鐘歷史數據的分佈一致。當然,數據集測試允許分佈隨時間有些許變化,但是這個變化不能太劇烈,除非是當時發生了大規模市場崩潰的情形。
一個比較常用的數據集測試方法是檢驗自相關係數的一致性。其實現步驟如下:
以給定頻率對數據集進行採樣,比如說,以10秒爲間隔。
以30-1000個觀察值爲移動窗口估計自相關係數。
3.將得到的自相關係數映射到一個分佈,找出異常值,並明原因。我們還可以對分佈的性質做進一步分析以回答如下問題:
分佈特性在過去一個月、一個季度或是一年裏是否有改變?
這些改變是代碼版本不同引起的嗎?是不是在產品包中增加或移除了一些程序導致的?
以上的測試應當在不同的抽樣頻率之下重複進行,以確保不存在系統性的偏差。