隨着量化投資在金融市場中的應用越來越廣泛,很多量化投資策略和模型被研發出來並應用到實際的投資管理中,但是對於量化模型有效性的評估和檢驗方法卻不爲大多數人所熟知。研究人員通常使用夏普比率,信息比率、交易勝率和樣本外測試收益率等指標來評估量化模型的收益情況。然而,這樣的指標並不能完整地反映模型的真實表現情況。
許多量化投資模型在做歷史回溯期間能夠獲得比較滿意的收益,然而在隨後的樣本外測試及實際交易過程中,效果往往不盡如人意。究其原因通常在於在量化投資模型的測試過程中對其進行了過度的數據挖掘和優化。而對於大多數投資經理、交易員或投資者來說,往往對任何使用過參數優化的模型都避而遠之,因爲他們擔心優化所產生的收益將不會在未來的實戰交易中延續。有效的交易策略能夠在某種程度上對市場的未來行爲進行準確預測。數據挖掘領域的常見做法是交叉驗證,也就是將數據劃分爲建模樣本和驗證樣本。有效的交易策略應該能夠在建模樣本和驗證樣本上體現出較好的預測效力。
然而,通過對量化投資模型合理地運用統計檢驗的方法,不僅可以對不同的量化模型在同一框架下進行對比,也可以使投資經理、研究人員或投資者提前識別出策略是否存在人造收益或者過度優化的問題,爲量化策略在實戰中保持良好的收益提供保障。儘管通過統計檢驗的方法來評估模型的回溯績效和實戰交易績效並不能保證其優秀的歷史業績能夠持續,但是投資經理、研究人員和投資者卻可以通過統計檢驗的結果來判斷量化模型的收益是否真實地捕捉到市場無效的部分,抑或只是在研究過程中人爲地製造了漂亮的收益曲線。如果是後者,在未來的交易中,策略的優良表現則較難延續。
爲了衡量量化策略在歷史回溯階段的收益在未來能夠延續的可能性,需要對策略的歷史收益情況進行統計檢驗,雖然這裏的統計檢驗會出現檢驗假設的不滿足、檢驗的結果並不一定能夠保證策略在未來的實戰交易中獲得優異的投資業績,但仍能夠幫助投資經理增加對量化模型瞭解的信息,有效提升對量化投資模型的運用。平時常用的量化投資策略統計檢驗方法爲:t檢驗。相關性檢驗,數據窺探偏差檢驗。
t檢驗
t檢驗,亦稱studentt檢驗(Student'sttest),是威廉·戈斯特於1908年提出的,t檢驗常用來檢驗單總體,t檢驗是檢驗一個樣本平均數與一個已知的總體平均數的差異是否顯著。例如,在投資管理中,t檢驗能夠反映一系列交易後的投資組合平均盈虧在某一置信水平下是否顯著地大於某一閾值。同樣,t檢驗也適用於對收益率的檢驗,即t檢驗可以反映某一組合的日度、周度、月度收益率的期望是否顯著大於某一國值。最後,t檢驗同樣可以對策略未來的表現給出一個置信區間,即“在95%的置信區間水平下,策略未來收益率的平均值將在某個區間內”。
相關性檢驗
相關性分析是指對兩個或多個具備相關性的變量元素進行分析,從而衡量兩個變量因素的相關密切程度。相關性的元素之間需要存在一定的聯繫或者概率纔可以進行相關性分析。經過相關性分析可以求出兩個變量的相關性程度及在統計意義上相關性的顯著性。在金融市場中,相關性檢驗方法通常用於尋找對資產收益率有一定預測能力的市場因子,如在人工神經網絡模型、多因子模型等量化投資方法建模。
相關性檢驗也可用於對量化投資策略歷史回溯收益盈虧序列是否存在自相關性的檢驗,如某投資策略的收益率序列是否存在簇現象等,即正收益率和負收益率總是呈簇形的連續出現,若相關性檢驗結果表示確實存在這樣的情況,即收益率序列自相關性顯著性大於某一正閾值,那麼交易者就可以考慮這樣的交易方式,即在每筆交易盈利之後繼續交易甚至增加頭寸,到某一筆交易出現虧損後,停u止真實交易(模擬交易同時進行),直到模擬交易中再次出現正收益,重新建倉,如此反覆,那麼投資者的真實交易收益率將會優於原始策略收益。
數據窺探偏差檢驗
對於使用高頻數據的量化策略來說由於可供採集的歷史數據時間較長,做交叉驗證很容易。而對於頻率較低的策略來說,可供採集的數據時間較短,往往需要基於同一套數據進行模型的開發與驗證,這就涉及數據窺探(DataSnooping)問題。在對同一組數據測試大量的交易策略時,由於隨機性,不可避免會有某些投資策略的收益表現較好。例如,如果設所有量化投資策略的分佈服從正態分佈,根據正態慨率分佈函數,則將有5%的策略的績效高於平均績效1.65個標準差,將有1%的策略的績效高於平均績效2.33個標準差。假設投資者認爲績效高於平均績效2.33個標準差的策略就是有預測力的策略(優異策略),則每測試100個投資策略,僅僅由於隨機性就會有1個策略被當做優異策略而選出來。之所以會出現這種情況,是因爲在對策略進行測試共用一套數據時,除第一條策略之外的策略“窺探"了數據造成的。有兩個著名的統計檢驗可以用來控制數據窺探偏差:真實性檢驗和優異預測能力檢驗。兩個檢驗的核心思想是,如果一個交易策略集合中的最優規則是真正有預測能力的,其回報一定要比隨機情況下該策略集合可能出現的最大回報來得大。鑑於控制數據窺探偏差的重要性,西蒙斯的團隊有可能採用了上述檢驗及其替代形式。