既然是基於數量化的分析手段,數據就自然而然的成爲了最重要的輸入。這裏筆者想着重談兩個方面。
首先,《解讀量化投資》一書中介紹說,西蒙斯使用“每筆交易數據庫”(記錄每一筆交易的價格變化,而不是每分鐘的價格變化)。信息量損失越少,應該越有利於模型的開發。可對於股民來說,現實問題是這個數據庫在國內還真是不好獲取。至少,從大衆普遍的意識中,上交所逐筆數據的獲取應該是從2006年8月開始。此時,上交所Level-2行情數據的公佈纔有可能具備逐筆交易的信息,之前所顯示的都是撮合數據。而深交所的Level-2行情數據也基本上能追溯到2009年。理論上講,既然公佈出來這樣的數據,就可以獲取。從數據量上來說,時間段有限可能對於算法的校驗、訓練會產生障礙。
其次,“T+1”的交易制度讓快進快出型的股票日內交易受到一定的阻礙。雖然有一種非滿倉滾動的操作方式可以在一定程度上彌補這一不足,但畢竟還要受到操作次數和基數的限制。
在股票操作這個問題上,一種處理思路是更改以日內交易爲月的的算法設計,用基於日線級別的數據來予以替代。儘管這往往意味着需要將算法的設計理念調整爲類似於基金式的長期持有,但也仍不是必然選擇。不過,還是有必要來重新思考一下爲什麼我們強調將算法交易僅僅只是瞄準在與基金業績比較的層面就已經存在意義。
基金作爲專家理財,實際上是有一定優勢的。承認基金經理可能在金融教育和市場經驗上有超過普通投資者的現實很重要。很多問題應該換位思考才能得到較爲合理的答案。很多投資人是自己做不好才把資產交給基金進行打理的。基金賺錢的時候覺得理所應當,賠錢的時候就有種“還不如我”的心態,這十分不可取。如果我們有方法可以打敗基金,這實際上已經實屬不易。只要方法有效、穩定且可以擴展,讀者其實就已經掌握了價值不菲的技術。實際上,筆者在考慮算法設計的時候,也主要是以嘗試打敗指數或者打敗基金爲目的來建立算法應用的。至少,依照筆者所接受的金融教育和國內基金普遍比指數走的好的現實,這個並不“高遠”的目的可以讓我自已感到知足了。
正如筆者所指出的一樣,投資這種事沒什麼絕對。據筆者瞭解,在期貨市場有一種炒單現象。做得好的炒手甚至可以每天有穩定的盈利。這或許就是普通投資者操作的另一個出路。調整好兩者比例,或許纔是至關重要的。其實,對於很多投資者來說,股票市場的門檻還是相對較低的。而且,國內期貨市場算法交易發展的進程要遠高於股票市場,投資人往往也格外的老練。所以,在沒有較好的準備之前,投資人還是不要輕易涉獵比較穩妥。
這裏其實也涉及到了上一節的一個遺留問題。“不從模型開始,而是從數據開始”到底是什麼意思?筆者認爲可能存在兩個方面的含義:1.避免以定價模式來嘗試推測變量的目標值;2.其極有可能是從數據挖掘的角度來嘗試搜尋算法,並依託統計套利的模式進行策略執行。
這第一個方面容易理解,實際上筆者從本書的一開始就表達了對內在價值在應用層面的不認可。認爲“金融工具存在內在價值且價格要向價值迴歸”這種觀點更接近一種信仰。而信仰往往是不需要(也沒辦法)證明的。在金融市場裏有信仰可不見得是個好事。長期資本的例子已經比較好的說明了這一點。
第二個方面可能略有些問題需要解釋。套利已經在前文中有所涉及,但統計套利暫時還沒有。
金融投資領域的統計套利實際上存在於兩個不同的方面。在學術領域統計套利是以針對確定性套利的形式存在的。也就是說,統計套利是通過對資產價格的統計研究嘗試尋找已有模式下的錯誤定價。而在對沖基金中,統計套利泛指短期均值回覆策略。而這種策略是建立在大規模操作,短期持有,堅實的計算與交易的信息技術構架之上。
安德魯·波爾在《統計套利》一書中指出:“統計套利的方法範圍,從最古老的純粹的匹配交易機制到複雜的、動態的非線性模型,應用的技術包括神經網絡、小波分析、分形分析一幾乎涵蓋了統計學、物理學和數學上的所有的模式匹配技術,這些技術被測試、檢驗,並在大多數情況下遭到摒棄……後期融合了多種因素,包括交易經驗、更多的實證觀察值、實驗分析,並且從工程學和物理學的視角,給予了理論上的解釋。”
作爲一個行業詞彙,想要精確的定義是有困難的。但不難看出,統計套利普遍涉及到了模式的探索、校驗和大基數的應用。至於研究方法則沒什麼限制,只要是能數量化的領域就可以借鑑使用。換句話說,這種研究方法是在假設過去的盈利模式仍然適用於現在,不適用的策略算法就要被捨棄。顯然,算法池式的管理結構是我們第一個反應出來的應對方法,這也是筆者之前強調鬆散結構的原因。
到此爲止,似乎一個有意思的問題出現了。一種完全不同於長期資本管理這種倒金字塔式的策略結構可以應用到量化交易中。那種強調衍生品式的模式可以被一種相對扁平的結構所取代,而分析師則更像是一個維持優勝劣汰比例的閥門控制人,以及爲種羣添加新個體的造物主。