統計套利的核心直接依賴於數據挖掘(data mining)。
首先,統計套利分析者對海量的歷史數據進行篩選,以期發現某種普遍的統計關係。這種關係可以存在於一個證券的當前價格水平及其近期歷史價格水平之間,也可存在於兩個證券的價格水平之問,甚至可以存在於一個證券的價格水平和另一個證券的波動率之間。在尋找的過程中,關鍵在於這種關係必須在90%的統計置信度下成立,90%是大多數統計分析中可以接受的最低置信閥值。
當我們檢測到一個顯著的統計關係之後,我們就可以建立一個荃於如下假設的統計套利交易模型:如果某一時刻這種統計關係被違反,那麼它將會均值間復(mean-revert)到它的歷史正常水平,此時我們就應該在均值回覆方向建立頭寸。當對這種統計關係的違反程度變得很大時,我們假設均值回覆的趨勢也會相應增加。
我們可以用目前的相互關係與歷史平均值偏離幾倍的標準差來衡量當前對歷史關係的違反程度。例如,假設我們感興趣的變量是價格,在短時期內美元/加元的價格水平相對於美元/瑞士法郎的價格水平上升了它們之差的歷史水平兩倍標準差以上,統計套利策略認爲美元/加元這種非同尋常的大幅變動有可能在不久的將來會有一個反轉,因此交易策略會建立一個美元/加元的空頭頭寸。如果均值回覆確實發生了,這一策略就取得了盈利,否則,止損會被觸發,這個策略產生了一次虧損。