统计套利的核心直接依赖于数据挖掘(data mining)。
首先,统计套利分析者对海量的历史数据进行筛选,以期发现某种普遍的统计关系。这种关系可以存在于一个证券的当前价格水平及其近期历史价格水平之间,也可存在于两个证券的价格水平之问,甚至可以存在于一个证券的价格水平和另一个证券的波动率之间。在寻找的过程中,关键在于这种关系必须在90%的统计置信度下成立,90%是大多数统计分析中可以接受的最低置信阀值。
当我们检测到一个显著的统计关系之后,我们就可以建立一个荃于如下假设的统计套利交易模型:如果某一时刻这种统计关系被违反,那么它将会均值间复(mean-revert)到它的历史正常水平,此时我们就应该在均值回复方向建立头寸。当对这种统计关系的违反程度变得很大时,我们假设均值回复的趋势也会相应增加。
我们可以用目前的相互关系与历史平均值偏离几倍的标准差来衡量当前对历史关系的违反程度。例如,假设我们感兴趣的变量是价格,在短时期内美元/加元的价格水平相对于美元/瑞士法郎的价格水平上升了它们之差的历史水平两倍标准差以上,统计套利策略认为美元/加元这种非同寻常的大幅变动有可能在不久的将来会有一个反转,因此交易策略会建立一个美元/加元的空头头寸。如果均值回复确实发生了,这一策略就取得了盈利,否则,止损会被触发,这个策略产生了一次亏损。