支持向量機非線性SVM

  |  

非線性SVM

上一節的算法針對的是輸入空間存在線性判別面的情況。對分類面是非線性函數的情況,理論上應將輸入空間通過某種非線性映射,映射到一個高維特徵空間,在這個空間中存在線性的分類規則,可以構造線性的最優分類超平面。但是這種方法帶來了兩個問題;一是概念上的問題,怎樣在如此高維的空間中找到一個推廣性好的分類超平面;二是技術上的問題,如何處理高維空間中的計算問題。

前面我們把尋找最優超平面最終歸結爲其Wolfe對偶問題,一個很重要的副產品就是找到了一個克服維數災難、解決技術上問題的絕好方法.如果數學上可以找到一個函數K : (Rn, Rn) -4 R,使得K(xi,xj)就等於xi,、xj在高維特徵空間中的映射的點積,那麼用K(xi,xj)代替Wolfe對偶問題中爲xi和xj的點積即可,計算量將會大大減少。事實上確實存在這樣的函數,Vapnik稱之爲卷積核函數,於是我們只需在輸入空間中計算卷積核函數,而不必知道非線性映射的形式,也不必在高維特徵空間中進行計算。

通過上一節已經看到,線性SVM是以樣本間的歐氏距離大小爲依據來決定劃分的結構的。非線性SVM中以卷積核函數代替內積後,相當於定義了一種廣義的距離,以這種廣義距離作爲劃分依據。也許並不一定所有的學習機器都要以樣本間距離作爲劃分依據,但是對於面臨的很多問題來說,把距離近的樣本劃分在一起確實是理所當然的。

我們自然會提出這樣的問題:怎樣選擇核函數?核函數的性質會對學習機器的推廣能力起決定作用嗎?幸運的是,實驗表明,採用不同種類核函數的學習機器表現出了大致相同的性能,它們找到的支持向量大致相同。多項式分類器、徑向基函數、兩層神經網絡等都是常用的SVM的核函數。

首先將輸入向量x通過映射Ψ:Rn→H映射到高維Hilbert空間H中。設核函數K滿足:K(xi,xj)=Ψ(xi)·Ψ(xj)

則二次規劃問題的目標函數變爲:

與線性情況有所不同的是:儘管在高維特徵空間中線性判別面的法向量w仍可表示成這個空間中支持向量的線性組合,但由於將輸入空間映射爲高維空間的是非線性映射,這種線性組合關係在輸入空間中不再表現爲線性組合,我們又不可能把工作樣本映射到高維空間再做判別,所以就需要重新考慮工作樣本的決策問題。在訓練完成之後,只需計算下列函數的符號即可:

式中,b作爲偏移值,取值如下:

式中,x*(1)表示屬於第一類的某個(任一個)支持向量:x*(-1)表示屬於第二類的某個支持向量。

如果支持向量很多,則決策階段的計算量也會較大。所以在實際應用中,如果訓練集比較大而且得到的支持向量很多,在犧牲一點分類精度的情況下可以按一定規則捨棄一些支持向量來增加分類速度,這對時間有要求的實時系統是很有必要的。

通常,不需顯式地知道Ψ和H,只需選擇合適的核函數K就可以確定支持向量機。Mercer定理給出了核的數K滿足上式的充要條件:

選擇不同形式的核函數K就可以生成不同的支持向量機,常用的有以下幾種:

(1)多項式SVM(d=1時候爲線性核):K(x,y=[(x·Y)+1]d。

(2)徑向基函數SVM: K(x,y)=e-‖x-y‖²/2σ²。

(3)Sigmoid函數SVM: K(x,y)=tanh(k(x·y)+δ)。

概括地說,支持向量機就是首先通過用內積函數定義的非線性變換將輸入空間變換到一個高維空間,然後求(廣義)最優分類面。SVM分類函數形式上類似於一個神經網絡,輸出的是若干中間層節點的線性組合,而每個中間層節點對應於輸入樣本與一個支持向量的內積,如圖13-1所示。

圖13-1 支持向最機結構

其中輸入層用於存儲輸入數據,並不做任何加工運算:中間層是通過對樣本集的學習,選擇K(X, Xi,),i=1,2,3,…,L;最後一層就是構造分類函數:

整個過程等價於在特徵空間中構造一個最優超平面。

支持向量機的作用之一就是分類,根據分類的任務,可以劃分爲一分類、二分類及多分類。對於多類分類問題,可以用若干種手法將其分解爲若干個二分類問題疊加。

推薦閱讀

相關文章

不必太看重年底機構預測

漲跌密碼11:不必太看重年底機構預測揭祕漲跌通常證券機構在年底都會推出一些預測報告、投資策略報告等,供投資者參考。

價升量縮的經典運用(拓維信息)

在衆多漲停基因中,“價升量縮”是唯一一個可以用單個基因來做預報的。對“上海物貿”這隻股票,我們用“價升復縮”這一個漲停基因來預報,這5次預報5次全部成功。此前我們於2013年6月7日、6月26日、8月20日對“中青寶”的多次盤前預引也都是採用了“價升量縮”這個基因。成功率也很高。

炒股被套後該如何解套?

股民被套牢分兩種情況,一種是短期操作不利導致被套,這種被套很好解決,但是現在大多被套的股民都屬於第二種,股市大規模的崩潰下跌,因爲系統性風險導致被套。在這種情況下,解套難度上升,其中一些誤區,更要儘量避免。 被套不怕,寧死不賣,不賣就不賠。這種想法很可怕,因爲沒有人可以預測到自己的股票究竟會跌到什麼地步。

隨機指標背馳準確性高

綜合了動量觀念,強弱指標與移動平均線的優點——隨機指數是敏感的指標工具。它在圖表上是由%K是%D兩條線所形成的,因此也稱KD線。行情是一個明顯的漲勢,會帶動K線(快速平均值)和D線(慢速平均值)向上升。漲勢開始遲緩,則會慢慢反映到K值和D值,使K線跌破D線,此時中短期跌勢確立。

一年之中的不同月份案例說了什麼道理?有什麼影響?

表29是阿瑟.梅里爾的另-項研究成果一從1897年至1974年按月統計的市場季節性趨勢。我們將該數據更新到了1988 年。表29反映了1992年以來,某一月道瓊斯指數上漲的概率。如表29中所示,指數表現最好的分別是年底和夏天。

合理止損才能做到“賺多賠少”

股神巴菲特說過:“風險來自於你不知道自己在幹什麼。”股市具有一定的規律性,也有春(股價萌發期)、夏(股價生長期)、秋(股價收割期)、冬(股價建倉期)四季,如果不分酷暑嚴寒,牛熊強弱,違反“股市季節”操作規律,必然上演“四季割”。

漲停開盤後被打開而後再度漲停的案例解析

漲停開盤後被打開而後再度漲停漲停開盤往往意味着投資者對該股票的一致看好,是多頭力量強勢的表現。但盤中有少數獲利投資者選擇賣出,導致漲停被打開,但不影響其他看多投資者的信心。實戰案例宜華健康(000150)——漲停開盤後打開再度漲停如圖2-13所示爲宜華健康2014年12月5日的分時圖。

如何在量化投資中使投資構想數量化?

理想情況下,我們在實施自己的投資構想前,都想知道它們能不能行得通,但是這不可能。我們所能做的只是測試那些我們能檢測的構想,只有當有證據顯示它們基本能夠工作時,我們才能使用它們。但是,在檢測構想之前,它們必須能夠被檢測。也就是說,它們必須被數量化。

“靠而不交,方嚮延伸”指什麼?它對股市發展演化有什麼影響?

當股價處於明顯的上攻階段(或下跌階段)中運行時,總是不斷會齣現股價拉一段迴收一下(或打一段迴收一下)的技術動作。這就像呼吸一樣,一呼一吸,一攻一緩,是股價運行正常的錶現。

江南紅箭K綫圖(2009.10-2010.3)的趨勢是什麼樣的?

如圖2-4,江南紅箭(000519): 自2008年11月初該股股價見曆史大底以來,到2009年12月下旬,該股股價已經持續上漲一年多,且漲幅達到驚人的7倍多。2009年12月下旬該股股價已到達曆史高位,進入高位橫盤築頂階段。

相關詞條

樓上市場

什麼是樓上市場?樓上市場一詞是指存在於大公司和機構投資者之間的網絡。該網絡涉及大宗交易或大宗訂單。這些交易中的交易不是通過證券交易所提交的,這意味着其他市場參與者看不到它們。這些訂單直接在買賣雙方之間進行,專業經紀人充當中介。樓上市場下單的規模佔市場成交量的很大一部分。概要樓上市場是一個涉及大公司和機構投資者的網絡。

週期性股票定義

什麼是週期性股票?週期性股票是價格受宏觀經濟或整體經濟系統性變化影響的股票。週期性股票以跟隨經濟週期通過擴張、高峯、衰退和復甦而聞名。大多數週期性股票涉及出售非必需消費品的公司,消費者在經濟繁榮時期購買更多,但在經濟衰退期間花費更少。關鍵點週期性股票受宏觀經濟變化的影響,其回報跟隨經濟週期。

毒藥

什麼是毒藥?毒化看跌期權是一種收購防禦策略,目標公司發行債券,投資者可以在到期日之前贖回。毒放是一種毒丸條款,旨在增加公司收購目標公司的成本。摘要毒放是一種收購防禦策略,旨在使收購公司在敵意收購要約期間獲得對目標公司的控制權的成本更高。毒賣策略要求目標公司的高管發行具有毒賣契約的債券。

期權池

什麼是期權池?期權池由爲私人公司員工保留的股票組成。期權池是爲初創公司吸引優秀員工的一種方式——如果員工幫助公司做得足夠好上市,他們將獲得股票補償。較早進入初創公司的員工通常會比遲到的員工獲得更大比例的期權池。由於投資者的所有權需求,期權池的初始規模可能會隨着隨後的幾輪融資而減少。

成長股定義

什麼是成長股?成長股是指公司的任何股票,預計其增長率將大大高於市場平均增長率。這些股票一般不派息。這是因為成長型股票的發行人通常是希望將其積累的任何收益再投資以在短期內加速增長的公司。當投資者投資於成長型股票時,他們預計他們將在未來最終出售股票時通過資本收益來賺錢。

廣泛加權平均

什麼是廣義加權平均?基礎廣泛的加權平均數是一種反稀釋條款,用於在公司進行額外發行時為現有優先股股東的利益。基礎廣泛的加權平均數涵蓋了之前已發行和目前正在發行的所有股權。在二次發行時,公司將使用廣泛加權平均計算將優先股的價值調整為新的加權平均價格。