如何在量化投資中獲取相關數據?

  |  

下一步是購買或生成測試理論的數據。當然,我們總能買到幾千個時間序列,也可以做實驗、做調查來生成數據。不幸的是,可用的數據看上去從不是我們想測量的量,也不是我們想用它來測量的量。那些數據總是存在污染、噪聲和錯誤,至少沒有大量數據是完全合乎要求的。

數據質最涉及許多數量級。可用的證據顯示,最熟知的價格序列幾乎總是正確的,當它們不正確時,誤差也很微小,例如只有小麥價格的1美分或者2美分。另一方面,對國民生產總值(GDP)的估算總是有錯誤,而誤差值可能有幾千萬甚至幾億美元。

誤差的範圍很多是按百分比計算的,許多價格序列的誤差可能在1%或者2%。另一方面,許多企業的業績報表有約50%的誤差。如果某公司的年度報告宣稱每股收益是2.53美元,這意味着公司經營者根據可用數據、某些會計評審和假設,估計每股收益爲2.53美元。不同的假設和判斷會產生不同水平的每股收益估計值,例如,每股收益從1.25美元至3.75美元不等。

上文給出的例子給人這樣一種不好的印象,即問題更客觀。某一數據序列的誤差大小在很大程度上取決於誤差到底是什麼意思。例如,如果國民生產總值沒有計算地下經濟、家計部門、休閒和經濟總體中許多其他的部門,而同時它們又非常重要的話,那麼報告的GDP可能會低估實際GDP水平約20%至40%。更糟糕的是,報告的GDP低估實際GDP的程度在時間和地點上幾乎是不變的。例如,休閒越來越多地佔據了我們的時間。如果這是真的,沒有其他重要的抵消因素,那麼報告的GDP就會越來越低估實際的GDP。另一方面,如果可以忽略上述的技術細節和許多其他技術細節,且關注GDP每季度的變化,那麼我們可以假設誤差率爲1%,或者1%的一部分。

誤差問題有的嚴重程度,取決於如何使用數據。一些預測一兩年內商業票據的利率變化的人不用擔心GDP中幾十億美元的誤差。相反,許多基於統計技巧的短線追蹤系統可能會因爲每日價格序列中的微小誤差而受到極大影響。

如果我們想要預測通用電氣的價格,而不是《華爾街日報》中記錄的價格,那麼瞭解感興趣的數據所包含的誤差的程度和類型是很有用的。根據定義,只有兩種類型的誤差:系統誤差和隨機誤差。系統誤差包括數據中的偏向。換句話說,應該被取樣的人口並未被取樣。例如,由於許多投資方面的原因,有關個人或者家庭的收人分佈的信息會有用處。但這類數據最明顯的一個來源——稅收記錄的價值卻不確定。這些記錄可能是有偏向性的。至少,只要納稅人說謊會有好處的,記錄就是有偏向性。美國稅務局盡一切所能來保證記錄的準確性。但是隻要是在一個敵對環境下,它能做的事情都會受到嚴格的限制。

隨機誤差是非系統誤差以外的誤差。例如,當輸入數據時,存在按錯鍵的可能性。5.01美元可能被輸入爲5.04美元或者5.02美元。如果誤差的概率無法確定,那麼誤差就是隨機的。如果數據誤差很小而且是隨機的,那麼它們就不重要。更準確的說,我們很容易通過標準統計技巧米控制微小的隨機誤差。

當然,數據包含的系統誤差的類型取決於數據的類型。誤差的類型如此之多,以至於無法在此一一列出。儘管如此,大多數投資者只對定量時間序列感興趣,而它們至少包括四種重要的系統誤差。第一,數據源本身可能因許多原因而有誤差。例如,數據可以完全是謊言,就像一些收入和經理人績效數據。或者就像國民生產力數據那樣,概念被錯定了。生產力是指每工時的產出,只有我們知道如何測量它時,它才能引起我們足夠的興趣。我們可以測量一個鋼鐵廠或者發電廠的生產力,但是我們如何測量嗎家銀行或者一個經紀公司的生產力呢?考慮到每四個美國人中就有三個從事服務業,這明顯是一個重要的技術問題。

第二,即使數據源是正確的,數據也可能會有記錄、抄寫錯誤。例如,電腦可能只能記錄兩位數的價格,而實際價格卻是三位數。如果左邊的數據被刪除,價格166就變成了66。

第三,即使在嚴格意義上數據是正確的,它們也可能不完整。價格序列尤其容易受這一問題影響。更糟糕的是,可能只有相對熟練的使用者才能發現數據不完整。例如,專業用鋼每桶價格不僅包括了每桶鋼的價格,還包括所有的貼現、折扣和回扣,更不用提製造商其他的諸多特殊服務類型。許多價格序列不僅僅是一個數字。

第四,數據在記錄的日期還不可用。例如,不利的收入報告經常推遲發佈。同時,歷史總結常常呈現修正的數據,而系統沒有注意到數據已經被修正了。修正數據是指在報告發布後根據可用信息而修正的數據。許多宏觀經濟預測和索引有時在發佈之後被多次修正。

有兩種方法能找出數據誤差。

第一,根據數據中的信息或者數據序列本身進行檢查。沒有基準線會無限地出人意料,它幾乎總在我們的預計之內。一個序列中的每個基準線都有--定的特性,我們應該根據這些特性來檢測數據。例如,大多數價格序列都用大於0的數字表示。對這些序列而言,任何不是數字的基準線,或者基準線低於0都是錯誤的。數據內部的關係也應檢查。例如,在任意給定日,股票的最高價都應該大於等於它的最低價。當情況與之不符時,其中一個價格一定是錯了,或者兩個價格都錯了。這樣的關係可以具有任意的複雜性。

有許多特性數據不是必須具備,但可能存在。如果一個值並非不可能,只是不大可能,那麼檢查該值就很必要得了。因此,在任何序列中較大和較小的值都值得檢查。我們還能檢查數據之間的關係。例如,幾組數據序列的散佈式繪圖常常揭示一些不尋常的地方,所以也值得檢查。

第二,如果有觀察,我們就能根據原始觀察而檢查數據。如果沒有觀察,總體來講,除了最後一個觀察以外,在時間序列數據中這種情況很顯著,那麼不管它們產生了什麼歷史痕跡,我們都要據此來檢查數據。例如,1985年7月19日通用電氣的收盤價格已經看不見了,紐約證券交易所的價格追蹤記錄本身就有誤差,但是這是我們所能做的最好的。如果誤差是獨立的,觀察多個記錄就和看原.始數據一樣好。另一方面,如果誤差是相關的,例如《華爾街日報》簡單地將證券交易所的記錄抄過來,觀察多個記錄不會增加任何信息。事實上,每複製一次數據,就會增加一層的誤差。因此,不管在哪種程度上,檢查錯誤都應該回到最早的數據源。

不論我們有多仔細地追蹤數據、改正數據,數據中仍然會存在錯誤。剩餘偏差和誤差率是指更正後數據中仍存在的錯誤的比重。除非我們已知剩餘偏差和誤差率,否則試圖從數據中得出結論是危險的。一種估計剩餘偏差的方法是,先從未更正的數據中抽取樣本,將樣本中每個基準線和原始觀察,或者至少和可用的最佳記錄相比較。估計完成後,它就能指示出我們是該捨棄數據、進一步清理數據,還是信任該數據。

偏差信息的一個重要來源是更正過程本身。所有的更正程序將自己的偏差引人數據中。例如,任何用於檢查價格變化離羣值的程序——它們檢查所有較大的價格變化,不管變化是正是負——都保證較小的價格變化比一般的價格變化鋯得更多。這個變化也許重要,也許不重要。它不大可能影響大多數的計量經濟學方法,但是它可能影響許多技術系統。

儘管我們能購買或者生成數據,但好的數據不總是能通過這樣的方式得到,至少不會在合理的代價之內獲得。當發生這樣的情況時,我們就必須放棄或者修正項目。修正項目的方法之一是使用替代數據序列——那些和我們真正感興趣的序列相似的序列。在某種意義上,如果我們能得到這樣的序列的話,幾乎每個數據序列都是我們真正想得到的序列的替代品。例如,我們想得到一個小型投資者市場意見的每日調查,但是我們勉強接受了每週零星的購買、銷售和賣空數據。從這個意義上講,購買或者生成數據包含了想要什麼、能做什麼、花費如何之間的權衡。如果可接受的替代序列足夠便宜,那麼這個項目就具有高性價比。

由於研究者在他/她發現之前對自己能發現什麼所知甚少,成本效益分析在此處幫助不大。儘管如此,我們必須做出重要的選擇。考慮到失敗的代價,除非有強有力的原因另覓方法,否則我們就要麼審慎地購買或開發高質量的數據,要麼就乾脆不購買、不生成數據。

推薦閱讀

相關文章

MACD趨勢盈利秘籍

廣義的技術指標廣義的技術指標是泛指除瞭K綫和成交量之外的所有技術分析理論。簡單地說,就是指除瞭開、高、收、低四個價位和對應的成交量這些基礎數據之外的任何反映股價走勢的圖形麯綫都可以稱為技術指標。

選股技巧:選股時避免教條主義

新股民在選股時有時易犯教條主義錯誤。有些理論指導投資者只買下跌的股票而不是賣上漲的股票,問題是這樣就能迴避風險嗎?要知道股票是可以一跌再跌的。另一方面,在某些股票一漲再漲之時眼看着可以獲得的利潤而不採取行動也是痛心的錯誤。

MACD柱狀綫“抽腳”波段買賣操作運用

MACD柱狀綫在0軸之下時用綠色柱綫錶示,簡稱為“綠柱”。在下跌過程中,柱狀綫會在0軸之下不斷嚮下發散,這是由於快綫DIF帶動慢綫DEA嚮下運行,並且DIF不斷遠離DEA。

5日均綫和10日均綫

均綫大多是主力操盤手臨盤決策的依據,所以散戶朋友對此應該有所洞悉,探明主力操盤軌跡是你首先要弄清楚的事情。今天先講攻擊綫(5日均綫)和操盤綫(10日均綫)。攻擊綫所謂攻擊綫就是我們日常所說的5日均綫。有的朋友覺得很可笑,五日均綫還用講嗎,這個傻瓜都知道。事實上問題就齣在這裏,越簡單的你反而不會花大力氣去學習深究其裏。

隨機指標背馳準確性高

綜合了動量觀念,強弱指標與移動平均線的優點——隨機指數是敏感的指標工具。它在圖表上是由%K是%D兩條線所形成的,因此也稱KD線。行情是一個明顯的漲勢,會帶動K線(快速平均值)和D線(慢速平均值)向上升。漲勢開始遲緩,則會慢慢反映到K值和D值,使K線跌破D線,此時中短期跌勢確立。

觀察是否有其他主力作用的案例解析

主力通過小單掛盤這種方式可以在暗中觀察個股中是否還有其他主力在場內,這種情況多出現在下跌趨勢末期和主力建倉完成時。實戰案例中青旅(600138)——五檔小單如圖4-9所示爲中青旅2015年7月14日的分時圖和盤口信息。

永不套牢之進階停損法操作方法講解

永不套牢之進階停損法進階停損價設法通常一般投資人都有停損概念,只不過有人停損設在7%、10%、15%;也有設在20%之人,10萬元買進一檔股票,跌剩8萬元停損出場?真是不可思議!果真如此,那麼100萬進場,非要跌至剩80萬纔出場嗎?當然不是,以下提供進階停損價設法參考:買賣股票可以不設停利點,但一定要設停損點。

均綫金山榖銀山榖圖形

前段時期,小王見某股從底部上來時齣現瞭一個嚮上跳空缺口(見圖1箭頭A所指處),與此同時,該股5日均綫、10日均綫、30日均綫也形成瞭多頭排列。從技術上說,齣現嚮上跳空缺口和多頭排列都是做多的信號。於是,小王在該股跳空缺口形成的第二天就重倉追瞭進去。但不料該股很快就衝高迴落,結果小王被套住瞭。

短線交易的心態解讀

股市可以讓投資者短期暴富,也可以讓投資者的收益迅速化爲烏有。股市就是將人性中兩個最大的缺點,即貪婪和恐懼極度放大。因此,股市中的多數投資者只顧眼前一時的利益得失,無法冷靜面對長期複利增加的效果。成功的投資是良好的心態、紮實的股票理論知識與合理的操作技巧綜合。

均綫雙頂部形態的賣點

均綫的頂部形態會齣現在均綫上漲一段時間之後的頂部區間。這類形態齣現,標誌著之前推升股價的多方力量逐漸減弱,股價上漲後遭遇到瞭較強的拋盤壓力。未來股價將會結束上漲,開始進入下跌行情。這樣的形態完成時,投資者應該盡快賣齣手中的股票。均綫的雙頂形態是指行情上漲一段時間後遭遇阻力時,均綫的形成連續兩個最高價基本水平的頂部。

相關詞條

錯誤的貿易定義和例子

什麼是錯誤交易?錯誤交易是指股票交易與當前市場價格的偏差如此之大,以至於被認為是錯誤的。錯誤交易是由多種因素引起的,包括計算機故障或人為錯誤。這些交易經常被逆轉或中斷,因為它們不能反映證券的真實價格,並且它們會影響或導致其他股票或交易所的錯誤交易。關鍵點錯誤交易是指與當前市場價格相差很大以至於被視為錯誤的交易。

零加刻度

什麼是零加刻度?零加價或零上漲是一種證券交易,以與前一交易相同的價格執行,但價格高於不同價格的最後一筆交易。例如,如果連續的交易發生在 10 美元、10.01 美元和 10.01 美元,則後面的交易將被視為零加價或零上漲交易,因為它與前一交易的價格相同,但價格高於以不同價格進行的最後一筆交易。

經驗豐富的問題

什麼是經驗豐富的問題? 經驗豐富的發行是來自已建立證券的公司的額外證券發行,該公司的證券已經在 二級市場交易。經驗豐富的發行也稱為經驗豐富的股票發行或 後續公開募股 (FPO)。藍籌股公司發行的新股被認為是經驗豐富的股票。在二級市場交易的未償債券也被稱為經驗豐富的債券。

成長股定義

什麼是成長股?成長股是指公司的任何股票,預計其增長率將大大高於市場平均增長率。這些股票一般不派息。這是因為成長型股票的發行人通常是希望將其積累的任何收益再投資以在短期內加速增長的公司。當投資者投資於成長型股票時,他們預計他們將在未來最終出售股票時通過資本收益來賺錢。

股息定義

什麼是股息?股息是將公司的部分收益分配給公司董事會確定的一類股東。支付股息公司的普通股股東通常有資格,只要他們在除息日之前擁有股票。股息可以現金或額外股票的形式支付。要點股息是公司利潤分配給符合條件的股東。股息支付和金額由公司董事會決定。股息是上市公司為獎勵投資者將資金投入企業而支付的款項。

廣泛加權平均

什麼是廣義加權平均?基礎廣泛的加權平均數是一種反稀釋條款,用於在公司進行額外發行時為現有優先股股東的利益。基礎廣泛的加權平均數涵蓋了之前已發行和目前正在發行的所有股權。在二次發行時,公司將使用廣泛加權平均計算將優先股的價值調整為新的加權平均價格。