Stupid Data Miner Tricks讀後感----不斷尋求相關性的危害

不知道讀者朋友是否曾經在財經書籍中看到過一則美國標普500指數與孟加拉奶油產量呈現高度相關的報導?這篇Stupid Data Miner Tricks 就是這則小故事的起點。作者David Leinweber用這篇文章,解釋如何在財經資訊中進行資料採礦(Data mining)與其危害。

投資相關的Data mining動作有個共通的特點,那就是搜尋大量的資料,以解釋一小段市場波動。

作者以1983到1993這11年間的美國標普500指數的變化為例。這段市場波動要如何解釋呢?一般作法會將這段市場變化與同期的經濟成長,失業率,通膨率,聯邦基準利率等等”財經”資料進行比對,然後看看何者最能解釋標普500的變化。

但作者不這麼做,因為這正是讓Data mining看起來似乎很有意義的作法。他要換個”嘲諷”的方式。

他選用聯合國發行的一片光碟片,裡面有140個會員國大量的各式資料。他將這些資料與標普500指數進行迴歸分析。然後,他找到了。孟加拉的奶油產量與美國股市指數呈現高度相關,R2高達0.75。

0.75太遜了,想要更高的相關性?沒有問題,作者再加進了兩個因子。他用美國與孟加拉的奶油總產量,美國的起司產量與美國和孟加拉的羊隻總數,這三個數字與標普500做迴歸,發現R2高達0.99。如下圖:


Great! 但會不會有人用這些奶油、起司與羊隻的數據來猜測下一年度的股市指數。沒有人。但是將奶油換成任何一個可以與經濟財金沾上邊的數字,就有人會相信了。而這兩者,很可能在本質上完全相同。都是人們為了找尋相關性,在搜尋大量資料後,會得到的必然結果。

作者在文章中還用了一個Polynominial Fit的技巧,寫出一個數學算式可以漂亮的算出這幾年的標普500股價指數。但是一將它延伸到資料期間之外,那是一蹋糊塗的結果。

太多的資料,太多的指標,對於預知未來股價的太多渴求,讓人們成為資料礦工(Data miner)。在揮灑汗水,努力鋤打後,投資人以為自己找到了黃金。而其實那是塊愚人金。愚弄自己,有時還會讓人覺得非常有趣。

作者在文章最後提出對於Data mining的提防方法。我覺得最後一句說得最好”If it seems too good to be true, it is.”假如好到令人難以置信,那就是假的。

日後假如你看到又有某種投資”方法”,說當什麼指標出現,就可以出場,什麼燈號出現,就可以進場。過去照這樣投資,牛市通通參與,熊市都躲過。投資變成一條只會賺錢的道路。你就知道什麼是too good to be true了。


點一下,推一下:

回到首頁:請按這裡

初來乍到:請看”如何使用本部落格

相關文章:
從一則健康新聞談起(Correlation does NOT mean causation)

不笨的方法(In-Sample and Out-of-Sample Test)

A Mathematician Plays the Stock Market讀後感---預測正確但理由錯誤

13 comments:

ffaarr 提到...

看完這篇想到一個有點相關的,有些人很努力在投資時,找一些和投資標的物相關的東西,其結果也許真的有關(例如油價和能源類股票的關係)但有趣的是,常常就算知道有關也沒用,就如同無法預測能源股票的價格一樣,就算知道跟油價有關,也一樣無法預測油價。也就是說,就算知道ABCD都跟自己投資的E有關,但因為也無法預測ABCD,其結果只是把問題變得複雜,卻還是沒辦法對投資有什麼幫助。

SWISS 提到...

綠角兄:
很有趣的觀點,這讓我們意識到統計學上,相關性檢定的盲點.
還有件有趣的事,常在報端雜誌上看到基金公司的廣告,伴隨著某段時間的輝煌報酬率,投資者難免會想,為什麼我沒在這段時間買到這支基金,不必氣餒,基金公司在資料上沒騙人,只是基金公司挑出最有利的基金推廣的某段時間做廣告(當然是該基金有超高報酬的期間).數字無法做假,但可以過慮.

Daniel 提到...

I must say that I much enjoy reading articles on this blog. Regarding the data mining bias, it is actually a common thing in financial research. The danger, as the author points out, is that the documented relationship may be misleading. However, investors are often fascinated about the findings and use them as “rules” in their analyses. Sadly, individual investors don’t really receive professional advices from their investment advisor…..

綠角 提到...

謝謝ffaarr的回應
這是很好的論點
真有相關性的變數
也不一定能準確預測

謝謝SWISS的分享
沒錯
基金的報酬率是可以挑時段看的

Daniel
謝謝你的支持
的確
有時對data mining一點概念都沒有的人
還會當大師快樂的"分享"他的交易規則呢!

阿宏 提到...

有『相關性』不一定有『因果關係』,醫學上太多論文都是在相關性上面做文章,一千篇中間或許有一篇是可以發展研究出因果關係,不過如果是我自己的財產,我不想要冒這個險

Sky 提到...

前幾天看到一本關於論文寫作的書中提到,平均來說:每做20次的分析(20個變數),就有可能因為機率的關係而得到一個p<0.05的significant difference,看起來跟這篇的報導似乎有異曲同工之妙

綠角 提到...

謝謝阿宏與Sky的分享
Sky說的這點
英文本文中也有提到

隨風飄意 提到...

突然想到 Fama 提出的三因子模型 (CAPM 進化版) 也是 Data Mining 得到的,當初提出三因子模型的原因就是發現在某個時間序列中 Beta 值並不能完全解釋股市報酬,說不定 CAPM 提出 Beta 值跟股市報酬的關係也只是虛構的...

至瑋 提到...

綠角先生:
您這篇文章很有意思,最近在Vanguard的網站上發現了一個工具可以讓投資人自己回測各種不同的資產配置在不同的時代會有什麼樣的報酬與風險。這個網站取名叫做The truth about risk https://personal.vanguard.com/us/insights/investingtruths/investing-truth-about-risk
或許這樣的data mining才是一般投資人才需要了解的

綠角 提到...

Beta到底是死是活
就可以寫好幾篇文章討論了
我們先占且不論

但看來有人不太知道
很久以前
Fama and French做了兩件事情
敉平所有說他們是data miner的指控


謝謝至瑋的分享
好像蠻有意思的
有空我也來試試

匿名 提到...

不好意思,好奇Fama and French做了哪兩件事情
敉平data miner的指控? 謝謝

綠角 提到...

延長時間
與增加國家

匿名 提到...

不好意思請教一個問題:
今天剛好讀了blog的out-of-sample test.所以,Fama and French做了兩件事情(延長時間/增加國家)就是所謂的out-of-sample test? 謝謝