不笨的方法(In-Sample and Out-of-Sample Test)

(本部落格文章,未經作者同意,禁止轉載)

常有許多投資人致力研究過去股價漲跌與某些”訊號”間的關係。譬如他發現,當某某條件成立,股價就會如何改變,而且屢試不爽時,他就會興奮的像發現新金礦,在這個基礎上建立”交易規則”,然後開始著手淘金。

很有趣的方法,也的確有很多人如此努力從事。

但這方法有幾個很大的問題。

首先,假如某人看到一份過去股市漲跌資料,卻無法從中看出什麼時候要買,什麼時候要賣,才會賺錢的話,那可以說,(我想要一個比較客氣的用詞),他就是一個笨蛋。

假如一個投資人,看到過去資料,可以從中找到搭配某些訊號就可以達到買高賣低的目標時,我們不能說他很聰明,頂多,他是不笨而已。

而這個不笨的投資人,往往從這個起點開始,智商成等比衰退。

首先,他們通常不知道什麼是In-sample和Out-of-sample test。

他們滿口說回測回測。從十年的資料中找到的規則,就在這十年之中進行測試。我怎樣都想不到這樣為什麼不會成功。為什麼要反覆確認自己不笨?

這是什麼回測?

在十年資料中找到的規則,然後就在這十年之中進行驗證,這叫In-sample test,這是證據強度極差的測試方法。

一整組資料中往往可以從中找到兩個相關的變數。為了證明這份相關性不是剛好在這組資料中出現的事件。為了證明,這份相關性,不是因為觀察者亟需”成果”,亟需要相關性讓他建立”交易方法”,而從資料中拼命挖掘的Data mining結果。最好的方法,是將這個相關性,拿到當初導引出這個規則的資料之外,進行測試。

譬如,投資人有十年的資料可以讓他觀察。那麼,他可以從前五年的資料中,找到某種規則,然後在後五年的資料中驗證。這就是一個Out-of-sample test。

任何說自己找到某種交易規則,過去驗證起來,無往不利,然後就彷彿找到投資的倚天神劍,準備一統江湖的人,假如他的驗證方法是In-sample test,那麼很不幸的,他的神鋒其實是木劍,而且他要面對拿槍的現代兄弟。May him rest in peace。

滿口回測,好像知道什麼高深的投資技巧,測驗方法打開一看,居然是In-sample test。這種狀況,惟一需要送回工廠重新測試的,不是什麼投資方法交易規則,是想出這個方法的腦袋。

還有人可以用整套In-sample test,寫出一整本書,書名通常是交易聖經、必勝寶典,之類的用詞。自己不懂就算了,還害到其他不懂的投資人。

一看到這種交易規則,投資人第一個直覺動作應該是,馬上看有沒有做過Out-of-sample test。沒有,螢幕關上、書闔起來,Byebye、再見。提出方法的人,應是不笨。但在投資路上,要勝過別人,光靠不笨,恐怕不夠。

再來,這些致力於尋找交易規則的人,往往忽略這些”訊號”,是否能合理解釋價格波動。

不是因為投資人想事先知道價格波動,所以所有剛好同期的經濟或市場變數,就都可以拿來解釋價格波動。

沒研究不知道。或許每年二月太陽黑子的數目與美股漲跌有關。或許前一年登陸台灣的颱風數目,與今年的台股有關。

這有道理嗎?假如有些自然變數,被發現與人為市場的起伏有關,這可以拿來當交易規則嗎?(也不完全不行,占星也可做為股市指引。)

相同的道理應用的市場方面,卻很多人以為,只要是經濟和市場相關變數,只要它能解釋價格變化,那就是合理,可用的。

是嗎?

任何經濟或股市變數,假如沒有一個說得通的道理,可以合理解釋為什麼它可以是股價變化的徵兆,那麼這個變數,不足以做為交易規則的基礎。這種”無釐頭”訊號,太常又是Data mining的成果。

許多致力於交易規則的人,不知道In-sample和Out-of-sample test的分別,忽略變數需有合理的解釋。將自己看出過去規則這個不笨的舉動,看作是投資致富的聰明法則。以為自己要出發淘金,其實等著他的,只有愚人金。




回到首頁:請按這裡

初來乍到:請看”如何使用本部落格

相關文章:
Stupid Data Miner Tricks讀後感----不斷尋求相關性的危害

“過去績效不代表未來”的反智運用(Irrational Attitudes toward Financial History)

適時進出的行與不行

沒有未來的過去

誰在看後照鏡?

不,你辦不到(You Can’t Make It)

16 comments:

Jackie Yeh 提到...

Hi 你好,

請教一下:
『譬如,投資人有十年的資料可以讓他觀察。那麼,他可以從前五年的資料中,找到某種規則,然後在後五年的資料中驗證。這就是一個Out-of-sample test。』

這個作法表面上是提供了一個 out-of-sample test,但是它也把可以用來做in-sample test 的樣本數減少了一半。也就是說,這個『規則』的周全性可能只有原來的一半。

這,真的是一個好的作法嗎?

匿名 提到...

我一般是想像一種規則(非由過去資料得出規則) 再把各種不同的標地物以此規則套用到過去20年(or max data) 做回測. 那是 in sample or out-sample 呢^^

David358 提到...

要做out-sample test,其理由在統計上叫做cross-validation,即「複核效化」或「交叉驗證」。這是統計的重要概念之一。這個統計概念雖然我進修時曾鑽研過,但真正應用到財務理解上,則是得益於綠角了。

統計模型往往意涵某種理論,可以說模型就是理論,建構模型就是試圖在建構因果關係。因此所有的統計模型都必須提出合理的解釋,而不能只是說因為data mining的結果如此,二者就必定有因果關係。

data mining很容易得到一些模式,實際上並無理論意蘊,這些模式只是統計上的巧合而已。

通常必須先建構起理論,再從資料中去驗證。如果沒有理論指導,只憑靠特定資料去產生模式或修改模式,最後的結果通常是可疑的。這不是理想的作法,但顯然財務方面的實務界常這樣作,引誘投資人上鉤。

綠角 提到...

Jackie
in-sample的東西一呈現出來
有點認識的人
就會直接在上面打個大問號
不管是用十年還是一百年資料

謝謝David精采的分享

Gary 提到...

哇靠,綠角大
有學問唷

很簡單的就提出樣本回測與隨機抽樣的問題

話說我之前看過一個很有去的計量笑話,是這麼說得:

美國的一位計量經濟學家發現紐約的送子鳥與紐約嬰兒出生率呈現高度的正相關,因此政府為了降低戰後人口膨脹的問題,於是專門派人獵殺送子鳥,以期降低出生率。

綠角 提到...

謝謝Gary的分享

不過這不算有學問
恐怕還是只能算是基本知識

至於您的另一個留言
已如你的意思刪除

很抱歉
可能是超過我的程度
我看不懂你的算式

但假如有人說在金融市場有一定賺的方法
那通常不會是對的

Gary 提到...

可能是我能力較差不法表達正確,首先先說我的算式是出自一位貝拉實驗室的John L. Kelly在1956年所發表的論文,他在研究如何在不可預測的雜訊干擾下,產生最大的傳輸速率,而電子訊號傳輸受雜訊干擾的機率,就像賭博中的不確定性一樣,連續的電子訊號傳輸就像不斷的連續的牌局一樣,成功的傳輸訊號就像賭博贏了,傳輸訊號因雜訊干擾而失敗就像賭博輸了,如何產生最大的傳輸速率,就像在賭場中連續賭錢希望贏得最多錢的心理一樣。「 因此凱利方程式可以幫助工程師決定每次電子訊號的長度,以便獲得最大的傳輸速率;也可以幫助賭徒決定每次下注的賭注大,以便贏得最多的金錢離開賭場。

(因此投機者使用凱利方程式計算每次投機能動用的資金能使你報酬最大化,但不表示能使你打敗大盤)

因此我才會想請問你,若以避險方法操作,假設曝險10萬,那麼猜錯方向,不管投機的標的跌幾%,即使我買在最高點,也只虧損10萬,而猜對則獲利10萬。而我只要透過猜錯我虧損5萬就停損,猜對獲利10萬就停利。

「假設這世界上沒有人能準確猜測,猜對猜錯機率都只有50%」,根據凱利方程式我要讓我報酬最大化,就是每次都只使用資金的25%去猜測就可以讓你免去破產且可以使你報酬最大化。
(但不保證打敗大盤)

我能想到的缺點是:

1.期貨與現貨不可能漲跌一致
2.無法大敗大盤績效
3.股價漲跌是隨機的因此無法預測每次都能賺到多少,導致賠率可能不固定,比如每次都可以賠到5萬,但每次不一定能賺到10萬,導致賠率不固定

(第三點透過避險曝險方法或許可以達到,或者是這一次交易中獲利8萬則下次停損金就是4萬,單看每次獲利金額去推估停損金額,以此類推)


這是凱利值的公式:

The Kelly's formula is Kelly % =

W - (1-W)/R

where:

* Kelly% = percentage of capital to be put into a single trade

* W = Historical winning ercentage of a trading system

* R = Historical Average Win/Loss ratio


===================

其實我認同價值投資與指數投資,但是對於其他方法也是一樣會有興趣,但不表示會去投入,只是我對於這方法認同股價隨機漫步與猜對機率只有50%,但還是可以獲利的方法有點懷疑,但又找不出破綻,故才期望您能給點反面想法來否定這意見,找出其邏輯問題的所在。

我不想真的花這些錢去做這個避險策略測試,也沒有資料去做回測,更無法去做虛擬投機,只是覺得蠻有趣的提出來跟您討論,也許以您的才智可以瞧出一些端倪^^

http://csyan.blogspot.com/2008/10/4.html

這裡有一個文章是針對凱利方程式的解釋,解釋的比較詳細。
(他其他的文章就比較不值得一看了,只是剛好這個文章有較清晰的解釋)

ffaarr 提到...

gary:

你提出的策略(停損5萬、停利10萬)我覺得跟這個什麼方程式沒有什麼關係。

如果真如你所說的這麼簡單就能提高獲利。那停損1萬停利10萬豈不是賺更多?

這個自己作個實際思考就可以知道不行。在一個漲跌機會一樣的市場裡?你覺得漲10%和跌5%的機率會一樣嗎?你可以自己假設每分鐘漲跌1%的機率各一半,簡單算算看就知道了,最後算出來獲利期望值一定是一樣的。

綠角 提到...

謝謝ffaarr的分享

其實
投資只要common sense就夠了

假如有個投資方法的結論是穩賺不賠
用"常識"判斷一下可能性吧

onycafe 提到...

Gary大您好,期貨交易的話還有期交稅及手續費,所以期貨是負和遊戲,這也可以考慮。

Gary 提到...

嗯嗯,我本來有寫出我想到的第三個缺點:

3.股價漲跌是隨機的因此無法預測每次都能賺到多少,導致賠率可能不固定,比如每次都可以賠到5萬,但每次不一定能賺到10萬,導致賠率不固定

因此ffaarr大的說法是正確的,後來我以這次賺8萬下次停損就設在4萬,想說這樣就彌補這缺點。

但是!!反過來想,如果是這次我賠4萬那我下次就一定要賺8萬,賠4萬和賺8玩的機率是不一定相同的。

所以理論終究只是理論,感謝各位的回答^^

得到不同的反面意見,有茅塞頓開得感覺

至於onycafe所提到的,期貨與現貨或交易都有證交稅與手續費的問題

交易越頻繁賺的根本不夠賠的,感謝您的分享。

也的確用嘗試來看根本不可能有穩賺不賠的。

其實這個想法的雛型是來自於避險基金的操作方法,也因為認為根本不可能有穩賺不賠我才會有疑問,想了解問題出在哪裡。

我知道避險基金倒了很多,但是主要原因不離高槓桿與頻繁操作、還有流動性風險。(僅限於我所知的,也許還有哪些是我不知道的)

避險基金雖然報酬很高但是他的內部成本很高,投資人根本不要去碰比較好

這些是我對避險基金的認知,包括他們的操作方法

當然這是侷限在我有限的知識,因此我才會有疑問,如果避開避險基金的高槓桿、流動性問題、頻繁操作問題,得到的結果會是如何?

我想到的就是依據勝率與賠率來做低資金避險,不過這終究是理論@@

(一定要澄清一點我不是認為避險基金好,只是好奇避險基金為何會倒?就我所知道的會倒的原因是因為我上述所提的幾個原因,那如果同樣的避險操作方法,改成每次只用原有資金的幾成來做避險操作,得到的結果會是如何?我能想到的是去槓桿化後報酬難看!?)

匿名 提到...

雖然沒有穩賺不賠的方法,但妙的是有穩賠不賺的方法。

穩賠不賺得輸家,錢輸給誰了呢?

(1) 政府/券商/基金公司/老師/媒體
(2) 勝算較大的贏家。

誰是勝算較大的贏家呢?
內線交易者,外資法人,基金

誰是勝算較低的輸家呢?
散戶

有沒有勝算超過 50% 的個人投資者?
有(可擊敗大盤)。但你不知道他是誰。

管理上有個說法,現在不是大魚吃小魚的年代,而是快魚吃慢魚的年代。在市場上,反應快的人比較能利用市場不夠效率的縫隙,遇到新聞時行動比他人早,多賺一些或少賠一些。

市場是不是夠效率,只要看看中共飛彈試射,或911,或去年發生的金融風暴,市場是立即反映完畢,還是效應持續發揮一段時間就可看出來。

但是在發生事件的當下,投資人難以知道自己跑第幾名,也不知道市場反映不夠還是反映過頭了。

匿名 提到...

Gary 兄,

你連結的那篇凱利方程式文章,我看了最簡單的一部份。它的重點在於,你必須有內線消息 (或是可以當作是知道得比別人更多/更準確的判斷事件發生的機率,不一定是指不法的內線消息)
在這樣的情形下,這個方程式才有應用的價值。

如果沒有內線消息,或沒有讓你勝過平均值的操作方法,則依第一節最後的結論,投入比例 f = 2q - 1。

而 q 為內線消息的準確率,當準確率只有 50%時,投入比例 f = 0.

版主大等人認為從過去交易資料等技術線型不可能看出足以預測未來收益的情報,所以等於沒有內線消息,或是準確率對與錯的機率各半,所以不必浪費時間去做主動投資。

不過如真的有個好方法,或是好情報,的確可參考這個方程式決定投入金額。但只有在情報百分之百正確情形下才可投入全部金額 (甚至融資融券亦可)。

綠角 提到...

Gary兄
避險基金報酬沒有很高
只是投資大眾以為它很高
避險基金業也需要這個誤解

謝謝匿名先生的分享

匿名 提到...

好難懂

sally 提到...

不好意思

由於研究需求
我搜尋到這篇精采的好文章
謝謝您對in sample的解釋
讓我對這類相關知識有所了解


能否請教一個與in sample相關問題...?

就是"sorting procedure"
究竟是什麼意思?

謝謝您的答覆
感激不盡