2022年10月19日 星期三

Naked Statistics讀後感1---比想像中更好懂、更有趣的統計

Naked Statistics,的作者是Charles Wheelan。這是一本介紹重要統計觀念與方法的書。

一般人看到”統計”兩字,就會開始覺得頭腦發脹,覺得是很艱深又難理解的學門啊。

但Naked Statistics這本書可以破除讀者對於統計的害怕,甚至覺得很又趣。

它有兩個地方做得非常好。首先是生活化的例子,讓讀者看到統計很實際,我們日常生活就很常在用。第二個,解釋很明白。即使到書後半,關於信賴區間跟迴歸分析,這些稍具技術性的概念,都說的讓人很容易理解。

到底什麼是統計?

統計是一種整理資訊的方法。

讓人從資訊中找到意義,可以分析現象或做為未來的行動依據。

統計有以下幾個主要用途。

首先是描述。

譬如棒球迷說某位打者打擊率多少,或者你十二月要出國旅行,你查目的地該月的平均氣溫。這就是描述性的統計數字。

但光是看似簡單的描述用統計數字,裡面就有值得深究之處。

譬如你要回答一個問題。請問美國中產階級的收入,近年是否有增長呢?

一個很直覺的想法,就是把全美收入/全美工作人口,你馬上就可算出平均每人收入。就看平均每人收入的增減就知道了。

問題在於,美國人的平均收入,不是一般美國人的收入。
(原文是The average income in America is not equal to the income of the average American.)

平均值這個數字會很容易受到極端值的影響。假如收入增長都是落在高收入族群。你會看到平均收入增長,但其實中產階級收入根本沒變。

書中有類似這樣的例子。

譬如,在新竹的一家酒吧,晚上有十個工程師在裡面聚會。這時這十個顧客的平均年收入是200萬。

這時候,台積電總裁魏哲家先生走進酒吧坐了下來。這時這十一個人的年收入平均,瞬間拉高到3800萬。(以魏先生年收4億計算)

平均值是一個容易受到極端值影響的數字。

這個問題,你要看中位數。

一個國家一般人的收入狀況,比較好用的衡量標準應是工資收入的中位數(the median of wages)。

但是中位數的問題,也在於不受極端值影響。

作者舉了一個例子。你得到一個致命疾病。醫師告訴你,”有新藥可用。需自費,而且很貴,具多種負作用。可延長存活期間的中位數是兩週。”

多活兩週,你會想用嗎?

不一定。

假如這個藥有50%的患者沒有什麼反應。但其它有反應的50%患者中,有相當一部分可以再活很久。這其實是值得一試的。

作者舉了一個實際例子。生物學家Stephen Jay Gould得到癌症。該疾病存活期間中位數是八個月。這位生物學家後來發表了一篇文章,說明自己的統計知識讓自己知道自己未必只能存活八個月。

他在二十年後因為另一個疾病過世。因為他當初得到的癌症,患者的存活期間分布是Right-skewed,右傾的。中位數無法反應出這個右傾的特性。

平均數跟中位數,都是很容易得到的描述性統計數字。重點在於,你有要判斷力,知道在什麼狀況,那一個是比較好的衡量標準。

再來,統計可以讓人做出推理。

譬如你如何事先知道下一次總統大選的結果。

最常做的方式就是民調。如何用一小群人,一個看起來太小群的人,就正確的指出全國選民可能的動向。這是有很多細節可以講究的事情,書中有詳細的討論。

第三,統計可以做風險管理。

這在賭場、金融界與投資界都有實際的應用。譬如保險業者,如何設計出一張保單,就有賴對於該風險事件發生機會的統計數字。

但錯誤的應用,譬如2008年前盛行的VaR(Value at risk),讓太多金融機構對接下來的風險毫無防備。

第四,統計可以用來調查。

譬如用基因分析做血緣鑑定。這兩個人單純因位運氣,基因有這樣相似度的機率是多少。

還有一個有趣的應用,抓作弊。在某次考試,假如某些題目大量學生給出相同的錯誤答案,這是非常可疑的。可以考慮他們之間互相抄襲與交換答案的可能。
(許多學生在特定題目給出相同的正確答案則比較沒有參考價值。因為學生考試時,他們本來的目標就是要給出正確答案)。

第五,統計可以幫忙找出自然界隱藏的因果關係。

譬如某個不健康的行為是否會導致特定疾病的得病率提高。或是某種新藥是否有效。這全都要靠統計。

也就是說,我們的現代生活,很多基礎都是建構在透過統計,對自然與社會現象的理解上。

書接下來,就一一揭開統計在各方面的應用與限制,也揭發統計數字可以被拿來誤導觀感的地方。

後記:此書中譯版"聰明學統計的13又1/2堂課",在2013發行。目前已經絕版。





回到首頁:請按這裡

初來乍到:請看”如何使用本部落格

相關文章:
Naked Statistics讀後感2---你該懂的統計幻術

Naked Statistics讀後感3---什麼時候該對特定疾病進行廣泛篩檢

Naked Statistics讀後感4---賭博、保險與投資的共通原則

Naked Statistics讀後感5---機率錯誤應用帶來的悲慘後果

Once Upon a Number讀後感2---少數必被霸凌

不笨的方法(In-Sample and Out-of-Sample Test)

A Mathematician Plays the Stock Market讀後感---預測正確但理由錯誤

The Fortune Sellers讀後感1---預測的緣由

沒有留言:

張貼留言

注意:只有此網誌的成員可以留言。