- +1
陸晨博士:從2022年高考數(shù)學(xué)中的貝葉斯推理題談起

陸晨博士 Dr. Chern Lu
香港大學(xué)SPACE中國商業(yè)學(xué)院 客席副教授
前海產(chǎn)業(yè)智庫首席國際金融學(xué)家
前平安磐海資本首席風(fēng)險官
前華爾街著名投行副總裁 (Merrill Lynch、 Bear Stearns)
美國紐約大學(xué)博士
香港大學(xué)SPACE學(xué)院杰出教師2018/19
序言
在中國,高考是每一年中的一件至關(guān)重要的大事,是成千上萬的寒窗苦讀的學(xué)生們邁向自己所憧憬的人生旅程的第一道關(guān)口險隘。
今年,各地嚴(yán)峻的疫情形勢給 2022 年的高考增添了很多的不確定性,但隨著高考時間的臨近,各地疫情逐漸平復(fù),讓家長們感到了一絲絲的欣慰。天氣也是出奇地給力,大概從我對高考有印象記憶開始,還沒有過這般恰似秋天的涼爽高考天!

高考的第一天下午就是考數(shù)學(xué),隨著考試結(jié)束的鈴聲響起,考生們神情沮喪地走出考場,家長和老師們迫不及待地上前詢問數(shù)學(xué)考試的戰(zhàn)況如何,學(xué)生都不約而同地大吐苦水怨聲載道,吐槽數(shù)學(xué)考題真是太難了!線上的視頻中還有重點(diǎn)中學(xué)的學(xué)生難過得掉下了眼淚,可見今年數(shù)學(xué)考題殺傷力之大,波及四方。
解析人生真諦的貝葉斯推理
托馬斯·貝葉斯(Thomas Bayes,1702-1761),18世紀(jì)英國神學(xué)家、數(shù)學(xué)家、數(shù)理統(tǒng)計學(xué)家和哲學(xué)家,概率論理論創(chuàng)始人,貝葉斯統(tǒng)計的創(chuàng)立者,“歸納地”運(yùn)用數(shù)學(xué)概率,“從特殊推論一般、從樣本推論全體”的第一人。
P(A|B) = P(A)P(B|A) / P(B)
在上面著名的貝葉斯公式中,P(A)和P(B)都是先驗(yàn)概率,而A有可能是誘發(fā)B的一個原因和條件。在觀察到事件B發(fā)生后對于事件A發(fā)生概率的預(yù)測是基于原來事件A發(fā)生的原始概率預(yù)測的一個修正和調(diào)整。而這個調(diào)整比例P(B|A) / P(B) 被稱為似然比。

在今年高考數(shù)學(xué)考卷中赫然發(fā)現(xiàn)一道貝葉斯推理計算題:
一個醫(yī)療隊研究某地的一種地方疾病與當(dāng)?shù)鼐用竦男l(wèi)生習(xí)慣(衛(wèi)生習(xí)慣分為良好和不夠良好兩種)的關(guān)系,在患該疾病的病例中隨機(jī)調(diào)查了100例(稱為病例組),同時在未患有該疾病的人群中隨機(jī)調(diào)查了100人(成為對照組),得到了以下數(shù)據(jù):

從該地的人群中人選一人,A事件表示“選到的人衛(wèi)生習(xí)慣不夠良好”,B 事件表示“選到的人患有該疾病”。A事件表示 “選到的人衛(wèi)生習(xí)慣良好” ,B事件表示 “選到的人未患有該疾病” 。P(B|A)/P(B|A)與P(B|A)/ P(B|A)的比值是衛(wèi)生習(xí)慣不夠良好對于患該疾病風(fēng)險程度的一項度量指標(biāo),記為R。
R = P(A|B)/ P(A|B) * P(A|B)/ P(A|B)



從上面題目所給的數(shù)據(jù)可以計算出來:
P(A|B)=40/100=0.4;
P(A|B)=10/100=0.1;
p(A|B)=60/100=0.6;
P(A|B)=90/100= 0.9;
R=0.4/0.6*0.9/0.1=6
這道題目很好地揭示了生活中一個非常重要的事實(shí):兩個觀察到的現(xiàn)象,人們最為關(guān)心的就是因果關(guān)系,誰是誰的因,誰是誰的果。但是,統(tǒng)計學(xué)只能回答相關(guān)性而不能回答因果關(guān)系。在上面這道高考數(shù)學(xué)題目中,醫(yī)學(xué)工作者最感興趣的就是是否不良的生活習(xí)慣導(dǎo)致當(dāng)?shù)厝巳旧线@種疾病,第一層思維方式用概率語言來表示就是P(B|A)= P(A|B) * P(B)/P(A)。這就要求人們對于兩個先驗(yàn)概率P(B)和P(A)有很好的估計,這兩個先驗(yàn)概率的度量都需要大量的樣本調(diào)查,不僅工作量很繁重,同時統(tǒng)計誤差也會非常大。那么就直接導(dǎo)致這樣測算的結(jié)果 P(B|A)失真嚴(yán)重,所得到的結(jié)論也不能被完全相信。
基于以上的原因,直接回答P(B|A)不是一個好的方法。那么退而求其次,第二層的解決方案就在于通過對比具有良好習(xí)慣和不具有良好習(xí)慣的人群對于這種疾病患病率的影響。注意盡管在第一種方法中,計算的概率P(B|A)本身是一個條件概率,但是,從回答本問題的角度,這個概率是直接的方式。而第二種方法就是以比例 R 的形式出現(xiàn),R 所度量的就是不良習(xí)慣對于患病和非患病人數(shù)的比例,再被良好習(xí)慣對于患病和非患病人數(shù)比例來正規(guī)化 Normalize,R是一個被兩次正規(guī)化的度量,這里最大的優(yōu)點(diǎn)就是把誤差和噪音清除,我們不用再關(guān)心先驗(yàn)概率P(B)和P(A)的嚴(yán)謹(jǐn)準(zhǔn)確性。
談到比例法的清除噪音揭示本質(zhì)的特點(diǎn),我給大家提供另外一個我在北大深圳研究院授課時引用的一個有趣例子來詮釋:
假若有兩輛汽車,都有安全氣囊,一個防死亡率有效性是90%,另一個的有效性是70%,請問這兩輛車的安全性是“差不多”嗎?
在課堂上,大部分學(xué)生第一次看到這個問題,不明就里,覺得兩種安全氣囊的安全防護(hù)差不多,一個是90%,一個是70%,伯仲之間。但是,為了看清這個問題的真相,每個人最關(guān)心的是氣囊沒有防住風(fēng)險,導(dǎo)致死亡的比例。從這個角度上講:第一種氣囊的死亡率是10%,第二種氣囊的死亡率是30%,第二種氣囊的死亡率是第一種氣囊的30%/10%=3倍。孰好孰壞,一目了然。
回到前面討論的主題,大家可以發(fā)現(xiàn)貝葉斯推理的本質(zhì)就是利用一種可以在生活實(shí)踐中能清楚觀測到的事實(shí)和數(shù)據(jù)來合理地推算某些在實(shí)際中很難或者根本不可能觀察到的事實(shí),這里面有很多是人們所向往的因果猜測!
在上面高考數(shù)學(xué)題中,P(A|B)是可以直接觀測到的統(tǒng)計數(shù)據(jù),而相反,P(B|A)是無法直接觀察到的。因果關(guān)系的度量指標(biāo)R最終是通過貝葉斯公式的神奇轉(zhuǎn)換,里面的參數(shù)都被可以直接觀察到的統(tǒng)計數(shù)據(jù)所替代,這就是數(shù)學(xué)之美數(shù)學(xué)的偉大。它能幫助人類順利完成了因果關(guān)系推導(dǎo)的不可能之任務(wù)。
金毛跑到哪去了?
我去年在疫情隔離期間無意中看到了一位同樣以概率思維為主線的教育工作者老喻的文章,開始關(guān)注他的動向。在最近的一篇文章中,老喻提出了一個非常耐人尋味的有趣問題,也是他在加拿大家里的真實(shí)經(jīng)歷。我就用這個生動的例子來進(jìn)一步說明偉大的貝葉斯推理在日常生活中如何提升人的深層認(rèn)知能力,指導(dǎo)人們做出正確(有時候是艱難)的抉擇。
假設(shè)一戶人家,男主人外出,突然接到家里的電話說是家里的愛犬金毛找不到了,男主人在安慰了家中的妻子和孩子之后,冷靜地根據(jù)歷史大數(shù)據(jù)做了如下的基本假設(shè):金毛有
90%的概率在后院
7%的概率跑出后院到了森林
3%的概率被人偷走
男主人告訴家人在家里和后院仔細(xì)尋找,家人在后院找了一圈,沒有找到金毛,又再次焦急地打電話告訴男主人,問下一步如何尋找?假設(shè)在后院找過金毛但沒找到的概率是 10%,假設(shè)事件 A代表金毛還在后院,事件 B 代表在后院找了金毛,但沒有找到。
那么,P(A)= 90%;P(A) = 10%。
利用貝葉斯推理的語言,這些都是通過歷史大數(shù)據(jù)總結(jié)的先驗(yàn)概率。
根據(jù)已知條件,金毛還在后院,但沒有找到的概率很小,只有10%,用概率來表示就是P(B|A)=10%, 現(xiàn)在真正挑戰(zhàn)的是要計算出逆概率P(A|B)的大小,而P(A|B)所代表正是,已經(jīng)在后院找過了沒有找到金毛,問在這種條件下,金毛還在后院的概率可能性。


注意,在上面的計算中,P(B|A)=100%,是因?yàn)槭录嗀代表金毛不在后院,那么肯定是找不到它的!
基于上面的計算,大家可以看到,即使第一次在后院尋找金毛,沒有找到,它還在后院的概率竟然還有近乎一半的概率可能性,遠(yuǎn)遠(yuǎn)大于另外兩種選擇7%和3%的概率!
根據(jù)老喻的親述,他就是經(jīng)過上面的考量,再次打電話通知家人再到后院仔細(xì)找一次。家人們非常仔細(xì)把整個后院進(jìn)行了地毯式搜索,四處大聲呼喚金毛的名字,突然聽到了悉悉索索的聲音,在后院Deck地毯下的一個隱藏的洞里發(fā)現(xiàn)了渾身是土驚慌失措的金毛,大家喜出望外地把它從洞中救了出來,貝葉斯推理救了金毛一命!
這個例子像極了發(fā)生在1968年的美國海軍天蝎號核潛艇在大西洋亞速海海域失蹤事件,潛艇和艇上的99名海軍官兵全部杳無音信……事后調(diào)查殘骸發(fā)現(xiàn),罪魁禍?zhǔn)拙故菨撏ё约喊l(fā)射的魚雷擊中了自己,多么不可思議!

美國海軍在茫茫的大西洋中苦苦搜尋了幾個月,一無所獲,只能求助于美國海軍的首席科學(xué)家John Craven,John不緊不慢地拿出一張標(biāo)注著不同顏色的海洋地圖:

他又在白板上寫出來兩個數(shù)學(xué)公式:

John把核潛艇沉沒的區(qū)域劃分成很多同樣大小的正方形,圖中每個格子所在的海域是考慮到魚雷沖擊波,水流等因素后潛艇殘骸可能散落的區(qū)域,p和q分別代表殘骸散落到某個格子的概率以及在該格子內(nèi)能夠被找出來的概率,不一定核潛艇在某個格子就一定能被找出來,這和海域深度有關(guān)系。
假設(shè)核潛艇在這個格子里的先驗(yàn)概率為p= P(A),潛艇在這個格子里,搜尋后發(fā)現(xiàn)潛艇的概率為q=P(B|A),則類似于上面尋找金毛的問題,搜尋后沒有發(fā)現(xiàn)潛艇,但潛艇還是在該格子里的后驗(yàn)概率,利用貝葉斯公式是:

相反,對于另外的格子里找到核潛艇的概率,在得知在當(dāng)前的格子中沒有發(fā)現(xiàn)潛艇的事實(shí)更新下,有以下的變化和調(diào)整:

也就是說每次搜尋完一個格子后,潛艇殘骸在這個格子里的概率p'就比之前p下降了;而同時,殘骸在其它格子的概率就會上升。所以,完成一次搜尋,全部區(qū)域都會重新洗牌,每次都會生成一個概率最大的格子,搜尋幾次后某個格子的概率就會特別大,美軍每次都駛向那個貝葉斯概率最大的方格,就真的很快找到沉沒的核潛艇。
概率論中古老的貝葉斯推理竟然在 20 世紀(jì)幫助人類完成了一個幾乎是不可能的任務(wù),再建新功。
貝葉斯推理在企業(yè)管理規(guī)劃中的應(yīng)用
貝葉斯推理不僅在日常的工作生活中為我們做出正確的決定提供了一個嚴(yán)謹(jǐn)?shù)乃季S框架,同樣的,它也在企業(yè)管理和規(guī)劃中大顯身手。隨著企業(yè)數(shù)字化的推廣,數(shù)字化技術(shù)不僅改變了下層的業(yè)務(wù)運(yùn)營模式,更重要的是啟迪企業(yè)家運(yùn)用更加科學(xué)的數(shù)字化思維來為企業(yè)未來的發(fā)展做決策,情景分析壓力測試等方法都被引入到了董事會的戰(zhàn)略分析中。
一種經(jīng)典的場景就是企業(yè)面臨一個未來業(yè)務(wù)的決策,在做戰(zhàn)略分析研判的時候,董事會會引入未來不同的經(jīng)濟(jì)場景,計算核查該項業(yè)務(wù)在不同場景下的得失和損益。

三種計劃的預(yù)期值計算出來是:
E(Plan A)=0.6*80+0.4*30=60(最佳)
E(Plan B)=0.6*100+0.4*(-20)=52
E(Plan C)=0.6*50+0.4*20=38
這里的經(jīng)濟(jì)好壞的概率都是先驗(yàn)概率,總結(jié)歷史上的大數(shù)據(jù)得出的結(jié)論。但是,沒有人能未卜先知,知道未來的經(jīng)濟(jì)狀況的好壞,為數(shù)不多的信息來源就是求助于經(jīng)濟(jì)學(xué)家的報告和預(yù)測。假設(shè),利用歷史大數(shù)據(jù)統(tǒng)計得出結(jié)論:在經(jīng)濟(jì)狀況好的的時候,經(jīng)濟(jì)學(xué)家有80%的概率得出正確的預(yù)判,有20%的概率做出錯誤的判斷。在經(jīng)濟(jì)狀況不好的時候,有90%的概率預(yù)判正確,有10%的概率過于樂觀得出錯誤的結(jié)論。把這些條件寫成條件概率,就得到了下表:

假設(shè)經(jīng)濟(jì)學(xué)家發(fā)布了正向的經(jīng)濟(jì)報告,那么
P(好經(jīng)濟(jì)|正向報告)
=P(正向報告|好經(jīng)濟(jì))* P(好經(jīng)濟(jì))/P(正向報告)
= P(正向報告|好經(jīng)濟(jì))* P(好經(jīng)濟(jì))/(P(正向報告|好經(jīng)濟(jì))*P(好經(jīng)濟(jì))+P(正向報告|不好經(jīng)濟(jì) )*P(不好經(jīng)濟(jì)))
=0.8*0.6/(0.8*0.6+0.1*0.4)=12/13=92.3%
同樣的,P(不好經(jīng)濟(jì)|正向報告)
=P(正向報告|不好經(jīng)濟(jì))*P(不好經(jīng)濟(jì))/P(正向報告)
=P(正向報告|不好經(jīng)濟(jì))*P(不好經(jīng)濟(jì))/(P(正向報告|好經(jīng)濟(jì))* P(好經(jīng)濟(jì))+P(正向報告|不好經(jīng)濟(jì))*P(不好經(jīng)濟(jì)))
=0.1*0.4/(0.8*0.6+0.1*0.4)=1/13=1-92.3% = 7.7%
在更新的概率下,重新計算三種不同方案的預(yù)期值:
E(Plan A)=0.923*80+0.077*30=76.15
E(Plan B)=0.923*100+0.077*(-20)=90.76 (最佳)
E(Plan C)=0.923*50+0.077*20=47.69
概率思維是一種世界觀,統(tǒng)計思維是一種認(rèn)識世界的方法論。有用的貝葉斯推理,人人都值得擁有。
(文章版權(quán)歸作者所有)
本文為澎湃號作者或機(jī)構(gòu)在澎湃新聞上傳并發(fā)布,僅代表該作者或機(jī)構(gòu)觀點(diǎn),不代表澎湃新聞的觀點(diǎn)或立場,澎湃新聞僅提供信息發(fā)布平臺。申請澎湃號請用電腦訪問http://renzheng.thepaper.cn。





- 報料熱線: 021-962866
- 報料郵箱: news@thepaper.cn
互聯(lián)網(wǎng)新聞信息服務(wù)許可證:31120170006
增值電信業(yè)務(wù)經(jīng)營許可證:滬B2-2017116
? 2014-2025 上海東方報業(yè)有限公司




