選單

有趣的辛普森悖論

作者:LT   審稿:歡暢  封面:吉江

溯源

“橫看成嶺側成峰,遠近高低各不同”蘇軾的這首詩形象的描寫了廬山各個角度和距離的模樣。

今天我們所討論的辛普森悖論便和這“遠近”有關。

我們在研究兩組資料時,有時會陷入這樣的一種困境。

當我們“遠看”,即

合併的看

兩組資料時,往往會得出一種貌似可靠的結論,但當我們“近看”,即

分別討論

兩組資料時,又發現

結論正好相反

,這種有趣的現象便是

辛普森悖論。

20世紀初,就有人討論這種現象,但辛普森悖論被正式闡述是在1951年,由E。H。辛普森以論文形式描述。這便是辛普森悖論的由來。

性別歧視?

以下辛普森悖論的一個典型事例:

某學校在統計錄取率時,發現全校男生的錄取率高於女生的錄取率(見圖1),貌似存在一定的性別歧視。

表1 分性別錄取率

在這種情況下,該學校立即進行調查研究,卻發現不同專業的分性別錄取率呈現出相反的現象,如圖2所示。

表2 不同專業的分性別錄取率

從圖中我們可以看到,在各個專業中,男女的錄取率相差不大,在專業A中,女生的錄取率甚至高出男生20個百分點,之前的結論被顛覆了。

A or B?

再看一組例子:

某醫院現有兩種腎結石治療方案,方案A包括所有開放式外科手術,方案B僅涉及小的穿刺,為了比較兩種方案的成功率(成功率=成功案例數/治療總案例數),從方案A和B現有治療案例中分別抽取350個樣本進行抽樣調查,調查結果如表3所示。

表3 兩方案成功率

從表3中可以看出,在兩種治療方案中方案B的成功率高於方案A,那這是否意味著方案B是最佳選項呢?

表4 不同結石大小的兩方案成功率

果不其然,反轉又一次出現,當增加一層“結石大小”變數時,我們發現不論是大結石還是小結石,選用方案A時的治療成功率都大於方案B,方案A似乎又成了最佳選擇。

Android or IOS ?

再看最後一組事例:

據統計,某產品使用者中有10000人使用Android裝置,5000人使用IOS裝置,現需研究使用兩種裝置的使用者付費轉化率(普通使用者轉化為付費使用者的比例)大小,研究結果見表5。

表5 Android和IOS使用者付費轉化率

如表5所示,使用Android的使用者付費轉化率要高於IOS的,對於研發人員而言,這是否說明該產品的研發團隊應該將研發方向轉向Android呢?

表6 分裝置端Android和IOS使用者付費轉化率

但在表6中我們可以看到,當我們細化分析,增加“裝置端”這一變數後,無論是在手機端還是平板端都是IOS的使用者付費轉化率較高,似乎研發方向又應該趨向IOS。

注:文中所有資料來自網路

尾語

透過以上三個事例,我們對辛普森悖論有了一個初步的瞭解,但其實辛普森悖論普遍存在我們的生活及諺語裡,比如著名的田忌賽馬就是辛普森悖論的絕妙應用,雖然田忌並不是知道這個悖論才去應用的,但道理相通。

辛普森悖論就像一個警鐘後,當我們處理簡單二元列聯表時,都會在我們心中輕輕敲打一下,提醒我們去分析所得結論的正確性,督促我們去思考反轉的可能。

那麼,當我們進行描述性統計時,辛普森悖論究竟能帶給我們什麼樣的啟發和訊息呢?

且聽下回分解!

作者簡介

姓名:LT

院校/專業:江西財經大學/經濟統計學

擅長:SPSS,SAS等

提==

學堂正在招募內容主筆、短影片創作者、課程講師,請在公眾號底部選單欄點選“招聘”瞭解詳情!