多重線性迴歸看這一篇就夠了！

作者：周敏審稿：歡暢封面：吉江

前言

前面我們已經講了簡單的直線迴歸，是研究一個因變數與一個自變數之間的直線關係。但是在現實世界裡，

一個結局的發生往往不只是由一個因素引起的，往往涉及多個變數，且變數之間存在一定的聯絡

。如果用單變數統計方法分別進行統計分析，就忽略了各變數之間存在的相互關係，丟失許多樣本資訊，從而使分析結果難以客觀得全面反映真實的情況。於是，多變數的統計分析就因需而生了。多變數統計方法不僅能夠研究多個變數的相關關係以及揭露變數之間的變化規律，而且能夠使得複雜指標簡單化。

常用的多變數統計方法有多變數方差分析、多重線性迴歸分析、多因素logistic迴歸分析、Cox比例風險迴歸分析、聚類分析、判別分析等。本文將主要介紹的多重線性迴歸分析，用於分析探討

一個因變數與多個自變數之間的線性關係

，篩選危險因素、分析互動效應、控制混雜、預測趨勢等。

多元線性迴歸模型

其一般形式為：

其中β是常數項，也是截距，β1，β2，。。。，βm稱為偏回歸係數。e是去除m個自變數的影響後的隨機誤差，也叫作殘差。截距項表示當其他自變數都為0時，Y的平均估計值。偏回歸係數βj（j=1，2，3，。。。，m）表示，當其他自變數不變的情況下，Xj每增加一個單位，Y的平均改變數。

然而，我們

不能直接使用各偏回歸係數的數值大小來比較方程中它們對因變數y的貢獻大小

，因為變數的單位不一樣，可以將原始資料現做

標準化處理

，然後利用標準化資料進行迴歸擬合，此時會得到標準化偏回歸係數，可以用做貢獻大小的比較。

多元線性迴歸模型應用條件

1。因變數與自變數之間一定要存線上性關係。

2。各個觀測值（因變數Y的值）相互獨立。

3。殘差服從均數為0、方差為σ2的正態分佈。

以上條件的假定檢驗與前期

簡單線性迴歸

推文內容相同，可自行在公眾號內搜尋獲取操作方式。

多元線性迴歸模型應用步驟

eg：27名糖尿病患者的血清總膽固醇、甘油三酯、空腹胰島素、糖化血紅蛋白、空腹血糖的測量值如下表，建立血糖與其他四項指標的多元線性迴歸方程。

模型引數的估計與假設檢驗

多元線性迴歸分析的迴歸係數估計運用的還是最小二乘法，求模型的理論值與觀察值之間的離均差平方和最小。根據樣本利用最小二乘法對模型引數進行了估計之後，可以寫出多元線性迴歸方程，如下形式：

其中b，b1，b2，。。。，bm為多元線性迴歸模型的引數估計值，為Y的估計值，表示的當一組自變數Xi取值的時候，Y的平均值。

多元線性迴歸方程的假設檢驗，使用方差分析對整個迴歸方程的擬合度進行檢驗，以及可使用t檢驗對各偏回歸係數進行假設檢驗。

具體SPSS操作如下所示：

這裡將空腹血糖拖入到因變數框，將其餘拖入到自變數量。

【方法】

“輸入”，即全部變數強制進入，當需要將全部變數納入迴歸模型進行全面分析的時候使用。這裡先選擇此方法。

“步近”指的是逐步迴歸的方法，根據自己設定的選入與剔除標準自動進行變數的篩選。

“除去”指的是強制剔除法，只出不進，按照剔除標準將同一“塊”的變數一次全部剔除。

“後退”指的是後退法，只出不進，直到方程中沒有變數可以按照剔除標準剔除為止。該方法只考慮剔除，自變數一旦被剔除，則不考慮進入模型。

“前進”指的是前進法，只進不出，直到方程中沒有變數可以按照納入標準納入為止。該方法只考慮選入變數，一旦某變數進入了模型，就不再考慮剔除。

點選【統計】框，選擇如圖所示的選項，再點選繼續。

“估算值”是對樣本的迴歸係數進行估算。

“模型擬合”對模型進行檢驗，有複相關係數R，決定係數R2，模型方差分析的結果。

“協方差矩陣”是顯示方程中各自變數的相關係數以及各自變數的協方差。

“共線性診斷”為了輸出一些診斷共線性的統計量，比如方差膨脹因子、容忍度等。

點選【圖】，有的版本寫的【繪製】，選擇如圖選項，再點選繼續。

“ZPESID”指的是標準化殘差，將去拖入Y軸。

“ZPRED”指的是標準化預測值，將其拖入X軸。

最後點選確定。

結果如下：

由此圖我們可以得到迴歸方程為：

方差分析結果顯示，F=0。278，P

用決定係數R2來解釋自變數造成因變數的變化程度，本例中血糖含量的60。1%可由自變數的變化來解釋。

共線性診斷

相關係數矩陣我們看到，X1與X2之間的相關係數比較大，為-0。64，我們需要考慮這兩個變數會存在多重共線的問題。

迴歸係數估計的結果表，對迴歸係數的t檢驗顯示，只有胰島素X3，糖化血紅蛋白X4具有統計學意義，X1以及X2均沒有統計學意義。我們此時就要注意，應該對自變數進行選擇或者是否存在多重共線的問題。

共線性診斷指標有方差膨脹因子、容忍度、特徵根、條件指數和方差比例等。

方差膨脹因子（VIF）：其值越大，一般大於10可認為存在嚴重的多重共線問題。

容忍度：與VIF相反，其值越小，共線性越強，一般小於0。1認為存在嚴重的多重共線問題。

特徵根：對自變數做主成分分析，如果比較多的維度特徵根為，則表明存在多重共線問題。

條件指數：由Stewart等提出，認為在某些維度，該值大於30，則提示存在多重共線問題，此時再看方差比例，當方差比例比較大的時候，一般建議方差比例大於0。5的自變數為共線。

根據共線性指標的結果認為，該資料不存在多重共線的問題。

殘差圖

直方圖與正態pp圖顯示，殘差為正態分佈。

殘差分析圖不呈現特殊形狀，可以認為殘差方差齊性。

自變數選擇

多元迴歸方程中，自變數都是研究者事先預定的，有時候方程成立，但是某些自變數經統計學檢驗沒有意義，因此我們需要進行的就是自變數的篩選，建立出“最優迴歸方程”。

一、全域性擇優法

1。校正決定係數RC2法

n代表樣本含量，R2是決定係數。所謂最優就是讓RC2最大。

2。Cp選擇法

（SS殘）p是有p個自變數作迴歸得到的誤差平方和。（MS殘）m是從全部m個自變數的迴歸模型中得到的殘差均方。當由p個自變數擬合的方程理論上為最優時，Cp的期望值是p+1。因此應該選擇Cp值最接近p+1的迴歸方程為最優。

根據控制變數對暴露因素與結局變數的之間影響是否足夠大來判斷是否納入模型，點選小標題即可獲取更多詳細介紹。

三、有向無環圖(DAG)

該方法在篩選變數的時候，牢記中介變數不能放，混雜因素必須放的原則，主要依賴研究者的經驗和既往文獻。

四、逐步選擇法

全域性擇優建立的最優方程用於估計與預測的效果最好，但是自變數資料比較大的時候，計算量相當複雜。同時不能保證迴歸方程內的各自變數都有統計學意義。逐步選擇可以克服這一不足。逐步選擇是我們最常用的一種方式，分為前進法，後退法，逐步迴歸法。SPSS中進行自變數選擇時，在【方法】欄中就可以選擇，在SPSS操作中如下：

在方法欄選擇“步進”，再點選【選項】將納入標準（大樣本寫為0。05）寫為0。1，剔除標準（大樣本寫為0。1）寫為0。15。點選繼續，【統計】【圖】選項與上述一致，就不再贅述。得到如下結果。

逐步迴歸模型一共進行了五次建模，最後排除了總膽固醇X1變數，其餘變數均留在模型中，同時t檢驗各自變數均存在統計學意義。

方差分析對整個迴歸方程檢驗表明迴歸方程有意義。因此寫出逐步迴歸“最優方程”為：

多元線性迴歸模型的注意事項

一、指標的數量化

一般要求因變數Y為連續性變數，自變數X可以為連續性變數，也可以為分型別變數。當自變數為連續性變數的時候，如果與因變數不呈線性關係，可以進行變數的變換。為分類變數時，可以設定啞變數等。

二、樣本含量

如果說自變數比較多，樣本含量n相對於m不是很大的時候，建立的迴歸方程會很不穩定。有學者認為n至少是自變數個數的5~10倍。Green（1991）提出使用經驗公式n≥8（1-Re2）/Re2+（m-1）估計樣本含量。其中Re2是多元迴歸預期的決定係數。

三、逐步迴歸

在自變數比較多的情況下，適合逐步法篩選變數。但是，“最優”未必是最好的，該方法所捨棄的變數也許是自己非常想研究的變數，同時被捨棄的變數也不一定沒有統計學意義，有可能受多重共線性影響，掩蓋了其統計學意義。因此，我們在應用時一定要結合問題本身以及專業知識來使用。

四、多重共線性

一些自變數之間存在較強的線性關係，同時在現實應用當中也是比較普遍的，如果這種關係強度很高，會導致最小二乘法失效，引起以下問題：

1。引數估計值標準誤很大，t值很小。

2。迴歸方程不穩定，增加或減少幾個觀察值，引數估計值會產生很大的變化。

3。t檢驗結果不準確，可能會捨棄重要變數。

4。引數估計值的正負號與實際不一樣。

解決方案：

1。在自變數中剔除某些造成共線性的變數

2。對自變數進行主成分分析

3。使用嶺迴歸分析

4。使用Lasso對自變數降維

5。使用偏最小二乘迴歸法

6。使用逐步迴歸法

五、偏相關係數

在一組變數中，任意兩個變數在其他變數固定不變時，他們之間相關的密切程度與方向。在做多元迴歸分析時，可以藉助此係數，得到在控制不同自變數時因變數與任意一自變數之間的關係。

六、變數間的互動作用

迴歸方程中是否要考慮互動作用，研究者需根據自身的專業知識來判斷。為了檢驗兩個自變數是否有互動作用，最簡單的方法就是在迴歸方程中加入其乘積項，如果經過假設檢驗之後，具有統計學意義，那麼就存在互動作用。

七、殘差分析

如全文應用條件所說，需要殘差服從均數為0，方差為σ2的正態分佈。簡單的方法就是計算標準化殘差，並且以其為縱座標，以預測值為橫座標，畫出殘差分佈圖。如果標準化殘差以0為中心，在一恆定區內均勻散佈在一條直線上下兩側，可以認為方差齊同假設成立。也可以考察因變數與各個自變數的關係（以某個自變數為橫軸）。總之，根據自己研究的目的，來畫出對應的殘差分佈圖。同時殘差圖還可以考察殘差較大的點是否為離群點，實際中常規定標準化殘差的絕對值大於2為離群點。

END

參考文獻：

［1］孫振球，徐勇勇。《醫學統計學第4版》。人民衛生出版社。

［2］李曉松。《醫學統計學第3版》。高等教育出版社。

［3］武松，潘發明。《SPSS統計分析大全》。清華大學出版社

［4］高惠璇。處理多元線性迴歸中自變數共線性的幾種方法——SAS/STAT軟體（6。12）中REG等過程增強功能的使用［J］。數理統計與管理，2000（05）：49-55。