如何選擇要控制的混雜因素？—

作者：潘承諭審稿：歡暢封面：吉江

大家好，我是上海交通大學醫學院的碩士生ppppcy，目前方向是環境和人群健康，擅長流行病和統計相關內容，接下來將與大家分享協變數篩選系列內容，請大家多多關注~

在明確了暴露因素和結局變數的研究中，控制變數的篩選直接影響到後續多因素分析的結果。如，在研究吸菸和肺癌的關係時，往往還會控制年齡一變數，否則有可能得出吸菸是肺癌的保護因素這樣與實際相悖的結論。控制變數的納入需要考慮會受到樣本量、結局事件數量是否足夠，是否存在共線性等問題，此外還得結合經驗判斷是否存在專業意義。那麼面對幾十上百的研究因素中，大家該如何篩選出要控制的變數呢？接下來我們將會簡單介紹一下三種比較常見的方法，教大家如何篩選控制變數。

1.單因素分析法

單因素分析想必大家都很熟悉了，比較常見的做法是對備選的混雜因素和研究因素或者結局變數進行單因素分析（如方差、卡方等），並將單因素分析結果有統計學顯著性的變數（P是否

2.有向無環圖（Directed Acyclic Graph，DAG）

有向無環圖有時也被稱為因果圖，是結合專業及流行病學知識，根據變數與變數之間的因果關係篩選控制變數。如果從專業或者流行病學角度來看不存在混雜關係，就將變數剔除。在下圖中，當我們研究0與5的關係時，2就是潛在的混雜因素。