預後模型的構建
好訊息!好訊息!
仙桃學術可以做預後模型的文章啦!!
今天讓我們透過2021年7月發表在Frontiers in Genetics(IF:4。599)上的文章“
Esophageal Cancer Associated Immune Genes as Biomarkers for Predicting Outcome in Upper Gastrointestinal Tumors
”來看看如何構建並驗證預後模型的吧~
期刊簡介
要素拆解
題目
:食管癌相關免疫基因作為預測上消化道腫瘤預後的生物標誌物
疾病
:食管癌(esophageal cancer,EC),頭頸癌 (HNSC) 和胃癌 (GC)- 上消化道腫瘤
資料來源
:TCGA-ESCA, TCGA-HNSC, GEO(GSE62245, GSE14210, GSE15459, GSE22377, GSE29272, GSE51105)
背景知識
臨床預測模型(Clinical Prediction Models),是指利用多因素模型估算患有某病的機率或者將來某結局發生的機率。臨床預測模型包括診斷模型(Diagnosticmodels)和預後模型(Prognostic models)。
診斷模型
關注的是基於研究物件的臨床症狀和特徵,診斷當前患有某種疾病的機率,多見於橫斷面研究。
預後模型
關注的是在當下的疾病狀態下,未來某段時間內疾病復發、死亡,傷殘以及出現併發症等結局的機率,多見於佇列研究。
預後模型驗證常見有三種方法,醫學生信文章中常用的也就是這三種方法。
1 內部驗證
常見的方法就是將佇列分成2部分(通常按2:1的比例分組),然後使用第一部分的資料建立模型,用第二部分的資料來驗證模型。這種方法的得到的結果往往會比較好,因為2個佇列的人群很相似。
2 時間驗證
時間驗證和將整個佇列根據時間順序進行分組在本質上沒有什麼不同。但是時間驗證是對模型的前瞻性評估,它獨立於建模的資料和建模的過程,所以有時可以看作是外部驗證。因此,時間驗證是介於內部驗證和外部驗證之間的一種方法。
3 外部驗證
內部驗證和時間驗證都無法檢測模型的普遍適用性,因為這需要使用來源不同的資料來進行驗證。
生信文章中最常見的就是第3種方法,而且這種方法非常受審稿人的青睞。
資料解讀
本文一共有4個圖2個表1個附圖。作者首先構建免疫評分(IRSS)模型(圖1),然後進行GO/KEGG富集分析(圖2)以證明與免疫相關,並提供TCGA-ESCA的臨床基線資料表(表1),分析模型的準確性(圖3),最後透過TCGA-HNSC來驗證模型的可靠性(圖4),還透過GEO的胃癌資料進一步驗證模型的可靠性(附圖1)。
圖1
| 建立ESCA免疫風險(IRSS)模型
圖2
| GO/KEGG分析
圖3
| IRSS模型的評估以及列線圖的建立和評估
表1
| EC 臨床病理特徵相關的單因素/多因素Cox 迴歸分析
圖4
| 使用TCGA-HNSC驗證IRSS模型
復現工具
仙桃學術工具(
https://www.xiantao.love/products
)
文章復現
圖1
|
建立ESCA免疫風險(IRSS)模型
1
圖1A 差異基因火山圖
仙桃學術(
https://www.xiantao.love/
),點選【生信工具】
【高階版】 → 【立即使用】
注:免費版和基礎版都可以進行統計和視覺化,由於高階版功能最全,這裡選擇高階版作為範例
【表達差異(挑)】 → 【差異分析】 → 【篩選分子】 → 選擇【TCGA-ESCA】→ 選擇【臨床-status】並分組為Normal和Tumor → 【確認】
在【歷史記錄】中,待狀態為【完成】時,即可【下載】結果,這裡我們【Excel表格下載】
開啟結果,保留【gene_name】, 【log2FoldChange】, 【pvalue】, 【padj】這4列,刪除其他列,將檔案儲存為“DEG。csv”
【表達差異(挑)】 → 【火山圖】 → 上傳“DEG。csv” → 【確認】→ 下載結果即為圖1A
2
圖1
B 差異基因與免疫相關基因的韋恩圖
用Excel開啟“DEG。csv”,篩選Log2|FC| > 1 且 padj< 0。01的基因,將基因名複製貼上到一個新的檔案“DEG and Immport。xlsx”
按照文章所述的方法,從文章附件中下載免疫相關的資料
將附件中的基因名也複製貼上到“DEG and Immport。xlsx”
回到仙桃學術,【基礎繪圖】 → 【韋恩圖】 → 上傳“DEG and Immport。xlsx” → 【確認】→ 下載結果即為圖1B
3
圖1C LASSO 模型中引數選擇的十次交叉驗證
382個基因做lasso分析還是太多了,這裡我們透過篩選預後分子來進一步篩選一下。
【臨床意義(靠)】 → 【預後分析】 → 【篩選預後分子】 → 【確認】,等待幾分鐘
在【歷史記錄】中,等到狀態為【完成】時,即可【下載】,這裡我們【Excel表格下載】
將篩選的預後分子與DEG and Immport的分子取交集。
回到仙桃學術,【基礎繪圖】 → 【韋恩圖】 → 上傳“Lasso data。xlsx” → 【確認】→ 【Excel表格下載】
交集基因即可作為lasso分析的輸入分子
【臨床意義(靠)】 → 【預後分析】 → 【[雲]Lasso係數篩選】 → 將上一步韋恩圖的交集基因貼上到分子list → 【確認】,即可得到圖1C
這裡記得【儲存結果】方便繪製圖1D,下載【RiskScore。xlsx】,方便後面繪製圖1E
4
圖
1D LASSO係數分佈圖
【臨床意義(靠)】 → 【預後分析】 → 【Lasso變數軌跡圖】 → 選擇剛剛得到的lasso結果 → 【確認】 → 即為圖1D
5
圖
1E 風險因子圖
開啟下載的“RiskScore。xslx”
【臨床意義(靠)】 → 【預後分析】 → 【風險因子圖】 → 上傳前面下載的“RiskScore。xslx” → 【確認】 → 即為圖1E
圖2
| GO/KEGG分析
開啟圖1中儲存的“DEG。csv”,篩選Log2|FC| > 2, padj< 0。01的protein_coding基因,複製所有篩選的基因名
【功能聚類(圈)】 → 【GO|KEGG】 → 【GO|KEGG富集分析】 → 貼上剛剛複製的基因名 → 選擇【全部GO條目】 → 【確認】 → 儲存結果為“GO”
選擇【KEGG條目】 → 【確認】 → 儲存結果為“KEGG”
【功能聚類(圈)】 → 【GO|KEGG】 → 【GO|KEGG視覺化】 → 選擇【GO】 → 【確認】 → 即為圖2A
選擇【KEGG】 → 【確認】 → 即為圖2B
圖3
| IRSS模型的評估以及列線圖的建立和評估
1
圖
3A KM生存曲線
【基礎繪圖】 → 【生存曲線-二分類/數值/單組】 → 上傳“KM。txt” → 分組選擇【0-50 vs 50-100】→ 【確認】即為圖3A,可【儲存結果】或【下載圖片】
2
圖3B時間依賴性 ROC 曲線
【基礎繪圖】 → 【時間依賴ROC】 → 上傳“KM。txt” →選擇預測年限【2年】【3年】【5年】 → 【確認】即為圖3B,可【儲存結果】或【下載圖片】
3
圖3C用於預測 EC 的 OS 的2年、3年和5年列線圖
【臨床意義(靠)】 → 【預後分析】 → 【預後列線圖】 → 選擇【TCGA-ESCA】→ 選擇需要畫入列線圖的指標 → 選擇預測年限【2年】【3年】【5年】 → 【確認】
下載圖片即為圖3C,這裡記得下載“RiskScore。xlsx”以便繪製圖3D。
4
圖3D 用於評估 IRSS 和列線圖的DCA曲線
開啟圖3A的資料“KM。txt”,將其另存為“IRSS for DCA。xlsx”。
【臨床意義(靠)】 → 【預後分析】 → 【預後DCA圖】 → 上傳“IRSS for DCA。xlsx” → 【確認】即為IRSS的DCA圖。
(注:目前DCA圖只支援一條曲線,以後將更新多條曲線的DCA圖,敬請期待哦)
開啟圖3C下載的“RiskScore。xlsx”,刪除第一列“sample_id”,僅保留其他3列,將檔案另存為“nomogram for DCA。xlsx”
【臨床意義(靠)】 → 【預後分析】 → 【預後DCA圖】 → 上傳“nomogram for DCA。xlsx” → 【確認】即為nomogram的DCA圖。
表1
| EC 臨床病理特徵相關的單因素/多因素Cox 迴歸分析
【臨床意義(靠)】 → 【預後分析】 → 【單|多因素cox迴歸】 → 選擇【TCGA-ESCA】→ 選擇需要的指標 → 選擇【OS】 → 【確認】即為表1
圖4
| 使用 TCGA-HNSC 驗證 IRSS模型
圖4是利用TCGA-HNSC來驗證前面TCGA-ESCA的模型構建的準確性,因此,用類似圖1-3的方法,將疾病換為TCGA-HNSC,即可畫出圖4。
本文亮點
透過分析食管癌的差異基因,與免疫相關基因取交集,來獲得免疫相關的預後標誌物
經過單因素cox、多因素cox和lasso迴歸分析,從諸多基因中篩選出6個基因建立了免疫風險的預後模型(IRSS)
透過食管癌建立的IRSS模型,在頭頸癌和胃癌等外部資料集來驗證模型的準確性,將模型擴充套件到上消化道腫瘤
思路擴充套件
2021年7月在Mol Ther Nucleic Acids上發表的“
An immunogenomic signature for molecular classification in hepatocellular carcinoma
”
文章基於免疫特徵研究肝細胞癌 (HCC) 的分子分類及其預後價值。基因集富集分析 (GSEA)用於計算兩個資料庫(TCGA和RIKEN_JP)中 HCC的免疫途徑評分。根據免疫特徵將樣本分了免疫高(Immunity_H)、免疫中(Immunity_M)和免疫低(Immunity_L)3個分類,並驗證分類的可靠性和可預測性。
2021年8月在Molecular Oncology上發表的“
SLUG-related partial epithelial-to-mesenchymal transition is a transcriptomic prognosticator of head and neck cancer survival
”
透過挖掘GEO資料庫中的頭頸癌的單細胞測序資料,分析部分上皮間質轉化(pEMT)相關的基因對患者預後的影響並構建預後模型,並透過TCGA資料庫和自己臨床樣本來驗證模型的準確性。
2021年4月在Front Immunol上發表的“
Diagnostic and Predictive Value of Immune-Related Genes in Crohn’s Disease
”
作者從GEO資料庫下載了7個分析克羅恩病(CD)的資料集,研究免疫相關基因在
CD中的診斷和預後價值,並用免疫組化驗證CD組織中的基因表達。
歡迎大家關注解螺旋生信頻道-挑圈聯靠公號~
—END—
撰文丨
dodo
排版丨四金兄
主編丨小雪球