解螺旋公眾號·陪伴你科研的第2541天
零程式碼復現非腫瘤文章
黑衣人:什麼!我終於可以擺脫一直學不會的那個GEO2R了嗎?
濤濤醬:是喔!一站式GEO下游分析,匯聚各式美圖,仙桃全都有!
黑衣人:歐耶!仙桃萬歲!快教教我!
今天我們無程式碼復現一篇2020年7月IF為2。57分發表在BMC Med Genomics的一篇
使用GEO分析非腫瘤
生信型別文章。
材料和方法
疾病
:
心房顫動
資料:
GEO資料集(五個資料集)
實現手段:
篩選差異基因(R語言之limma包)
功能聚類(GO、KEGG、DO、Reactome)
互作網路(蛋白—蛋白互動PPI)
關鍵基因分析(CTD資料庫)
復現工具
◆ 仙桃學術工具
(https://www。xiantao。love/products)
◆ Reactome資料庫
(https://reactome。org/)
◆ GEO資料庫
(https://www。ncbi。nlm。nih。gov/gds)
◆ Enrichr線上分析工具
(https://maayanlab。cloud/Enrichr/)
◆ String資料庫
(https://www。string-db。org/)
◆ CTD資料庫
(http://ctdbase。org/ )
復現任務
本次復現一共有8張大圖三張表。
圖1:心房顫動與竇性心律的差異基因表達
圖2:5個篩選出基因的表達情況
附圖1.標準化前後的boxplot圖
附圖2. 心房顫動與竇性心律差異基因的火山圖
附圖3. 使用REACTOME資料庫呈現IGF以及IGFBP的富集通路分析
附圖4. 差異基因的疾病富集分析
附圖5 蛋白-蛋白互作網路分析
附圖6. 基於CTD資料庫進行關鍵基因與疾病的分析
表1 五個資料集總結
表2 差異基因總結
表3 GO KEGG分析
復現內容
事不宜遲,一起來看看最新最夯最火爆的仙桃GEO無程式碼復現吧!
圖1. 心房顫動與竇性心律的差異基因表達
復現步驟:
進入仙桃學術工具(https://www。xiantao。love):
開啟的介面如下:
我們知道,這篇文章涉及了五個資料集,分別為GSE115574, GSE31821, GSE79768, GSE41177 和 GSE14975。
那我們就一個一個來新增我們的資料集。
首先選擇資料集GSE115574。
輸入後,點選
“選擇樣本”
按鈕,選擇對應資料集的樣本。
原文中是選擇
左心耳組織
(左心房附屬物),所以樣本的新增我們都
選擇左側
。
我們把所有的左側的組織都勾選上,包括心房顫動組以及竇性心律組,最後點選“
新增到樣本庫
”即可。
接下來,我們進入“
進入我的樣本庫
” 。
我們將
心房顫動組
定義為“
分組1
”,作為
對照組
;
竇性心律組
定義為“
分組2
”,作為
實驗組
。
將心房顫動組的基因勾選中,接著選擇“
加入分組1
”
同理,將竇性心律組“
加入分組2
”。
這樣,我們就完成了第一個資料集GSE115574的新增。
同理新增入剩餘4個數據集。
至此,我們得到了46個心房顫動的樣本以及31個竇性心律的樣本,進入後續分析。
注:不同許可權使用者的樣本庫的上限是不一樣的,普通使用者是20,基礎版使用者是50,高階版使用者是100。仙桃學術後續還會視情況提高總體上限!
接著,就可以開始差異分析啦!
點選“
提交分析
”。
注:不同許可權的使用者每天可以提交分析的次數是不同的喔,普通使用者每天只能提交2次分析,基礎版使用者每天可以提交5次分析,高階版使用者每天可以提交10次分析。
這裡的許可權跟“生信工具”的是一個內容。想要升級許可權可以到生信工具頁面進行升級。
當分析完成後,就可以下載結果內容了。
一次性提供了很多的結果內容,包括
箱式圖、PCA圖、UMAP圖、火山圖、差異分析結果表格等,以及結果分析報告
。
像我們這篇文獻有5個數據集合並分析,校正前後的結果比較圖顯得尤為關鍵,這個在仙桃學術裡也有提供喔(其實就是我們附圖1的復現內容)。
接下來我們就是真正來看看圖1的熱圖如何復現。
點選“
說明
”
出現如下介面:
往下捲動滑鼠
點選按鈕即可下載熱圖
下載結果:
這個版本目前還和原文中的還不太一樣,沒有不同GEO資料集的圖注。這個就是所謂的“普通熱圖”,而具有不同GEO資料集的圖注的應該歸類於“複雜熱圖”。
那下面我們就一起來看看複雜熱圖如何製作。
這個就是我們仙桃工具的內建示例資料上傳的複雜熱圖。
實現方法如下:
第一步:下載五個資料集,分別為GSE115574, GSE31821, GSE79768, GSE41177 和 GSE14975,分別找出差異基因在其中的表達值,整理成新的excel檔案。
開啟GEO網站(https://www。ncbi。nlm。nih。gov/gds)
在搜尋框中輸入GSE115574
開啟該資料集頁面
滑鼠捲動頁面至底下
下載soft檔案
用excel開啟
找到GSTT1所對應的ID
接下來,開啟GEO 網站
點選
“Analyze with GEO2R”
此時和仙桃的分組情況一樣
我們先定義要納入組的資料,接著確定這些樣本資料
進一步地,選擇
profile graph
輸入剛剛查詢的ID名
點選
set
點選
sample values
,就出現了這個圖
把這些表達情況複製進新的excel表格中
同樣的道理,繼續在下一個資料集GSE31821中複製貼上上在其他樣本的表達值
最後,採用同法可以獲得其他差異基因的一系列表達情況
就可以獲得這20個基因在不同樣本的表達值,儲存該excel
接下來開啟仙桃:表達差異(挑)——複雜熱圖
上傳excel表格
點選確認,即可生成複雜熱圖!
值得注意的是:
如果是選擇普通的熱圖,在結果說明裡找到熱圖的部分。點選“
細節修改
”,即可修改熱圖。
黑衣人:欸?為什麼我的仙桃沒法修改啊
濤濤醬:啊,那可能你的不是基礎版或高階版喔
細節修改的內容目前是隻有基礎版或者高階版才有,部分模組也是隻有高階版才有。這些細節修改包括調整配色,樣式等等,讓結果更加個性化。
“細節修改”可以連結到如下介面:
這是普通熱圖的製作過程
黑衣人:啊!稍等一下!為什麼我看這個圖和原文的圖不太一樣捏?
濤濤醬:→_→ 你追求一模一樣的有什麼意思?大學馬原學到哪去了?要抓住主要矛盾!
黑衣人:啊這……可是我們不就是在復現文章作圖嗎
濤濤醬:所謂復現,就是隻要能表達出一個意思的東西出來就可以了。正所謂“人不能兩次踏入相同的河流”,所以沒有兩幅完全一模一樣的圖。更何況,我們這個熱圖,這顏色不是更好看嗎?難道你喜歡紅配綠賽嗶—(自動消音)的神奇口味?
黑衣人:說得有道理!好吧,那以後我一定抓住主要矛盾,領會生信作圖精神……
圖2:5個篩選出基因的表達情況
在合併的資料集中做出非配對樣本的箱型圖,目前這個功能還在開發中。
不過如果研究的是在腫瘤中的表達水平,我們可以把這個基因放在TCGA裡探究其表達情況。
進入仙桃學術工具(https://www。xiantao。love/products);選擇高階版,點選“立即使用”
注:免費版和基礎版都可以進行統計和視覺化,由於高階版功能最全,這裡選擇高階版作為範例
選擇表達差異(挑)—表達差異—非配對樣本,點選進入。
假設我們要研究的腫瘤非肺腺癌,那此處選擇疾病-肺腺癌。
輸入第一個分子IGFBP2
點選“
確認
”
立刻能出圖。
另外四個基因也是同理可得,最後採用我們仙桃最炙手可熱的拼圖功能喔!仙桃工具拼圖比Illustratior或是Photoshop要節省不少時間!仙桃工具只要一分鐘,AI或者PS可能要拼至少一天時間。
進入仙桃學術工具(https://www。xiantao。love/products);選擇高階版,點選“立即使用”
注:免費版和基礎版都可以進行統計和視覺化,由於高階版功能最全,這裡選擇高階版作為範例
選擇
基礎繪圖 –上傳圖片
,點選進入
此處開始上傳自己的圖片,但是記得圖片要為
pdf、tiff、tif、png
的格式喔!
上傳好之後,可以調整圖片的寬度和高度引數,最後點選確認。
記得點選下方第一個“
儲存結果
”按鈕,才能進行下一步的拼圖喔!
點選拼圖工具,進入拼圖頁面。
拖拽目標圖片進入畫布。(在對齊圖片的時候可以選擇橫向參考線和縱向參考線輔助對齊。兩個圖片對齊時,接近輔助線的時候還有磁吸功能,拼圖非常便利!
點選PDF下載,還會自動標記字母哦!點選下載,即可儲存成pdf圖片。(小貼士,這裡也可以把圖稍微放大,或者兩圖直接的行間距放大,可以在右側減少留白)
這樣圖就拼好啦!是不是比其他軟體更輕鬆更便利呢?
濤濤醬在此還想說的是,目前全網還沒有一個線上工具能做到“整合多個GEO資料集,並且在其中繪製單個基因的表達差異箱型圖”,但是我們可以變化我們的思路啊!
黑衣人:蛤?什麼意思?
濤濤醬:因為這幾個基因的表達情況都在熱圖中呈現了嘛,那我們可以更多維度呈現我們的生信分析結果啊,比如可以用PCA圖來反應組間差異,這個在我們剛剛GEO分析結果裡也有喔
黑衣人:喔,我明白了!這樣審稿人就不會追著你一直問了,同時文章也更加飽滿了!
濤濤醬:當然我們的仙桃小哥哥還是會繼續努力馬上把這個功能豐富上的,請大家多多轉發此推文,讓仙桃小哥哥加雞腿喔!
附圖1.標準化前後的boxplot圖
這個在我們剛剛的分析結果中就已經具備啦!
即,校正前、校正後,all in one pack!
如果你找不到的話,還有一種開啟方式,往下看!
資料集模組—樣本歸一化箱式圖
在雲端,已經儲存了我們剛剛的差異分析結果。
點選“
確認
”,即可出圖
點選“
資料型別
”就可以選擇校正前、校正後的不同情況
我們剛剛是校正後的圖。
下面展示校正前的圖。
還有另外一個方法,就是在歷史記錄裡,也可以查詢到我們剛剛的結果。
點選“
說明
”,出現以下介面:
同樣能進行細節修改
再往下捲動,即能查詢到校正後的情況。
最後把兩圖放在Illustrator或者Photoshop軟體採用我們
仙桃的拼圖功能
喔!
附圖2. 心房顫動與竇性心律差異基因的火山圖
黑衣人:這題我會!
濤濤醬:哈哈,you can you up!那你來說說看
黑衣人:這個圖在仙桃的分析結果裡有
濤濤醬:你就會這種偷懶的答案(¬_¬) 不過呢,你確實說對了,我們可以直接拿現成的仙桃結果!
在歷史記錄裡,查詢到我們剛剛的結果。
點選“
說明
”,出現以下介面:
進一步地,我們可以繼續“
細節修改
”
選擇“
XY軸顛倒
”,即可呈現原文的圖片。
調整右側的引數“
圖注
”
開啟顯示按鈕,圖注位置可任意選擇
再次點選“
確認
”按鈕
這樣一幅圖就清晰呈現啦,連上調、下調的情況都標註出來了!
附圖3. 使用REACTOME資料庫呈現IGF以及IGFBP的富集通路分析
作者在材料中提到,這個是利用Reactome的資料庫為基礎,再用R語言實現的
那我們就一起來看看Reactome(https://reactome。org/)資料庫
一開啟網址就是一個非常清新的版面
我們根據文中上調的差異基因情況,將三個基因(IGFBP2, IGFBP3, CHGB)輸入進搜尋框中
點選搜尋
看到排在第一位的就是這個通路
點選進入
這個就是我們的通路圖,右上角可以儲存
圖片可以根據箭頭所示拖曳窗格進行縮放。
這樣子我們就能看到每一個蛋白所對應的情況了。
點選單一蛋白,還能看到這條通路上連線的資訊
因為原文的圖是用R包製作而成,所以復現時略有差異。
附圖4. 差異基因的疾病富集分析
這張看似是GO|KEGG分析的條形圖,其實是疾病富集分析
根據材料與方法部分的陳述,作者採用R語言裡的DO(Disease Ontology)進行富集分析。
那為了要實現真正的無程式碼,該怎麼辦呢?
那我們不妨試試看
Enrichr
這個線上工具(https://maayanlab。cloud/Enrichr/)。
首先開啟該網站
看到首頁就是要輸入基因,要麼採用上傳表格的方式,要麼採用貼上方框的形式。
因為要輸入差異表達基因,所以我們開啟仙桃幫我們分析好的結果
我們在後一欄新增一個logFC的絕對值,命名為
ABS
即,將B欄的每一個數值取絕對值
而後填充這整列
接下來我們手動挑選差異表達基因
根據文章,我們篩選的閾值是
所以我們在excel裡篩選ABS這列≥1 & adj。P。Val這列<0。05
最後篩選結果如下
即僅剩7個基因
正好與仙桃的報告相符!
進而把這7個基因複製貼上到Enrichr的方框裡
點選
Submit
而後選擇選單欄中的
Disease/Drugs
這裡面有非常多的資料庫
我們可以任意挑選有關於疾病的資料庫,比如
DisGeNET
點選該資料庫
進一步地,可以選擇上方的
Clustergram
可以調節其中的引數以及富集的條目,以富集前30個條目為例
捲動滑鼠,還可以有放大縮小功能喔!
點選左側的
相機
按鈕
,即可儲存好看的圖片!
附圖5:蛋白-蛋白互作網路分析
這就是熟知的蛋白蛋白互作網路啦
我們藉助
String
來完成這項操作(https://www。string-db。org/)
選擇左側的
Multiple proteins
在方框內輸入我們的蛋白
點選
Search
之後出現如下介面,再點選
C
ontinue
就會出現如下介面
小貼士:會使用cytoscape的同學可以將這些結果匯入cytoscape裡,能更改成更好看的樣式喔!
點選右下角的
more
,可以有更豐富的圖
不想匯出到cytoscape再編輯的朋友,可以直接在此
輸出儲存
附圖6:基於CTD資料庫進行關鍵基因與疾病的分析
這四個圖做法基本上一致,所以我們以圖a為例來複現
根據文章介紹,作者採用的是
CTD資料庫
(http://ctdbase。org/ )
這個資料庫是一個
集結了基因——藥物——疾病為一體的資料庫
,所以對於非腫瘤研究還是蠻有優勢的。
首先開啟網頁,選擇選單欄
Analyze
選擇
MyGeneVenn
在方框內輸入我們分析的差異表達基因
在疾病中選擇對應的“心房顫動”
點選
Submit
接下來可以點選
Venn圖的交集部分
,
或者點選第4項
這就是我們的差異表達基因
接下來我們就一個一個基因來檢視他的
inference score
黑衣人:我懂了,原來圖a是一個一個值檢視然後記錄下來,手動做成的條形圖啊
濤濤醬:你終於開竅了一回
假設我們選擇FHL2
點選FHL2之後,出現這個版面。
然後我們選擇選單欄裡的
diseases
接著
選擇心血管疾病的大分類
,點選
Filter
我們在網頁中
直接搜尋關鍵字
Atrial
就可以顯示該疾病
進一步檢視該基因的inference score為23。24
回頭看圖a
FHL2所對應的值就是23。24
接下來同理可得其他關鍵基因的inference score
然後就可以組成圖a啦
進一步地,可以查詢其他疾病,也可以獲得其他幾幅圖,再將它們拼圖起來就可以了!
表1 五個資料集總結
是的,這就是作者總結了五個資料集的基本情況,再透過三線表的形式整理出來,簡潔明瞭
舉個例子,如總結GSE115574
開啟仙桃學術,在裡面輸入要搜尋的資料集
點選“
選擇樣本
”,即可根據紅色標記欄手動整理出表1的內容啦!
黑衣人:如果是用GEO怎麼整理?
濤濤醬:我前面說的難道都白說了嗎→_→ 那我就再說一遍吧o(╥﹏╥)o
開啟GEO資料庫(https://www。ncbi。nlm。nih。gov/gds)
在方框中輸入資料集名稱
直接點選進入
可根據描述部分來手動整理分組,但是
要留意(左側或右側)
喔!
表2 差異基因總結
這是作者透過R語言算出來的差異基因的基本情況
心細的朋友可能發現,這個與我們透過仙桃學術所計算出來的有些許差別
我們透過檢視仙桃的計算原理與原文作者得知
可能是在資料清洗時的處理模式不同,導致後續的體現在結果的logFC、P value有偏差
即下圖excel中的highlight列
其實這個也很容易解釋
因為演算法不同,自然結果也會有些許差異啦
黑衣人:那……要怎麼辦呢?
濤濤醬:當然是你自己算出什麼就做什麼的圖啦
黑衣人:我懂了!不能盲目跟風,算出什麼就是什麼!做自己!
所以這也解釋了為什麼前文幾個圖復現結果會與文章有些差異的原因。
不過沒關係,以事實為基準,沒有孰對孰錯。開心就好(能發文章就很開心,對吧?)
表3 GO KEGG分析
開啟
功能聚類(圈)——GO|KEGG富集分析
在分子列表裡直接複製上我們計算得出的差異基因
由於7個差異基因過少,沒法分析,所以我們放寬指徵,更改篩選模式,只要納入adj。p。Value <0。05即可。
將該列基因複製到方框中,富集條目選擇
GO+KEGG
,點選
確認
。
生成的結果中自然就有三線表的形式提供啦!
根據作者需要,選擇BP、MF、CC的具體內容整理表格即可。
如果想要作圖,選擇“
儲存結果
”
接下來,在“
功能聚類(圈) GO|KEGG視覺化
”中
在“雲端資料”中,選擇適才儲存的資料
點選“
確認
”
即可出現氣泡圖
同樣,如果想做“柱狀圖”,在型別中更改相應的柱狀圖即可完成。
聚類分析視覺化網路圖是在“功能聚類(圈) GO|KEGG視覺化網路”中
同樣選擇雲端儲存的資料
即可看到更好看的視覺化網路圖!
—END—
撰文丨濤濤
排版丨豨薟
這些臨床統計的訣竅,就是一篇高分SCI必備要素!
國人刊文佔比58%的5分SCI,審稿快,國內多位大佬主編!
Cell子刊萬字重磅綜述闡述腫瘤的這2個特徵
本週直播預告
領 悟 科 研 優 人 一 步
直播主題:《酸談社群日》
直播時間:4月24日晚18點-20點
本次直播將在嗶哩嗶哩和微信影片號同步播出,同時也會在雙平臺進行直播抽獎。大家可以去微信影片號進行直播預約,點贊推薦直播預告還有機會贏得199元解螺旋精品課。
戳按鈕預約直播
解螺旋期待與你共同成長