解讀生信之美,探索每篇文章背後的故事
ChIP-seq可能同學們在做實驗的時候已經接觸到其對應的實驗技術ChIP了,那麼ATAC-seq具體原理是什麼,分析流程是什麼呢?今天我們就來學習
既往研究者針對ATAC-seq分析流程所發表的綜述
“
From reads to insight: a hitchhiker’s guide to ATAC-seq data analysis
”,於2020年發表在《Genome Biology》雜誌上。好,廢話不多說,我們直接開始解讀吧~
雖然前面提到了也要列在這裡的傳送門
〇、期刊資訊
一、研究背景
ATAC-seq(Assay forTransposase-AccessibleChromatin with high throughputsequencing)
於2013年首先開始應用以來,呈指數性增長趨勢(Figure 1a)。應用程度比其他DNA開放區域檢測技術相比更加普及。由於Tn5轉座酶的高反應性,只需要500-5000個細胞就可以進行分析。並且靈敏度和特異度和DNase-seq相當,由於FAIRE-seq,但後兩者技術對細胞數的要求更加苛刻。由於ATAC-seq並不需要非常嚴格的建庫標準,所ATAC-seq也能夠透過片段的長度識別核小體的位置。並且隨著FACS、微流體技術的發展,對於單細胞的scATAC0seq也得到開展,並對揭示臨床樣本以及發展生物學的細胞異質性具有重要作用。比如正在檢測正常造血以及白血病之間染色質可及性的變化。
(Figure 1a)
作者根據ATAC-seq資料分為四個步驟:
1.預處理(質控和比對);
2.核心分析(peak鑑定);
3.高階分析(peak註釋、motif分析、核小體分析、TF足跡);
4.多組學整合分析(Figure 2)。
二、預處理(質控和匹配)
這一步包括3個小步驟
:(1)
比對前QC
;(2)
read比對
;(3)
比對後質控和處理
。
1.
質控
:首先比對前需要透過FastQC展示鹼基的質量,接下來透過trimmomatic進行去除已知的adapter序列。
2.
比對
:使用BWA-MEM或者Bowtie2對於短的雙端reads進行比對,成功率達到80%以上則認為是比較成功的。對於哺乳類動物,建議最少在開放染色質的區域為5000萬個reads,並且至少有200百萬TF的足跡。
3.
比對後質控
:得到比對後的BAM檔案後,線上粒體以及ENCODE上的blacklist區域的片段需要被移除(具有極高的read覆蓋率),另外因為PCR導致的高重複率同樣需要排除。
另外ATAC-seq特有的質控標準同樣需要評估,比如片段大小分佈圖(fragment size distribution)需要梯度式下降,分別是無核小體區(
(Figure 1b)
來自於無核小體區域的片段通常在轉錄起始位點(TSS)區域明顯富集,而核小體結合的區域則是在TSS位置訊號是缺失的,但是在兩側明顯富集(Figure 1C)。這些可以透過ATACseqQC進行評估。
(Figure 1C)
所以標準化的標準流程是:
FastQC
➔
trimmomatic
➔
BWA-MEM
➔
ATACseqQC
。
三、Peak鑑定(核心分析)
Peak鑑定在我們前面的推文中也提到過,主要是
對peak所對映的染色體位置資訊以及對應的基因
。類似於Chip-seq或者DNase-seq,ATAC-seq也推薦使用MACS2進行peak call。但是於Chip-seq不同的是,ATAC-seq不需要input作為control組進行對照。並且同時對無核小體區域片段以及核小體結合片段進行peak鑑定(Figure 3A)。並進一步透過平移延伸(shift-extend)的方式來對無核小體區域的peak進行平滑處理(Figure 3B)。
(Figure 3A,B)
目前流行的peak caller主要分為兩大類:
1.基於count
2.基於shape 的peak caller。
前者包括MACS2、HOMER等,後者包括PICS、PolyaPeak等。
ATAC-seq主要適用於前者(Figure 4)。其中ATAC專屬的HMMRATAC計算效果比MACS2和F-seq效果都要好,並提供了額外的核小體位置資訊。
(PS:這裡作者推薦一般來說使用MACS2和HOMER進行peak calling。如果計算資源充足,則可以考慮HMMRATAC)
四、ATAc-seq高階分析
peak相關高階分析
1
peak的差異分析
現目前並沒有專門為ATAC-seq涉及的差異peak分析工具,目前的差異分析工具根據分析方法同樣分為兩類,分別是1。consensus peak和2。sliding window-based。對於前者包括HOMER、DBChip、DiffBind依賴於RNA-seq差異分析所需要的包,比如edgeR、DEseq2所作的分析。其中DiffBind或者DBChIP具有交集或者union的選項。後者包括ChIPDiff、PePr等等(Figure 4)。
(Figure 4)
2
peak註釋
獲取到peak的集合之後,註釋peak可以使用HOMER、ChIPseeker、ChIPpeakAnno等工具。這些工具能夠將peak對映到最近的基因以及對應的基因區域,並且可以透過餅圖的方式展示註釋的基因特徵(Figure 1D),除此之外還可以進行GO、KEGG等功能註釋。
motifs分析
雖然ATAC-seq能夠對peak進行註釋以及相關的功能富集分析,但是並不能對潛在機制進行解讀。而motif則是TF和DNA結合的特定序列,TF所結合的特定位點則是TFBS(TF binding site)。大部分TF結合在染色質開放區域,但是少數的pioneer TF則能夠結合到並不完全開放的區域。而轉錄因子結合的位點能夠導致片段在這一區域富集水平相對下調,從而形成TF足跡(footprint)。人類大概有1600多個TF,其中超過一半透過實驗和計算獲得對應的motif。TF透過和組蛋白以及非組蛋白競爭結合到DNA上發揮轉錄調控作用。目前有兩種對於motif分析的方法:1。基於序列的預測進行motif的頻率以及活性預測;2。footprint去計算TF的佔有率。
1
motif資料庫以及篩選
目前普遍使用的資料庫包括JASPAR等資料庫,motif以文字的格式儲存為PWM的形式。HOMER以及R包TFBSTools、motifmatchr能夠透過PWM給定的核苷酸序列搜尋對於潛在的TF結合位點。而MEME和PWMScan由於它的網路互動頁面所以具有更好的使用體驗。
2
motif的富集和活性分析
透過前面的motif搜尋工具,每個peak區域的motif的位置和頻率資訊就有了,接下來可以透過HOMER或者MEME-AME進一步計算TF的出現頻次和活性,並和背景訊號進行比較,從而推測轉錄因子的活性。除此之外,還包括ChromVAR能夠計算每個motif在多個分組中的可及性,並用Z score的方式進行評分(這是專門為scATAC-seq資料設計的分析)。
3
TF足跡(footprint)分析
另一個評估TF調控的方式則是footprint。Footprint是因為TF結合在DNA上阻礙了Tn5酶的剪下,從而留下了開放染色質區域種的一個相對缺失(波谷)。但是目前對ATAC-seq的分析是存在障礙的:(1)首先在預處理的時候需要移動原始read,由於具有 9個鹼基的重複;(2)由於Tn5的親和力很強,並且TF短暫結合具有較弱的結合能力。所以footprint並不容易檢測。因此footprint檢測並不準確。
目前分析footprint的工具包含兩類:(1)de novo以及(2)motif-centric方法(Table 1)。前者基於footprint的特點模式(peak-dip-peak)進行預測,接下來則透過推定的footprint位點與已知的motif進行聯絡或者是驗證發現新的motif。後者則是基於先驗的TFBS並且透過監督以及無監督的方式區別這些位點是否是結合的。De novo tools方法包括HINT-ATAC校正了鏈特異性的Tn5剪下偏倚。Motif-centric tools這類方法作者推薦BaGFoot工具,能夠計算footprint depth並且對測序深度以及偏倚進行校正。總地來說作者推薦HINT-ATAC工具。
核小體位置分析
核小體由組蛋白形成的八聚體以及147bp的DNA構成。在ATAC-seq分析種,更長的DNA片段通常是由於核小體相關的區域導致的。但是檢測出核小體的覆蓋率要低於MNase-seq。HMMRATAC and NucleoATAC是兩個最常用的ATAC-seq核小體檢測的方法。
五、多組學資料整合分析構建調控網路
1
ChIP-seq資料整合
由於開放染色質同上是TF結合的前提,所以ATAC-seq peak通常與TF的ChIP-seq進行重疊,但是前者的範圍更廣。所以兩者可以相互驗證。只在TF的ChIP-seq中存在的peak才可以視作為pioneer TF結合到關閉的染色質範圍上。對於ATAC-seq的motif和TF足跡分析能夠進一步整合到真實的TF的ChIP-seq中,從而降低假陽性率。同樣ATAC-seq能夠和組蛋白的ChIP-seq進行分析,並找到組蛋白對於染色質的開放促進還是抑制作用(與開放區域轉錄正相關,如H3K4me3, H3K4me1, H3K27ac等,以及與開放區域轉錄負相關,如H3K27me3)
2
RNA-seq整合
差異基因同能能夠逆向推定上游的TF,並找到在開放染色質特定的footprint和motif。通常是scATAC-seq和scRNA-seq的聯合。
3
構建regulatory網路
這裡最常使用在scATAC-seq分析,比如Cicero包進行的STAC-se增強子-基因調控網路(Figue。 3C)。
好啦,關於ATAC-seq的綜述就講解到這裡啦,我是風間琉璃,我們下期見~
—END—
撰文丨風間琉璃
排版丨四金兄
主編丨小雪球
歡迎大家關注解螺旋生信頻道-挑圈聯靠公號~