選單

13分純生信分析全流程解析!學會成為組會上最靚的仔!

解讀生信之美,探索每篇文章背後的故事

ChIP-seq可能同學們在做實驗的時候已經接觸到其對應的實驗技術ChIP了,那麼ATAC-seq具體原理是什麼,分析流程是什麼呢?今天我們就來學習

既往研究者針對ATAC-seq分析流程所發表的綜述

From reads to insight: a hitchhiker’s guide to ATAC-seq data analysis

”,於2020年發表在《Genome Biology》雜誌上。好,廢話不多說,我們直接開始解讀吧~

雖然前面提到了也要列在這裡的傳送門

〇、期刊資訊

一、研究背景

ATAC-seq(Assay forTransposase-AccessibleChromatin with high throughputsequencing)

於2013年首先開始應用以來,呈指數性增長趨勢(Figure 1a)。應用程度比其他DNA開放區域檢測技術相比更加普及。由於Tn5轉座酶的高反應性,只需要500-5000個細胞就可以進行分析。並且靈敏度和特異度和DNase-seq相當,由於FAIRE-seq,但後兩者技術對細胞數的要求更加苛刻。由於ATAC-seq並不需要非常嚴格的建庫標準,所ATAC-seq也能夠透過片段的長度識別核小體的位置。並且隨著FACS、微流體技術的發展,對於單細胞的scATAC0seq也得到開展,並對揭示臨床樣本以及發展生物學的細胞異質性具有重要作用。比如正在檢測正常造血以及白血病之間染色質可及性的變化。

13分純生信分析全流程解析!學會成為組會上最靚的仔!

(Figure 1a)

作者根據ATAC-seq資料分為四個步驟:

1.預處理(質控和比對);

2.核心分析(peak鑑定);

3.高階分析(peak註釋、motif分析、核小體分析、TF足跡);

4.多組學整合分析(Figure 2)。

13分純生信分析全流程解析!學會成為組會上最靚的仔!

二、預處理(質控和匹配)

這一步包括3個小步驟

:(1)

比對前QC

;(2)

read比對

;(3)

比對後質控和處理

1.

質控

:首先比對前需要透過FastQC展示鹼基的質量,接下來透過trimmomatic進行去除已知的adapter序列。

2.

比對

:使用BWA-MEM或者Bowtie2對於短的雙端reads進行比對,成功率達到80%以上則認為是比較成功的。對於哺乳類動物,建議最少在開放染色質的區域為5000萬個reads,並且至少有200百萬TF的足跡。

3.

比對後質控

:得到比對後的BAM檔案後,線上粒體以及ENCODE上的blacklist區域的片段需要被移除(具有極高的read覆蓋率),另外因為PCR導致的高重複率同樣需要排除。

另外ATAC-seq特有的質控標準同樣需要評估,比如片段大小分佈圖(fragment size distribution)需要梯度式下降,分別是無核小體區(

13分純生信分析全流程解析!學會成為組會上最靚的仔!

(Figure 1b)

來自於無核小體區域的片段通常在轉錄起始位點(TSS)區域明顯富集,而核小體結合的區域則是在TSS位置訊號是缺失的,但是在兩側明顯富集(Figure 1C)。這些可以透過ATACseqQC進行評估。

13分純生信分析全流程解析!學會成為組會上最靚的仔!

(Figure 1C)

所以標準化的標準流程是:

FastQC

trimmomatic

BWA-MEM

ATACseqQC

三、Peak鑑定(核心分析)

Peak鑑定在我們前面的推文中也提到過,主要是

對peak所對映的染色體位置資訊以及對應的基因

。類似於Chip-seq或者DNase-seq,ATAC-seq也推薦使用MACS2進行peak call。但是於Chip-seq不同的是,ATAC-seq不需要input作為control組進行對照。並且同時對無核小體區域片段以及核小體結合片段進行peak鑑定(Figure 3A)。並進一步透過平移延伸(shift-extend)的方式來對無核小體區域的peak進行平滑處理(Figure 3B)。

13分純生信分析全流程解析!學會成為組會上最靚的仔!

(Figure 3A,B)

目前流行的peak caller主要分為兩大類:

1.基於count

2.基於shape 的peak caller。

前者包括MACS2、HOMER等,後者包括PICS、PolyaPeak等。

ATAC-seq主要適用於前者(Figure 4)。其中ATAC專屬的HMMRATAC計算效果比MACS2和F-seq效果都要好,並提供了額外的核小體位置資訊。

(PS:這裡作者推薦一般來說使用MACS2和HOMER進行peak calling。如果計算資源充足,則可以考慮HMMRATAC)

四、ATAc-seq高階分析

peak相關高階分析

1

peak的差異分析

現目前並沒有專門為ATAC-seq涉及的差異peak分析工具,目前的差異分析工具根據分析方法同樣分為兩類,分別是1。consensus peak和2。sliding window-based。對於前者包括HOMER、DBChip、DiffBind依賴於RNA-seq差異分析所需要的包,比如edgeR、DEseq2所作的分析。其中DiffBind或者DBChIP具有交集或者union的選項。後者包括ChIPDiff、PePr等等(Figure 4)。

13分純生信分析全流程解析!學會成為組會上最靚的仔!

(Figure 4)

2

peak註釋

獲取到peak的集合之後,註釋peak可以使用HOMER、ChIPseeker、ChIPpeakAnno等工具。這些工具能夠將peak對映到最近的基因以及對應的基因區域,並且可以透過餅圖的方式展示註釋的基因特徵(Figure 1D),除此之外還可以進行GO、KEGG等功能註釋。

13分純生信分析全流程解析!學會成為組會上最靚的仔!

motifs分析

雖然ATAC-seq能夠對peak進行註釋以及相關的功能富集分析,但是並不能對潛在機制進行解讀。而motif則是TF和DNA結合的特定序列,TF所結合的特定位點則是TFBS(TF binding site)。大部分TF結合在染色質開放區域,但是少數的pioneer TF則能夠結合到並不完全開放的區域。而轉錄因子結合的位點能夠導致片段在這一區域富集水平相對下調,從而形成TF足跡(footprint)。人類大概有1600多個TF,其中超過一半透過實驗和計算獲得對應的motif。TF透過和組蛋白以及非組蛋白競爭結合到DNA上發揮轉錄調控作用。目前有兩種對於motif分析的方法:1。基於序列的預測進行motif的頻率以及活性預測;2。footprint去計算TF的佔有率。

1

motif資料庫以及篩選

目前普遍使用的資料庫包括JASPAR等資料庫,motif以文字的格式儲存為PWM的形式。HOMER以及R包TFBSTools、motifmatchr能夠透過PWM給定的核苷酸序列搜尋對於潛在的TF結合位點。而MEME和PWMScan由於它的網路互動頁面所以具有更好的使用體驗。

2

motif的富集和活性分析

透過前面的motif搜尋工具,每個peak區域的motif的位置和頻率資訊就有了,接下來可以透過HOMER或者MEME-AME進一步計算TF的出現頻次和活性,並和背景訊號進行比較,從而推測轉錄因子的活性。除此之外,還包括ChromVAR能夠計算每個motif在多個分組中的可及性,並用Z score的方式進行評分(這是專門為scATAC-seq資料設計的分析)。

3

TF足跡(footprint)分析

另一個評估TF調控的方式則是footprint。Footprint是因為TF結合在DNA上阻礙了Tn5酶的剪下,從而留下了開放染色質區域種的一個相對缺失(波谷)。但是目前對ATAC-seq的分析是存在障礙的:(1)首先在預處理的時候需要移動原始read,由於具有 9個鹼基的重複;(2)由於Tn5的親和力很強,並且TF短暫結合具有較弱的結合能力。所以footprint並不容易檢測。因此footprint檢測並不準確。

目前分析footprint的工具包含兩類:(1)de novo以及(2)motif-centric方法(Table 1)。前者基於footprint的特點模式(peak-dip-peak)進行預測,接下來則透過推定的footprint位點與已知的motif進行聯絡或者是驗證發現新的motif。後者則是基於先驗的TFBS並且透過監督以及無監督的方式區別這些位點是否是結合的。De novo tools方法包括HINT-ATAC校正了鏈特異性的Tn5剪下偏倚。Motif-centric tools這類方法作者推薦BaGFoot工具,能夠計算footprint depth並且對測序深度以及偏倚進行校正。總地來說作者推薦HINT-ATAC工具。

13分純生信分析全流程解析!學會成為組會上最靚的仔!

核小體位置分析

核小體由組蛋白形成的八聚體以及147bp的DNA構成。在ATAC-seq分析種,更長的DNA片段通常是由於核小體相關的區域導致的。但是檢測出核小體的覆蓋率要低於MNase-seq。HMMRATAC and NucleoATAC是兩個最常用的ATAC-seq核小體檢測的方法。

五、多組學資料整合分析構建調控網路

1

ChIP-seq資料整合

由於開放染色質同上是TF結合的前提,所以ATAC-seq peak通常與TF的ChIP-seq進行重疊,但是前者的範圍更廣。所以兩者可以相互驗證。只在TF的ChIP-seq中存在的peak才可以視作為pioneer TF結合到關閉的染色質範圍上。對於ATAC-seq的motif和TF足跡分析能夠進一步整合到真實的TF的ChIP-seq中,從而降低假陽性率。同樣ATAC-seq能夠和組蛋白的ChIP-seq進行分析,並找到組蛋白對於染色質的開放促進還是抑制作用(與開放區域轉錄正相關,如H3K4me3, H3K4me1, H3K27ac等,以及與開放區域轉錄負相關,如H3K27me3)

2

RNA-seq整合

差異基因同能能夠逆向推定上游的TF,並找到在開放染色質特定的footprint和motif。通常是scATAC-seq和scRNA-seq的聯合。

3

構建regulatory網路

這裡最常使用在scATAC-seq分析,比如Cicero包進行的STAC-se增強子-基因調控網路(Figue。 3C)。

好啦,關於ATAC-seq的綜述就講解到這裡啦,我是風間琉璃,我們下期見~

—END—

撰文丨風間琉璃

排版丨四金兄

主編丨小雪球

歡迎大家關注解螺旋生信頻道-挑圈聯靠公號~