Transformer新玩法登Nature子刊：DeepMind用新變體讀取DNA長序列，瞄準遺傳病高發區域

選自DeepMind Blog

作者

：Žiga Avsec

機器之心編譯

繼蛋白質結構預測之後，一路領跑的 DeepMind 又將 AI 的觸角伸向了 DNA。

當人類基因組計劃成功地繪製出人類基因組的 DNA 序列時，整個國際研究界都為之一振。因為這樣一來，人類就有機會進一步瞭解影響人類健康和發展的遺傳指令。

從眼球顏色到是否容易患某種疾病，DNA 攜帶著決定一切的基因資訊。人體內大約有 2 萬個 DNA 片段被確定為基因，其中包含有關蛋白質氨基酸序列的指令，這些蛋白質在我們的細胞中執行許多基本功能。然而，這些基因佔整個基因組的比重還不到 2%。剩下的鹼基對——佔基因組 30 億個「字母」的 98%——被稱為「非編碼」，包含一些不太為人所知的指令，這些指令讓基因知道應該在何時、何地產生或表達。為了更好地完成人類遺傳學的很多下游應用任務，我們必須弄清楚非編碼區 DNA 如何決定不同細胞型別中的基因表達。

10 月 4 日，DeepMind 與谷歌旗下生物科技公司 Calico 的一項研究登上了國際頂級方法學期刊《Nature Methods》。在這篇論文中，他們引入了一種叫做 Enformer 的神經網路架構，大大提高了根據 DNA 序列預測基因表達的準確性。為了進一步研究疾病中的基因調控和致病因素，研究者還公開了他們的模型及其對常見遺傳變異的初步預測。

DeepMind 的研究者表示，「我們相信 AI 可以幫助我們深入理解這些複雜的領域，加速科學進步，並未人類健康帶來潛在收益。」

以往關於基因表達的研究通常使用卷積神經網路作為基本構建塊，但這些網路在建模遠端增強子（enhancer）對基因表達的影響方面存在侷限。增強子是 DNA 上一小段可與蛋白質結合的區域，與蛋白質結合之後，基因的轉錄作用將會加強。增強子可能位於基因上游，也可能位於下游，且不一定接近所要作用的基因，這是因為染色質的纏繞結構，使序列上相隔很遠的位置也有機會相互接觸。因此，要想精確研究增強子對基因表達的影響，模型需要「閱讀」儘可能長的 DNA 序列。

DeepMind 表示，他們最初的探索依賴於 Calico 的 Basenji2 模型，它可以從相對較長的 DNA 序列（40， 000 個鹼基對）中預測調控活性，但這個長度還是不夠。

基於這些認識，研究者意識到，要想捕獲長序列，必須在基本架構層面進行改變。

於是，他們開發了一個基於 Transformer 的新模型——Enformer，以利用自注意力機制處理更大範圍的 DNA 上下文。和擅長閱讀長文字的 Transformer 類似，改造後的 Enformer 能夠「閱讀」很長的 DNA 序列，可處理的序列長度達到之前的 5 倍（200， 000 個鹼基對）。有了這樣一個模型，研究者就能從更長的 DNA 序列上建模增強子對基因表達的影響。

研究者訓練 Enformer 以預測功能性基因組資料，包括來自輸入 DNA 的 200， 000 個鹼基對的基因表達。上圖的示例展示了 5000 多種可能的基因組軌跡中的 3 種。

為了更好地理解 Enformer 是如何解釋 DNA 序列以得到更準確的預測的，研究者使用貢獻分（contribution score）來突出輸入序列中對預測影響最大的部分。如同生物直覺一般，研究者發現即使距離基因超過 50000 個鹼基對，模型也會注意到增強子。

預測哪些增強子調控哪些基因仍然是基因組學中一個尚未解決的問題，研究顯示， Enformer 的貢獻分與專門為此任務開發的現有方法（使用實驗資料作為輸入）表現相當。此外，Enformer 還理解了絕緣子元件（insulator element），後者將 DNA 的兩個獨立調控區域分隔開。

Enformer 注意到的相關的調控 DNA 區域（藍色），增強子為灰色塊。

目前全面研究生物體的 DNA 已經成為了可能的事，但要想理解基因組還需要複雜的實驗。儘管進行了大量的實驗，大多數 DNA 對基因表達的控制仍然是個謎。藉助人工智慧技術，人類可以探索在基因組中發現模式的新的可能性，並提供關於序列變化的機制假設。與拼寫檢查器的原理類似，Enformer 能夠部分理解 DNA 序列的「詞彙」，因此能夠「高亮」那些可能導致基因表達改變的編輯。

這一新模型的主要應用是預測 DNA 字母的變化，也稱為基因變異，它會改變基因表達。與以前的模型相比，Enformer 在預測變異對基因表達的影響方面更加準確，無論是自然遺傳變異還是改變重要調控序列的合成變異。

藉助這一特性，我們可以對越來越多的疾病相關變異進行研究。要知道，與複雜遺傳疾病相關的變異主要位於基因組的非編碼區，可能透過改變基因表達引起疾病。但是由於變異之間的內在聯絡，這些疾病相關的許多變異只是虛假的聯絡，而非因果關係。現在，計算工具可以幫助區分真正的聯絡和假陽性。

當然，人類基因組中仍有尚未解開的謎團，Enformer 只是在理解基因組序列的複雜性方面向前邁出了一步。

DeepMind 的研究者希望這些進展能讓與人類疾病相關的更高效的精細定位成為可能，並提供一個解釋順式調控演變的框架。

參考連結：https：//deepmind。com/blog/article/enformer

機器之心招人啦！

為進一步生產更多的高質量內容，提供更好資料產品及產業服務，機器之心需要更多的小夥伴加入進來，共同努力打造專業的人工智慧資訊服務平臺。

工作城市：北京市朝陽區酒仙橋 / 上海張江人工智慧島