選單

研究人員推出了用於預測蛋白質結構的“非凡”新人工智慧

研究人員推出了用於預測蛋白質結構的“非凡”新人工智慧

蛋白質是生命的僕從,可以單獨或一起工作以構建、管理、提供燃料、保護並最終破壞細胞。為了發揮作用,這些長鏈氨基酸扭曲、摺疊並交織成複雜的形狀,這些形狀可能很慢,甚至不可能破譯。科學家們一直夢想著根據蛋白質的氨基酸序列簡單地預測蛋白質的形狀——這種能力將開啟一個洞察生命運作的世界。“這個問題已經存在了 50 年;很多人都對此感到頭疼,”馬里蘭大學 Shady Grove 的結構生物學家 John Moult 說。但他們掌握了一個實用的解決方案。

幾個月前,在一個被譽為轉折點的結果中,計算生物學家表明人工智慧 (AI) 可以準確預測蛋白質形狀。該小組今天在《自然》上線上描述了他們的方法。與此同時,西雅圖華盛頓大學的 David Baker 和 Minkyung Baek 以及他們的同事在Science 上線上展示了他們基於 AI 的結構預測方法。他們的方法不僅適用於簡單的蛋白質,還適用於蛋白質複合物。

Baker 和 Baek 的方法和計算機程式碼已經可用數週了,該團隊已經用它來模擬其他研究人員提交的 4500 多個蛋白質序列。根特大學的結構生物學家 Savvas Savvides 曾六次嘗試模擬一種有問題的蛋白質。他說 Baker 和 Baek 的名為 RoseTTAFold 的程式“為結構解決方案鋪平了道路。”

2020 年秋季,谷歌旗下的英國人工智慧公司 DeepMind在兩年一度的競賽中以其結構預測贏得了該領域的青睞。該競賽稱為蛋白質結構預測的關鍵評估 (CASP),使用使用費力的實驗室技術(例如 X 射線晶體學)新確定的結構作為基準。DeepMind 的程式 AlphaFold2 做了“非常了不起的事情 [預測] 具有原子精度的蛋白質結構,”組織 CASP 的 Moult 說。

但對於許多結構生物學家來說,AlphaFold2 是一個笑話:“令人難以置信的興奮,但也非常令人沮喪,”加州大學舊金山分校的結構生物物理學家大衛阿加德說。6 月中旬,貝克實驗室釋出 RoseTTAFold 預印本後 3 天,DeepMind 的執行長 Demis Hassabis 發推文稱,AlphaFold2 的詳細資訊正在出版中進行審查,該公司將“為科學界提供廣泛的免費訪問 AlphaFold”。Nature現在急於發表那篇論文,以與Science論文同時發表。“它不會在我們之後出現是合適的,因為我們的工作實際上是基於他們的進步,”貝克說。

DeepMind 在 CASP 上 30 分鐘的演講足以激發 Baek 開發自己的方法。與 AlphaFold2 一樣,它利用人工智慧在大量示例資料庫中識別模式的能力,在學習時生成更明智和準確的迭代。當給一個新的蛋白質建模時,RoseTTAFold 會沿著多個“軌道”進行。一種是將蛋白質的氨基酸序列與蛋白質資料庫中的所有相似序列進行比較。另一個預測蛋白質內氨基酸之間的成對相互作用,第三個編譯假定的 3D 結構。程式在軌道之間彈跳以最佳化模型,使用每個軌道的輸出來更新其他軌道。DeepMind 的方法只涉及兩個軌道。

紐約大學醫學院的細胞和結構生物學家 Gira Bhabha 說,這兩種方法都很有效。“DeepMind 和 Baker 實驗室的進步都是驚人的,將改變我們如何使用蛋白質結構預測來推進生物學,”她說。DeepMind 的一位發言人在一封電子郵件中寫道:“很高興看到這樣的例子,蛋白質摺疊社群正在 AlphaFold 上構建,以實現我們增加對結構生物學理解的共同目標。”

但是 AlphaFold2 只解決了單個蛋白質的結構,而 RoseTTAFold 也預測了複合物,例如鎖定在其受體上的免疫分子白細胞介素 12 的結構。巴塞爾大學的計算結構生物學家 Torsten Schwede 說,許多生物功能取決於蛋白質-蛋白質的相互作用。“直接從序列資訊處理蛋白質-蛋白質複合物的能力使其對生物醫學研究中的許多問題極具吸引力。” Baker 承認 AlphaFold2 的結構更準確。但 Savvides 表示,貝克實驗室的方法更好地捕捉了“蛋白質結構的本質和特殊性”,例如識別從蛋白質側面伸出的原子串——這是蛋白質之間相互作用的關鍵特徵。去年,AlphaFold2 需要大量的計算能力才能工作,比 RoseTTAFold 還多。“現在,他們似乎從 CASP14 開始加速了他們的方法,現在它可以與 RoseTTAFold 相媲美,”Baek 說。

從 6 月 1 日開始,貝克和貝克開始挑戰他們的方法,要求研究人員傳送他們最令人困惑的蛋白質序列。第一個月就有 56 個抓頭者到達,現在所有這些都預測了結構。Agard 的小組傳送了一個氨基酸序列,其中沒有已知的相似蛋白質。幾小時內,他的團隊就得到了一個蛋白質模型,“這可能為我們節省了一年的工作,”阿加德說。現在,他和他的團隊知道在何處突變蛋白質以測試有關其功能的想法。

因為 Baek 和 Baker 的小組已經在網路上釋出了其計算機程式碼,其他人可以對其進行改進;自 7 月 1 日以來,該程式碼已被下載 250 次。“許多研究人員將根據貝克的工作建立自己的結構預測方法,”芝加哥豐田技術研究所的計算結構生物學家 Jinbo Xu 說。Hassabis 說,它的計算機程式碼現在也是開源的。由於兩個小組的工作,現在進展應該很快,Moult 說:“當出現這樣的突破時,2 年後,每個人都在做,即使沒有比以前更好。”