AlphaFold有望改變生物學(xué)。
近日,谷歌AI團(tuán)隊(duì)DeepMind所研究的 AlphaFold 算法在生物學(xué)領(lǐng)域取得了重要突破:通過(guò)蛋白質(zhì)的氨基酸序列高精度地確定其3D結(jié)構(gòu)。
具體而言,是DeepMind的第二代AlphaFold 在國(guó)際蛋白質(zhì)結(jié)構(gòu)預(yù)測(cè)競(jìng)賽(CASP)上擊敗了其余的參會(huì)選手,能夠精確地基于氨基酸序列,預(yù)測(cè)蛋白質(zhì)的3D結(jié)構(gòu)。其準(zhǔn)確性可以與使用冷凍電子顯微鏡(CryoEM)、核磁共振或 X 射線晶體學(xué)等實(shí)驗(yàn)技術(shù)解析的3D結(jié)構(gòu)相媲美。
前基因泰克(Genentech)首席執(zhí)行官Arthur D. Levinson博士稱這一成就為“劃時(shí)代的進(jìn)步”(once in a generation advance)。
從CASP14,這項(xiàng)權(quán)威的蛋白質(zhì)結(jié)構(gòu)預(yù)測(cè)競(jìng)賽結(jié)果中,可以看到AlphaFold2排名第一(總分遠(yuǎn)高于第二),排名前六位的分別是David Barke lab的兩個(gè)工具(第二、第三位)、密歇根州立大學(xué)的 Michael Feig和密歇根大學(xué)Yang Zhang排名在第四位、第五位,而騰訊AI lab 的tFold_human 排名第六。

這說(shuō)明,在某種程度上,在對(duì)蛋白質(zhì)結(jié)構(gòu)和折疊的預(yù)測(cè)這件事情上,人類已非望塵莫及。
第二代AlphaFold做了什么?
在CASP這項(xiàng)比賽中,DeepMind開(kāi)發(fā)AlphaFold2用的數(shù)據(jù)是:數(shù)據(jù)庫(kù)里的超過(guò)17萬(wàn)種蛋白序列與結(jié)構(gòu),以及其他一些大型數(shù)據(jù)庫(kù)里的數(shù)據(jù)。
評(píng)估蛋白結(jié)構(gòu)預(yù)測(cè)準(zhǔn)確度的指標(biāo)叫做GDT,也就是評(píng)估預(yù)測(cè)結(jié)構(gòu)里的氨基酸位置,和實(shí)際的氨基酸位置差多少。差得越少,得分越高。
GDT的分值在0-100之間。2006-2016年間,這個(gè)數(shù)字最高在40左右。2018年,上一代的 AlphaFold得分一下子突破了50。而這次的新一代 AlphaFold,在蛋白結(jié)構(gòu)預(yù)測(cè)大賽里的中位得分超過(guò)了92.4。
不僅僅遠(yuǎn)超今年的競(jìng)爭(zhēng)對(duì)手,相比于2018年版的AlphaFold第一代,AlphaFold2的表現(xiàn)也如脫胎換骨一般。
更直觀一些。拿它預(yù)測(cè)的結(jié)構(gòu)與實(shí)際結(jié)構(gòu)對(duì)比,可以看到基本完全吻合(下圖,綠色是實(shí)驗(yàn)得到的實(shí)際結(jié)構(gòu),藍(lán)色是計(jì)算預(yù)測(cè)結(jié)構(gòu))。

在兩年一次的蛋白質(zhì)結(jié)構(gòu)預(yù)測(cè)關(guān)鍵評(píng)估(CASP)競(jìng)賽中,AlphaFold今年擊敗了所有其他小組,并在準(zhǔn)確率方面與實(shí)驗(yàn)結(jié)果相匹配。隨著預(yù)測(cè)難度增加,AlphaFold的準(zhǔn)確率保持在穩(wěn)定的高水平,表現(xiàn)遠(yuǎn)超其它團(tuán)隊(duì)以及往屆競(jìng)賽的水平。
但是對(duì)此結(jié)果,也有不少人存在疑問(wèn),主要在準(zhǔn)確性。首先,17萬(wàn)的數(shù)據(jù)應(yīng)該遠(yuǎn)遠(yuǎn)不夠,準(zhǔn)確性存疑;再者,蛋白質(zhì)結(jié)構(gòu)折疊問(wèn)題太過(guò)高深,如果真能夠破解,DeepMind很快就能獲得諾貝爾獎(jiǎng)。
因此,在驚嘆AlphaFold取得成果的同時(shí),我們還需要冷靜等待生物學(xué)家的實(shí)驗(yàn)驗(yàn)證。
除了解決的問(wèn)題值得我們關(guān)注,其實(shí)研究方法也更有思考價(jià)值。
畢竟,AlphaFold的結(jié)構(gòu)預(yù)測(cè)與X射線晶體學(xué)或低溫電子顯微鏡(cryo-EM)等標(biāo)準(zhǔn)實(shí)驗(yàn)方法來(lái)預(yù)測(cè)并無(wú)區(qū)別,只是后者更加費(fèi)力、更加昂貴。科學(xué)家表示,AlphaFold的出現(xiàn)也許并不會(huì)完全替代這些實(shí)驗(yàn)方法,但確實(shí)為人們提供了研究生物的新方式。
蛋白質(zhì)結(jié)構(gòu):生物學(xué)五十年來(lái)的挑戰(zhàn)
蛋白質(zhì)是生命的基礎(chǔ),與細(xì)胞組成內(nèi)容緊密相關(guān)。而蛋白質(zhì)的功能取決于其3D結(jié)構(gòu)。
一直以來(lái),生物學(xué)家投入實(shí)驗(yàn),致力于尋找生命的奧秘,即:氨基酸序列(蛋白質(zhì)的組成部分)是如何繪制出最終的形狀。
在過(guò)去,人們一直是通過(guò)實(shí)驗(yàn)室來(lái)了解蛋白質(zhì)的結(jié)構(gòu)。比如,使用X射線束照射結(jié)晶的蛋白質(zhì),并將衍射光轉(zhuǎn)化為蛋白質(zhì)原子坐標(biāo),由此掌握蛋白質(zhì)的第一個(gè)完整結(jié)構(gòu)。
除了實(shí)驗(yàn),隨著計(jì)算機(jī)的發(fā)展,該項(xiàng)技術(shù)在上世紀(jì)末便已用于預(yù)測(cè)蛋白質(zhì)的結(jié)構(gòu),但效果并不理想。
計(jì)算機(jī)技術(shù)用于蛋白質(zhì)結(jié)構(gòu)預(yù)測(cè)的困境,直到AlphaFold在2018年現(xiàn)身于CASP,才讓科學(xué)家重新燃起了信心與希望。
AlphaFold的第一次迭代將深度學(xué)習(xí)應(yīng)用于結(jié)構(gòu)和遺傳數(shù)據(jù),以預(yù)測(cè)蛋白質(zhì)中氨基酸對(duì)之間的距離。根據(jù)AlphaFold的主要負(fù)責(zé)人之一John Jumper介紹,在第二個(gè)步驟中,雖然沒(méi)有使用AI技術(shù),但AlphaFold使用結(jié)構(gòu)與遺傳數(shù)據(jù)得出了蛋白質(zhì)的外觀模型,與之前的研究達(dá)成一致。
但第一次迭代存在缺陷。因此,該團(tuán)隊(duì)開(kāi)發(fā)了一個(gè)AI網(wǎng)絡(luò)。該網(wǎng)絡(luò)結(jié)合了有關(guān)確定蛋白質(zhì)如何折疊的物理和幾何約束的信息。他們?cè)O(shè)立了一項(xiàng)艱巨的目標(biāo):該網(wǎng)絡(luò)能夠預(yù)測(cè)目標(biāo)蛋白質(zhì)序列的最終結(jié)構(gòu),而不僅是預(yù)測(cè)氨基酸之間的關(guān)系。
驚人的準(zhǔn)確性
CASP的進(jìn)行歷時(shí)數(shù)月。
1994年,Moult及其同事發(fā)起了CASP,每?jī)赡暾匍_(kāi)一次。比賽團(tuán)隊(duì)獲得約100種蛋白質(zhì)的氨基酸序列,其結(jié)構(gòu)未知。一些小組計(jì)算每個(gè)序列的結(jié)構(gòu),而另一些小組則通過(guò)實(shí)驗(yàn)確定它。然后,組織者將計(jì)算預(yù)測(cè)結(jié)果與實(shí)驗(yàn)室結(jié)果進(jìn)行比較,并為預(yù)測(cè)結(jié)果提供全球距離測(cè)試(GDT)分?jǐn)?shù)。
研究小組有數(shù)周的時(shí)間來(lái)提交其結(jié)構(gòu)預(yù)測(cè)。然后,一組獨(dú)立的科學(xué)家使用度量標(biāo)準(zhǔn)來(lái)評(píng)估預(yù)測(cè)的蛋白質(zhì)與實(shí)驗(yàn)確定的結(jié)構(gòu)的相似程度,以此評(píng)估各個(gè)研究小組的預(yù)測(cè)結(jié)果。研究小組的名稱為匿名。
在今年的比賽中,AlphaFold的稱號(hào)是“427組”。其預(yù)測(cè)的許多條目具有驚人的準(zhǔn)確性,將近三分之二的預(yù)測(cè)與實(shí)驗(yàn)所得的結(jié)構(gòu)相當(dāng)。
針對(duì)各種目標(biāo)蛋白,AlphaFold的GDT中位數(shù)得分為92.4。在難度中等的蛋白質(zhì)上,其他團(tuán)隊(duì)的最佳表現(xiàn)通常在預(yù)測(cè)準(zhǔn)確度上得分75(滿分100),而在AlphaFold則得分大約90,中位數(shù)為87,比下一個(gè)最佳預(yù)測(cè)高25分。
AlphaFold甚至擅長(zhǎng)解決楔入細(xì)胞膜中的蛋白質(zhì)結(jié)構(gòu),這是許多人類疾病的核心,但眾所周知,這個(gè)問(wèn)題用X射線晶體學(xué)都很難解決。醫(yī)學(xué)研究理事會(huì)分子生物學(xué)實(shí)驗(yàn)室的結(jié)構(gòu)生物學(xué)家Venki Ramakrishnan稱該結(jié)果“在蛋白質(zhì)折疊問(wèn)題上取得了驚人的進(jìn)步。”
Moult介紹,90分以上得分的預(yù)測(cè)結(jié)果與實(shí)驗(yàn)方法相當(dāng)。
不過(guò),AlphaFold并非完美勝任所有的預(yù)測(cè)。在一種由52個(gè)小重復(fù)片段組成、組裝時(shí)會(huì)扭曲彼此位置的蛋白質(zhì)上,AlphaFold的預(yù)測(cè)與實(shí)驗(yàn)結(jié)果之間存在部分差異。
CASP的負(fù)責(zé)人Moult介紹,無(wú)法確定是因?yàn)锳lphaFold的預(yù)測(cè)誤差,還是因?yàn)閷?shí)驗(yàn)的偽像。
此外,AlphaFold的預(yù)測(cè)與通過(guò)核磁共振成像技術(shù)確定的實(shí)驗(yàn)結(jié)構(gòu)的匹配度差,可能是因?yàn)锳lphaFold將原始數(shù)據(jù)轉(zhuǎn)換為模型的方法需要改進(jìn)。
再如,AlphaFold的網(wǎng)絡(luò)嘗試為蛋白質(zhì)復(fù)合物或組中的單個(gè)結(jié)構(gòu)建模,因此,與其他蛋白質(zhì)的相互作用扭曲了它們的形狀。
應(yīng)用
AlphaFold的預(yù)測(cè)有助于確定Lupas實(shí)驗(yàn)室多年來(lái)試圖破解的細(xì)菌蛋白質(zhì)的結(jié)構(gòu)
Lupas的研究小組以前曾收集過(guò)原始的X射線衍射數(shù)據(jù),但要將這些類似Rorschach的圖案轉(zhuǎn)換為結(jié)構(gòu),則需要了解蛋白質(zhì)的結(jié)構(gòu)信息。Lupas介紹:“在我們花了十年時(shí)間嘗試一切之后,427組的模型在半小時(shí)內(nèi)為我們提供了結(jié)構(gòu)。”
DeepMind的聯(lián)合創(chuàng)始人兼首席執(zhí)行官Demis Hassabis介紹,AlphaFold可能需要幾天的時(shí)間才能預(yù)測(cè)出蛋白質(zhì)的結(jié)構(gòu),包括對(duì)蛋白質(zhì)不同區(qū)域的可靠性估計(jì)。但AlphaFold將開(kāi)放給科學(xué)家使用。
Hassabis認(rèn)為,AlphaFold有望應(yīng)用于藥物發(fā)現(xiàn)和蛋白質(zhì)設(shè)計(jì)。
借助AlphaFold,藥物設(shè)計(jì)人員能夠快速確定危險(xiǎn)的新病原體(如SARS-CoV-2)中各種蛋白質(zhì)的結(jié)構(gòu),這是尋找分子以阻止疾病產(chǎn)生的關(guān)鍵步驟。
加州大學(xué)伯克利分校的分子神經(jīng)生物學(xué)家Stephen Brohawn說(shuō),DeepMind對(duì)一種叫做Orf3a的蛋白質(zhì)的預(yù)測(cè)最終與后來(lái)通過(guò)cryo-EM確定的蛋白質(zhì)非常相似。
AlphaFold的出現(xiàn),可能意味著獲得良好的蛋白質(zhì)結(jié)構(gòu),不再局限于實(shí)驗(yàn)室,而只需要低質(zhì)量的、易于收集的實(shí)驗(yàn)數(shù)據(jù)。比方說(shuō),類似蛋白質(zhì)的進(jìn)化分析等方向之所以能蓬勃發(fā)展,便是因?yàn)橛写罅康幕蚪M數(shù)據(jù)能夠被轉(zhuǎn)化為結(jié)構(gòu)。
科學(xué)家評(píng)論,AlphaFold能夠幫助人類了解生命基因組中數(shù)千種未溶解蛋白質(zhì)的功能,了解人與人之間因?yàn)榧膊《a(chǎn)生的基因變異。
AlphaFold的出現(xiàn)也改寫了外界對(duì)DeepMind的印象。此前,大家知道DeepMind,一般是因?yàn)樵搱F(tuán)隊(duì)使用AI來(lái)玩游戲,比如AlphaGo。但如今,AlphaFold涉足生物學(xué)領(lǐng)域,例如進(jìn)行蛋白質(zhì)結(jié)構(gòu)預(yù)測(cè),DeepMind也因此向外界傳達(dá)了自己的另一種聲音:
不僅能玩圍棋,還能使用AI幫助生命科學(xué)的長(zhǎng)遠(yuǎn)發(fā)展。
責(zé)任編輯:lq
-
算法
+關(guān)注
關(guān)注
23文章
4784瀏覽量
98060 -
數(shù)據(jù)庫(kù)
+關(guān)注
關(guān)注
7文章
4020瀏覽量
68353 -
DeepMind
+關(guān)注
關(guān)注
0文章
131瀏覽量
12290
原文標(biāo)題:劃時(shí)代的進(jìn)步!DeepMind第二代AlphaFold破解生物學(xué)“五十年難題”,可精準(zhǔn)預(yù)測(cè)蛋白質(zhì)3D結(jié)構(gòu)
文章出處:【微信號(hào):IoT_talk,微信公眾號(hào):醫(yī)健AI掘金志】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。
發(fā)布評(píng)論請(qǐng)先 登錄
四方光電與暢合生物簽署戰(zhàn)略投資協(xié)議
【道生物聯(lián)TKB-623評(píng)估板試用】+ 初步認(rèn)識(shí)道生物聯(lián)TKB-623評(píng)估板
NVIDIA推出面向語(yǔ)言、機(jī)器人和生物學(xué)的全新開(kāi)源AI技術(shù)
簡(jiǎn)儀PCIe-9604DC模塊在掃描電子顯微鏡中的應(yīng)用
北京理工大學(xué):在AI輔助生物傳感器改造領(lǐng)域取得重要進(jìn)展
序禎達(dá)生物利用NVIDIA Parabricks技術(shù)加速多組學(xué)分析
【「AI芯片:科技探索與AGI愿景」閱讀體驗(yàn)】+可期之變:從AI硬件到AI濕件
掃描電鏡圖像分辨率評(píng)估新方法
聲匯西部,產(chǎn)研共進(jìn)!Aigtek安泰電子為科技發(fā)展貢獻(xiàn)磅礴 “聲” 力量!
康涅狄格大學(xué)與MATLAB開(kāi)發(fā)出斷層掃描原子力顯微鏡
中科曙光構(gòu)建全國(guó)產(chǎn)化基因組學(xué)高性能計(jì)算平臺(tái)
泰克設(shè)備在微流控技術(shù)研究中的應(yīng)用
AlphaFold有望改變生物學(xué)
評(píng)論