“好吧。我們開始吧。”西雅圖華盛頓大學(xué)(UW)的計(jì)算化學(xué)家David Juergens即將設(shè)計(jì)出一種蛋白質(zhì),經(jīng)過30多億年的修補(bǔ),進(jìn)化從未產(chǎn)生過這種蛋白質(zhì)。在視頻通話中,Juergens打開了他參與開發(fā)的人工智能(AI)工具的云版本,該工具名為RFdiffusion。這種神經(jīng)網(wǎng)絡(luò),以及其他類似的神經(jīng)網(wǎng)絡(luò),正在幫助將定制蛋白質(zhì)的創(chuàng)造——直到最近,這還是一種高度技術(shù)性且常常不成功的追求——帶入主流科學(xué)。
這些蛋白質(zhì)可以構(gòu)成疫苗、療法和生物材料的基礎(chǔ)。“這是一個(gè)完全變革的時(shí)刻,”馬薩諸塞州薩默維爾的生物技術(shù)公司Generate Biomedicines的聯(lián)合創(chuàng)始人兼首席技術(shù)官格Gevorg Grigoryan說。該公司將蛋白質(zhì)設(shè)計(jì)應(yīng)用于藥物開發(fā)。
這些工具的靈感來自人工智能軟件,該軟件可以合成逼真的圖像,比如Midjourney軟件,今年,該軟件被用來制作教皇弗朗西斯(Pope Francis)穿著設(shè)計(jì)師設(shè)計(jì)的白色羽絨服的照片。研究人員發(fā)現(xiàn),類似的概念方法可以根據(jù)設(shè)計(jì)者指定的標(biāo)準(zhǔn)大量生產(chǎn)出現(xiàn)實(shí)的蛋白質(zhì)形狀——這意味著,例如,可以快速繪制出與另一種生物分子緊密結(jié)合的新蛋白質(zhì)。早期的實(shí)驗(yàn)表明,當(dāng)研究人員制造這些蛋白質(zhì)時(shí),一部分有用的蛋白質(zhì)確實(shí)按照軟件的建議發(fā)揮作用。
研究人員說,在過去的一年里,這些工具徹底改變了設(shè)計(jì)蛋白質(zhì)的過程。紐約市哥倫比亞大學(xué)的計(jì)算生物學(xué)家Mohammed AlQuraishi說:“這是一種能力的爆炸。”他的團(tuán)隊(duì)已經(jīng)開發(fā)出一種這樣的蛋白質(zhì)設(shè)計(jì)工具。“你現(xiàn)在可以創(chuàng)造出具有受歡迎品質(zhì)的設(shè)計(jì)。”
華盛頓大學(xué)的計(jì)算生物物理學(xué)家David Baker說:“你正在為一個(gè)問題構(gòu)建一個(gè)定制的蛋白質(zhì)結(jié)構(gòu)。”他所在的團(tuán)隊(duì)(包括Juergens)開發(fā)了射頻擴(kuò)散。該團(tuán)隊(duì)于2023年3月發(fā)布了該軟件,本周在《Nature》雜志上發(fā)表了一篇描述神經(jīng)網(wǎng)絡(luò)的論文。(預(yù)印本于2022年底發(fā)布,幾乎與此同時(shí),其他幾個(gè)團(tuán)隊(duì),包括AlQuraishi的2和Grigoryan的3,也報(bào)告了類似的神經(jīng)網(wǎng)絡(luò))。
Grigoryan補(bǔ)充說,蛋白質(zhì)設(shè)計(jì)師現(xiàn)在第一次擁有了可復(fù)制和強(qiáng)大的工具,可以圍繞這些工具創(chuàng)建一個(gè)新的產(chǎn)業(yè)。“下一個(gè)挑戰(zhàn)是,你要用它做什么?”
Juergens將他想要的蛋白質(zhì)的一些規(guī)格輸入到一個(gè)類似于在線稅收計(jì)算器的網(wǎng)絡(luò)表格中。它必須有100個(gè)氨基酸長,形成對稱的兩種蛋白質(zhì)復(fù)合物,稱為同型二聚體。許多細(xì)胞受體采用這種結(jié)構(gòu),一種新的同型二聚體可能是一種合成的細(xì)胞信號分子,華盛頓大學(xué)的計(jì)算生物化學(xué)Joe Watson說,他參與開發(fā)了射頻擴(kuò)散,也在視頻通話中。但今天早上的設(shè)計(jì)并不是為了做任何事情,只是像一個(gè)現(xiàn)實(shí)的蛋白質(zhì)。
幾十年來,研究人員一直在努力構(gòu)建新的蛋白質(zhì)。起初,他們試圖將現(xiàn)有蛋白質(zhì)的有用部分拼湊在一起,比如催化化學(xué)反應(yīng)的酶的口袋。這種方法依賴于對蛋白質(zhì)如何折疊和工作的理解,以及直覺和大量的試驗(yàn)和錯(cuò)誤??茖W(xué)家們有時(shí)會(huì)篩選數(shù)千種設(shè)計(jì),以確定其中一種能達(dá)到預(yù)期效果。
Baker說,AlphaFold(由總部位于倫敦的人工智能公司DeepMind開發(fā),現(xiàn)為谷歌DeepMind)和其他基于人工智能的模型帶來了一個(gè)靈光一現(xiàn)的時(shí)刻,這些模型可以從氨基酸序列中準(zhǔn)確預(yù)測蛋白質(zhì)結(jié)構(gòu)。設(shè)計(jì)師們意識到,這些經(jīng)過真實(shí)蛋白質(zhì)序列和結(jié)構(gòu)訓(xùn)練的神經(jīng)網(wǎng)絡(luò),也可以幫助從零開始創(chuàng)造蛋白質(zhì)。
在過去的幾年里,Baker的團(tuán)隊(duì)和該領(lǐng)域的其他人已經(jīng)發(fā)布了一系列基于人工智能的蛋白質(zhì)設(shè)計(jì)工具。這些工具使用的一種方法被稱為幻覺,它包括創(chuàng)建一串隨機(jī)的氨基酸,然后由AlphaFold或類似的工具RoseTTAFold進(jìn)行優(yōu)化,直到它看起來像神經(jīng)網(wǎng)絡(luò)認(rèn)為可能折疊成特定結(jié)構(gòu)的東西。另一種被稱為inpainting的方法是獲取蛋白質(zhì)序列或結(jié)構(gòu)的特定片段,并使用RoseTTAFold在其周圍構(gòu)建分子的其余部分。
但這些工具遠(yuǎn)非完美。實(shí)驗(yàn)傾向于表明,通過幻覺方法設(shè)計(jì)的結(jié)構(gòu)在實(shí)驗(yàn)室中制造時(shí)并不總是形成折疊良好的蛋白質(zhì),例如,最終在試管底部成為粘稠物。產(chǎn)生幻覺的方法除了制造小的蛋白質(zhì)外,還很難制造任何東西(盡管其他研究人員在2月份的一篇預(yù)印本中展示了如何利用這種技術(shù)來設(shè)計(jì)更長的分子)。當(dāng)給予較短的片段時(shí),Inpainting在形成蛋白質(zhì)方面也做得很差。即使這種方法確實(shí)產(chǎn)生了一個(gè)理論上的蛋白質(zhì)結(jié)構(gòu),它也無法為一個(gè)問題提供多種解決方案,從而增加成功的幾率。
這就是近幾個(gè)月發(fā)布的射頻擴(kuò)散和類似的蛋白質(zhì)設(shè)計(jì)人工智能的用線。它們基于與生成真實(shí)圖像的神經(jīng)網(wǎng)絡(luò)相同的原理,例如Stable Diffusion, DALL-E和Midjourney。這些“擴(kuò)散”網(wǎng)絡(luò)是在數(shù)據(jù)上訓(xùn)練的,無論是圖像還是蛋白質(zhì)結(jié)構(gòu),然后這些數(shù)據(jù)逐漸變得嘈雜,最終與開始的圖像或結(jié)構(gòu)沒有相似之處。然后,網(wǎng)絡(luò)學(xué)會(huì)對數(shù)據(jù)進(jìn)行“去噪”,反向執(zhí)行任務(wù)。
像RFdiffusion這樣的網(wǎng)絡(luò)是在成千上萬個(gè)真實(shí)的蛋白質(zhì)結(jié)構(gòu)上進(jìn)行訓(xùn)練的,這些結(jié)構(gòu)存儲在一個(gè)叫做蛋白質(zhì)數(shù)據(jù)庫(PDB)的存儲庫中。當(dāng)這個(gè)網(wǎng)絡(luò)產(chǎn)生一種新的蛋白質(zhì)時(shí),它開始時(shí)完全是噪音:氨基酸的隨機(jī)組合。Watson解釋說:“你要問的是產(chǎn)生噪音的蛋白質(zhì)是什么。經(jīng)過幾輪去噪后,它產(chǎn)生了一種類似于真實(shí)的——但卻是新的——蛋白質(zhì)的東西。
當(dāng)Baker的團(tuán)隊(duì)測試RF擴(kuò)散時(shí),除了蛋白質(zhì)的長度外,沒有提供任何指導(dǎo),網(wǎng)絡(luò)產(chǎn)生了多種多樣的、看起來很真實(shí)的蛋白質(zhì),與在PDB中訓(xùn)練過的任何蛋白質(zhì)都不同。
但研究人員也能夠在去噪過程中指導(dǎo)程序根據(jù)特定的設(shè)計(jì)約束來制造蛋白質(zhì),這一過程被稱為條件反射。
例如,Baker的團(tuán)隊(duì)對射頻擴(kuò)散進(jìn)行了條件反射,使其產(chǎn)生包含特定折疊的蛋白質(zhì),或者可以附著在另一個(gè)分子表面的蛋白質(zhì)(這是一種相互作用,是結(jié)合的基礎(chǔ))。Grigoryan的團(tuán)隊(duì)甚至開發(fā)了一種名為Chroma的擴(kuò)散網(wǎng)絡(luò),然后對其進(jìn)行調(diào)節(jié),使蛋白質(zhì)的形狀與英語中使用的26個(gè)大寫字母以及阿拉伯?dāng)?shù)字相似。
噪聲信號
Juergens的電腦屏幕最初顯示的是噪音,即人工智能系統(tǒng)開始時(shí)隨機(jī)排列的氨基酸。它們被描繪成紅色的、污濁的、像小孩子手指畫一樣的字跡。它們一幀接一幀地變形成越來越復(fù)雜的形狀,具有類似蛋白質(zhì)的特征,如被稱為α-螺旋的緊密螺旋形狀和被稱為β-薄片的折疊式帶狀形狀。“這是一個(gè)很好的混合拓?fù)浣Y(jié)構(gòu),”Juergens微笑著說,因?yàn)樗蕾p這個(gè)只花了幾分鐘就完成的發(fā)明。“這看起來不錯(cuò)。”
這個(gè)工具在貝克的實(shí)驗(yàn)室里得到了廣泛的應(yīng)用。“與一年前相比,設(shè)計(jì)過程幾乎面目全非,”他說。神經(jīng)網(wǎng)絡(luò)在效率低下、困難或不可能使用其他方法的設(shè)計(jì)挑戰(zhàn)方面表現(xiàn)出色。
在他們研究報(bào)告的一項(xiàng)分析中,研究人員從另一種蛋白質(zhì)的片段開始,比如免疫細(xì)胞識別的病毒蛋白質(zhì)的一部分,并讓基于人工智能的工具大量生產(chǎn)100種不同的新蛋白質(zhì),看看有多少會(huì)包含所需的基序。該團(tuán)隊(duì)對25種不同的初始形狀進(jìn)行了挑戰(zhàn)。結(jié)果并不總是包含起始片段,但RF擴(kuò)散產(chǎn)生了至少一種蛋白質(zhì),可以用于23個(gè)基序,相比之下,有15個(gè)基序用于幻覺,12個(gè)基序用于繪畫。
射頻擴(kuò)散也被證明擅長于使蛋白質(zhì)自組裝成復(fù)雜的納米顆粒,這種納米顆??赡苣軌蜉斔退幬锘蛞呙绯煞?。以前的人工智能方法也可以制造這類蛋白質(zhì),但Watson說,射頻擴(kuò)散的設(shè)計(jì)要復(fù)雜得多。
像RF擴(kuò)散這樣的神經(jīng)網(wǎng)絡(luò)在設(shè)計(jì)能夠粘附到另一種特定蛋白質(zhì)上的蛋白質(zhì)時(shí),似乎真的很有效果。貝克的研究小組利用該網(wǎng)絡(luò)制造出了與癌癥、自身免疫性疾病和其他疾病相關(guān)的蛋白質(zhì)緊密結(jié)合的蛋白質(zhì)。他說,一個(gè)尚未發(fā)表的成功是為一種名為腫瘤壞死因子受體的難以靶向的免疫信號分子設(shè)計(jì)了強(qiáng)大的粘合劑——抗體藥物的靶標(biāo),每年產(chǎn)生數(shù)十億美元的收入。Watson說:“這擴(kuò)大了蛋白質(zhì)的空間,我們可以制造粘合劑,并為其制造有意義的治療方法。”
真實(shí)的測試
貝克的團(tuán)隊(duì)制作了如此多的設(shè)計(jì),以至于測試它們是否按預(yù)期工作已經(jīng)成為一個(gè)嚴(yán)重的瓶頸。位于馬薩諸塞州劍橋市的微軟研究院(Microsoft Research)生物醫(yī)學(xué)機(jī)器學(xué)習(xí)研究員Kevin Yang說:“一個(gè)學(xué)習(xí)機(jī)器的人可以設(shè)計(jì)出足夠100個(gè)生物學(xué)家忙上幾個(gè)月的設(shè)計(jì)。”他的團(tuán)隊(duì)已經(jīng)開發(fā)出了自己的基于擴(kuò)散的蛋白質(zhì)設(shè)計(jì)工具。
但早期跡象表明,RFdiffusion公司的產(chǎn)品是貨真價(jià)實(shí)的。在他們的研究中描述的另一個(gè)挑戰(zhàn)中,Baker的團(tuán)隊(duì)要求該工具設(shè)計(jì)含有p53關(guān)鍵片段的蛋白質(zhì),p53是一種在許多癌癥中過度活躍的信號分子(也是一種搶手的藥物靶點(diǎn))。研究人員設(shè)計(jì)了95種軟件(通過改造細(xì)菌來表達(dá)蛋白質(zhì)),其中一半以上保持了p53與其天然目標(biāo)MDM2結(jié)合的能力。最好的設(shè)計(jì)比天然的p53強(qiáng)1000倍。Watson說,當(dāng)研究人員嘗試用幻覺來完成這項(xiàng)任務(wù)時(shí),這些設(shè)計(jì)——盡管預(yù)計(jì)會(huì)起作用——并沒有在試管中成功。
總的來說,Baker表示,他的團(tuán)隊(duì)發(fā)現(xiàn),10-20%的RFdiffusion設(shè)計(jì)與預(yù)期目標(biāo)的結(jié)合程度足夠強(qiáng),足以發(fā)揮作用,相比之下,早期的前ai方法的這一比例不到1%。(Watson說,以前的機(jī)器學(xué)習(xí)方法無法可靠地設(shè)計(jì)粘合劑)。華盛頓大學(xué)的一位同事,生物化學(xué)家Matthias Gloegl說,最近他的成功率已經(jīng)接近50%,這意味著只需一兩個(gè)星期就能想出可行的設(shè)計(jì),而不是幾個(gè)月。“這真的很瘋狂,”他說。
馬薩諸塞州劍橋市哈佛大學(xué)的進(jìn)化生物學(xué)家Sergey Ovchinnikov表示,截至6月底,基于云的RFdiffusion每天約有100名用戶。澳大利亞悉尼大學(xué)(University of Sydney)的生化學(xué)家Joel Mackay一直在嘗試?yán)蒙漕l擴(kuò)散技術(shù)來設(shè)計(jì)能夠與他實(shí)驗(yàn)室研究的其他蛋白質(zhì)結(jié)合的蛋白質(zhì),其中包括控制細(xì)胞中基因活性的轉(zhuǎn)錄因子分子。他發(fā)現(xiàn)設(shè)計(jì)過程很簡單,并使用計(jì)算機(jī)建模來驗(yàn)證,理論上,蛋白質(zhì)應(yīng)該與轉(zhuǎn)錄因子結(jié)合。
Mackay現(xiàn)在正在測試這些蛋白質(zhì)在細(xì)胞中產(chǎn)生時(shí)是否能像預(yù)期的那樣改變基因表達(dá)。他祈求好運(yùn),因?yàn)檫@樣的發(fā)現(xiàn)相當(dāng)于一種在細(xì)胞內(nèi)開關(guān)特定轉(zhuǎn)錄因子的簡單方法,而不是使用可能需要數(shù)年才能識別的藥物,如果它們能被發(fā)現(xiàn)的話。他說:“如果這種方法對我們這種類型的蛋白質(zhì)有效,它將徹底改變游戲規(guī)則。”
未來的改進(jìn)
英國牛津大學(xué)的免疫信息學(xué)家Charlotte Deane說,像射頻擴(kuò)散這樣的最新模型是一個(gè)“階段性的改變”。但關(guān)鍵挑戰(zhàn)依然存在。她說:“這將激勵(lì)人們看到我們能把這些擴(kuò)散方法推進(jìn)多遠(yuǎn)。”她和其他科學(xué)家及生物技術(shù)公司特別感興趣的一個(gè)應(yīng)用是設(shè)計(jì)更復(fù)雜的結(jié)合蛋白,如抗體,或T細(xì)胞(一種免疫細(xì)胞)使用的蛋白質(zhì)受體。這些蛋白質(zhì)具有與它們的靶標(biāo)互鎖的柔性環(huán),這與RF擴(kuò)散迄今為止擅長的三明治狀平面界面相反,他們在抗體方面取得了進(jìn)展。
一般來說,設(shè)計(jì)生物分子是具有挑戰(zhàn)性的,因?yàn)樗鼈兊墓δ苋Q于軟性區(qū)域,軟性區(qū)域使它們能夠采用許多不同的形狀。事實(shí)證明,使用人工智能很難對這些特征進(jìn)行建模。“如果問題是,我們能否與其他物質(zhì)結(jié)合并抑制它,”Ovchinnikov說,“我認(rèn)為這個(gè)問題將通過這些方法得到解決。但為了做一些更復(fù)雜的事情,更像大自然,你需要引入一些靈活性。”
加州大學(xué)舊金山分校的計(jì)算生物學(xué)家Tanja Kortemme正在使用射頻擴(kuò)散技術(shù)設(shè)計(jì)可以用作傳感器或開關(guān)來控制細(xì)胞的蛋白質(zhì)。她說,如果一個(gè)蛋白質(zhì)的活性位點(diǎn)取決于幾個(gè)氨基酸的位置,人工智能網(wǎng)絡(luò)做得很好,但它很難設(shè)計(jì)具有更復(fù)雜活性位點(diǎn)的蛋白質(zhì),這需要更多的關(guān)鍵氨基酸到位——這是她和她的同事們正在努力解決的一個(gè)挑戰(zhàn)。
Yang說,最新擴(kuò)散方法的另一個(gè)限制是它們無法產(chǎn)生與天然蛋白質(zhì)有很大不同的蛋白質(zhì)。他說,這是因?yàn)槿斯ぶ悄芟到y(tǒng)只接受了科學(xué)家已經(jīng)描述過的現(xiàn)有蛋白質(zhì)的訓(xùn)練,并傾向于創(chuàng)造出與這些蛋白質(zhì)相似的蛋白質(zhì)。要想產(chǎn)生更像外星人的蛋白質(zhì),可能需要更好地理解賦予蛋白質(zhì)功能的物理原理。
這可能會(huì)使設(shè)計(jì)蛋白質(zhì)更容易執(zhí)行自然蛋白質(zhì)從未進(jìn)化過的任務(wù)。“還有很大的增長空間,”Yang說。
AlQuraishi說,最新的蛋白質(zhì)設(shè)計(jì)工具已經(jīng)被證明在創(chuàng)造可以完成特定任務(wù)的蛋白質(zhì)方面非常強(qiáng)大——只要這種功能可以用形狀來描述,比如要結(jié)合的蛋白質(zhì)的表面。但是,他補(bǔ)充說,像RF擴(kuò)散這樣的工具還不能處理其他類型的規(guī)格,比如制造一種可以進(jìn)行特定反應(yīng)的蛋白質(zhì),而不管它的形狀——當(dāng)“你知道你想要什么,但你不知道它的幾何形狀是什么”。
Grigoryan說,未來的蛋白質(zhì)設(shè)計(jì)工具還需要有能力根據(jù)不同的標(biāo)準(zhǔn)大量生產(chǎn)蛋白質(zhì)。一種潛在的治療蛋白不僅要與它的靶標(biāo)結(jié)合,而且要不與其他蛋白結(jié)合,而且要具有易于批量生產(chǎn)的特性。
研究人員正在探索的一個(gè)方向是,是否可以使用簡單的語言文本描述來設(shè)計(jì)蛋白質(zhì),類似于提供給Midjourney等圖像生成工具的提示。“你真的可以想象,我們將能夠?qū)懗鲆环N蛋白質(zhì)的描述,并將它們合成和測試,”Watson說。
Grigoryan和他的同事已經(jīng)朝著這個(gè)目標(biāo)邁出了一步。在2022年12月的預(yù)印本中,他們訓(xùn)練Chroma將描述附加到其設(shè)計(jì)中,并根據(jù)文本規(guī)范發(fā)布設(shè)計(jì),包括“具有CHAD結(jié)構(gòu)域的蛋白質(zhì)”(一種包含多個(gè)螺旋的蛋白質(zhì)形狀)或“氨基轉(zhuǎn)移酶的晶體結(jié)構(gòu)”(參與制造和分解蛋白質(zhì)的酶)。
今天早上,Juergens在幾分鐘內(nèi)創(chuàng)造出的蛋白質(zhì)只是蛋白質(zhì)三維結(jié)構(gòu)的一個(gè)模型。然后,Juergens使用另一種人工智能工具來繪制氨基酸序列,這些氨基酸應(yīng)該折疊成這種結(jié)構(gòu)。作為最后的檢查,他將這些序列插入AlphaFold,看看該軟件是否預(yù)測出與設(shè)計(jì)相匹配的折疊結(jié)構(gòu)。它們是正確的,AlphaFold的預(yù)測與設(shè)計(jì)的平均差異只有1氫原子的寬度。
Watson說:“我們認(rèn)為這是設(shè)計(jì)上的成功。”剩下唯一要做的就是觀察這種蛋白質(zhì)在現(xiàn)實(shí)生活中的表現(xiàn)。
(文章來源:www.ebiotrade.com/newsf) |