×

掃碼關(guān)注微信公眾號

智峪生科攬下生物計算領(lǐng)域“奧運會”冠軍,中國生物科技力量站上臺前

2022/12/16 13:36:43      挖貝網(wǎng)

在生物計算領(lǐng)域素有“奧運會”之稱的2022年CASP賽事塵埃落定。今年,有中國團隊在全球共計162個參賽隊伍中拔得頭籌!

近日,第15屆國際蛋白質(zhì)結(jié)構(gòu)預(yù)測競賽(CASP15)正式宣布,智峪生科旗下AICHEMY-RNA2團隊在RNA結(jié)構(gòu)預(yù)測項目斬獲總排名第一名的成績。另據(jù)了解,智峪生科另一只參賽團隊AICHEMY-LIG也在蛋白質(zhì)-小分子復(fù)合體預(yù)測項目取得了第二名的成績,兩只團隊均參加CASP15研討會并做主題報告的邀請。

1.png

 

CASP15大賽官方排名:AICHEMY-RNA2團隊數(shù)據(jù)最優(yōu)

官網(wǎng)鏈接:https://www.predictioncenter.org/casp15/zscores_RNA.cgi

實際上,RNA結(jié)構(gòu)預(yù)測是今年CASP大賽中最受關(guān)注的領(lǐng)域之一,該方向的突破會極大幫助到RNA相關(guān)的療法和合成生物學(xué)調(diào)控元件的設(shè)計。而蛋白質(zhì)-小分子復(fù)合體預(yù)測也是首次在賽事中出現(xiàn),該方向的進步將極大促進藥物設(shè)計和酶設(shè)計的項目落地。

智峪生科在兩大熱門項目中的優(yōu)異表現(xiàn),也昭示著在生物科技領(lǐng)域,中國技術(shù)已然站上臺前,也為后續(xù)國內(nèi)探索AI生物計算與合成生物學(xué)邊界謀得了先發(fā)位置。

據(jù)悉,培育出奪冠團隊的智峪生科成立于2021年,匯聚了國內(nèi)外知名學(xué)府及工業(yè)界的一線團隊,致力于通過人工智能技術(shù)預(yù)測和設(shè)計蛋白、核酸等生物元件,為藥物研發(fā)和合成生物學(xué)帶來革命性突破。

在智峪生科首席執(zhí)行官王晟博士看來,生物信息技術(shù)領(lǐng)域方興未艾,基于AI預(yù)測的蛋白質(zhì)和RNA結(jié)構(gòu),讓人類掌握了打開生物秘密大門的鑰匙。通過基于已知數(shù)據(jù)挖掘未知領(lǐng)域、通過設(shè)計工具從無到有創(chuàng)造,相關(guān)預(yù)測結(jié)果更可以進一步應(yīng)用于輔助藥物研發(fā)或是合成生物學(xué),推動醫(yī)療健康、農(nóng)業(yè)、食品、消費、化工等行業(yè)發(fā)展,同時助力中國生物科技力量站上國際競技舞臺。

從東半球第一到全球第一

此次智峪生科奪冠的CASP競賽最早始于1994年,如今已成為評估預(yù)測技術(shù)的“金標(biāo)準(zhǔn)”。兩年一屆的CASP競賽,其激烈程度無異于“奧運會”,而取得最佳成績的團隊也可類比為行業(yè)中的“奧運冠軍”。

上一屆的CASP競賽上,橫空出世的人工智能——AlphaFold2一舉奪冠,解決了困擾眾多科研人員半個世紀(jì)的蛋白質(zhì)結(jié)構(gòu)預(yù)測難題。在此之前,鑒于生命科學(xué)以實驗為基礎(chǔ)的特性,理論預(yù)測的模型并不能等同于觀測到的實驗數(shù)據(jù),蛋白質(zhì)結(jié)構(gòu)主要通過X-射線衍射、冷凍電鏡等實驗技術(shù)解析。

AlphaFold2則打破了這一“陳規(guī)”。

“AlphaFold2實現(xiàn)的高精度預(yù)測結(jié)構(gòu)與實驗誤差接近,實驗人員可以先參考模型預(yù)測的結(jié)果,再對實驗數(shù)據(jù)進行處理。直接改變了結(jié)構(gòu)生物學(xué)的實驗流程與實驗結(jié)果。對生物計算整個專業(yè)領(lǐng)域而言,其影響更是不亞于原子彈爆炸成功?!庇袠I(yè)內(nèi)人士分析稱。

據(jù)其介紹,在AlphaFold2宣布開源后,蛋白質(zhì)結(jié)構(gòu)預(yù)測問題已經(jīng)基本得到解決,RNA結(jié)構(gòu)預(yù)測成為新的重心,過去蛋白質(zhì)結(jié)構(gòu)預(yù)測的老牌玩家也都紛紛加入到RNA結(jié)構(gòu)預(yù)測的領(lǐng)域之中。這也讓本屆CASP競賽中,RNA結(jié)構(gòu)預(yù)測獎項充滿含金量。而這一最具含金量的“桂冠”,如今被智峪生科這支來自中國的團隊斬獲。

具體而言,針對PDB數(shù)據(jù)庫中RNA結(jié)構(gòu)數(shù)量過少的問題,智峪生科基于AI的AICHEMY-RNA方法(又稱為RhoFold)借助了(i)純粹基于序列信息的RNA-FM基礎(chǔ)模型、(ii)基于多序列聯(lián)配的RhoFormer語言模型、以及(iii)考慮了專家經(jīng)驗與真實二級結(jié)構(gòu)約束的損失函數(shù),進行了端對端的模型訓(xùn)練,并在多個RNA結(jié)構(gòu)的預(yù)測上取得了優(yōu)異的成績。

對于更難的人造RNA以及從未出現(xiàn)在PDB數(shù)據(jù)庫中的天然RNA結(jié)構(gòu),智峪生科基于力場的AICHEMY-RNA2方法(又稱為BriQ)創(chuàng)新性的采用了(i)堿基對概率密度拆解、(ii)化學(xué)基團的電子云表示、以及(iii)高效的Monte Carlo采樣,取得了非常出色的預(yù)測結(jié)果。

小分子預(yù)測賽道,同樣眾多醫(yī)藥公司長期關(guān)注的重要方向,對小分子藥物設(shè)計的精度和質(zhì)量會帶來立竿見影的效果。例如本次小分子比賽的評估方就是AI藥物設(shè)計領(lǐng)域的知名公司Relay Therapeutics。同時,高精度小分子結(jié)合預(yù)測,也可以為未知功能酶元件的發(fā)現(xiàn)和高精度的理性酶設(shè)計提供堅實計算基礎(chǔ),賦能合成生物學(xué)的產(chǎn)品開發(fā)。智峪生科核心小分子算法在內(nèi)部和外部項目中均已實現(xiàn)了廣泛應(yīng)用。

 實際上,在此次奪冠之前,智峪生科核心算法團隊也曾在王晟博士帶領(lǐng)下,以tFold系列算法在上一屆比賽CASP14上和AlphaFold2算法同臺競技,斬獲了蛋白接觸圖預(yù)測這一細分項目的第一名。而在分量最重,也最受關(guān)注的3D結(jié)構(gòu)預(yù)測比賽中,王晟博士帶領(lǐng)的tFold團隊在沒有使用大量的基礎(chǔ)序列數(shù)據(jù)庫的情況下,僅以微弱劣勢獲得組別第四,也成為除歐美地區(qū)外,整個東半球排名第一的隊伍。

從東半球第一到全球第一,智峪生科一家企業(yè)的進步,也折射出中國生物科技力量的崛起。

據(jù)介紹,基于在AI計算及蛋白質(zhì)、RNA結(jié)構(gòu)預(yù)測領(lǐng)域和蛋白質(zhì)-小分子復(fù)合體預(yù)測以及生物大分子模擬方向積累的經(jīng)驗,目前智峪生科已正式推出了高通量、高精度、全生態(tài)、全流程生物計算平臺——“峪云ZCloud”,以解決大分子結(jié)構(gòu)計算、分子模擬、藥物設(shè)計、酶工程、大分子設(shè)計(包括蛋白、核酸、以及其復(fù)合物)等領(lǐng)域內(nèi)計算問題。

“峪云ZCloud”平臺的加持下,生物醫(yī)藥企業(yè)可以提前完成新藥研發(fā)前的大分子相關(guān)研究工作,后續(xù)只用參照計算結(jié)果,即可順暢完成藥物發(fā)現(xiàn)的工作。智峪生科也可以通過平臺中的模塊進行蛋白、核酸等生物元件的挖掘和設(shè)計,從而拓展生物合成的應(yīng)用邊界,大步邁向“萬物皆可合成的愿景。

2.png

ZCloud全生態(tài)平臺

按照智峪生科的設(shè)想,僅從RNA結(jié)構(gòu)預(yù)測出發(fā),研究者就可以發(fā)掘嶄新的用藥靶點、揭示由RNA突變帶來的疾病成因。“每一點突破,都有可能對現(xiàn)行的疾病治療方案帶來顛覆。”王晟博士指出。

AI技術(shù)賦能中國生物科技未來

實際上,上述方向僅僅揭開了蛋白質(zhì)/RNA結(jié)構(gòu)預(yù)測/蛋白質(zhì)-小分子復(fù)合體預(yù)測后續(xù)應(yīng)用的“冰山一角”。

“我相信生物計算在整個生命科學(xué)產(chǎn)業(yè)中一定會大有所為。我們希望另辟蹊徑,探索AI或者生物計算方在合成生物學(xué)領(lǐng)域的潛力?!蓖蹶刹┦勘硎?。

所謂合成生物學(xué),多采用工程學(xué)“自下而上”的理念,從系統(tǒng)表征自然界具有催化調(diào)控等功能的生物大分子,使其成為標(biāo)準(zhǔn)化“元件”,進而創(chuàng)建“模塊”、“線路”等全新生物部件與細胞“底盤”,最終構(gòu)建出具備各類用途的人造生命系統(tǒng)。

這也就決定了合成生物學(xué)需要依賴各類底層元件,比如催化元件、調(diào)控元件、感應(yīng)元件和結(jié)構(gòu)元件等。但當(dāng)前,研究領(lǐng)域內(nèi)可用元件十分匱乏,直接限制了合成生物學(xué)的想象空間。

不同于過去利用有限的過往研究出來的已知元件去進行產(chǎn)品研發(fā),在包括蛋白質(zhì)結(jié)構(gòu)預(yù)測、RNA結(jié)構(gòu)預(yù)測、蛋白質(zhì)-小分子復(fù)合體結(jié)構(gòu)預(yù)測在內(nèi)的AI技術(shù)加持下,智峪生科技術(shù)團隊可以從千萬甚至數(shù)億的宏基因組中實現(xiàn)高精度的功能標(biāo)注,進行新的功能元件挖掘;通過關(guān)鍵元件改造和設(shè)計,實現(xiàn)從無到有的元件設(shè)計技術(shù)拓展出近乎無限的元件庫,極大地拓展合成生物學(xué)的選品范圍,根本性地解決選品難問題,為該領(lǐng)域發(fā)展帶來顛覆性的影響。“就像用積木搭建房子,如果我們有一千塊積木,那么搭建出來的房子樣式、質(zhì)量、方法、速度上會比只有十塊積木更好。”王晟博士表示。

與此同時智峪生科還建立了顛覆性的基于AI的生物合成“計算設(shè)計-實驗驗證-計算再優(yōu)化(DBTL)”循環(huán),解決選品難問題的同時,通過智能化和自動化的干濕實驗結(jié)合,指數(shù)性地提升數(shù)據(jù)產(chǎn)生和算法迭代的速度,達到極致的降本增效,從而形成絕對的競爭優(yōu)勢。

本次CASP15競賽中,智峪生科AI技術(shù)實力就有所體現(xiàn)。若僅考慮基于AI的方法的表現(xiàn),公司旗下AICHEMY-RNA團隊和AICHEMY-LIG團隊表現(xiàn)均為全球最優(yōu)。

另外,基于在CASP競賽上RNA結(jié)構(gòu)預(yù)測奪冠的實力,智峪生科還可以進一步設(shè)計RNA三維結(jié)構(gòu)實現(xiàn)密碼子(codon)優(yōu)化,進而提高蛋白質(zhì)異源表達量,促進合成生物學(xué)進展。同時在合成生物學(xué)創(chuàng)建細胞工廠中,清晰描繪蛋白質(zhì)與RNA之間的調(diào)控網(wǎng)絡(luò),設(shè)計或挖掘出全新的RNA調(diào)控元件,提升整個細胞工廠的可操控性。

“從我們的角度來看,人工智能和合成生物學(xué)其實存在共同點,兩者都能實現(xiàn)對已知事物的降本增效和對未知事物邊界的不斷探索。智峪生科也是全球范圍內(nèi),少有的將 AI 和合成生物學(xué)進行深度融合的公司。相信在未來,智峪生科可以通過AI技術(shù)進一步賦能合成生物學(xué)領(lǐng)域,并以此改善醫(yī)學(xué)、能源、環(huán)境、消費等相關(guān)領(lǐng)域,為生物科技帶來一場看得見的革命,也為中國生物科技事業(yè)成長貢獻力量?!蓖蹶刹┦勘硎?。