中新網(wǎng)合肥7月22日電 (記者 吳蘭)記者22日從中國科學(xué)技術(shù)大學(xué)獲悉,該校生命科學(xué)與醫(yī)學(xué)部教授劉海燕、副教授陳泉團(tuán)隊(duì)與信息科學(xué)技術(shù)學(xué)院教授李厚強(qiáng)團(tuán)隊(duì)合作,開發(fā)了一種基于深度學(xué)習(xí)為給定主鏈結(jié)構(gòu)從頭設(shè)計(jì)氨基酸序列的算法ABACUS-R。
經(jīng)過實(shí)驗(yàn)驗(yàn)證,ABACUS-R的設(shè)計(jì)成功率和設(shè)計(jì)精度超過了原有統(tǒng)計(jì)能量模型ABACUS。
研究成果北京時(shí)間7月21日發(fā)表于《自然-計(jì)算科學(xué)》(Nature Computational Science)。
劉海燕、陳泉團(tuán)隊(duì)長期致力于發(fā)展數(shù)據(jù)驅(qū)動(dòng)的蛋白質(zhì)設(shè)計(jì)方法,先后建立并實(shí)驗(yàn)驗(yàn)證了對給定主鏈結(jié)構(gòu)設(shè)計(jì)氨基酸序列的統(tǒng)計(jì)能量函數(shù)ABACUS模型,以及利用神經(jīng)網(wǎng)絡(luò)能量函數(shù)從頭設(shè)計(jì)主鏈結(jié)構(gòu)的SCUBA模型。然而,基于傳統(tǒng)統(tǒng)計(jì)能量技術(shù)的ABACUS模型在成功率、計(jì)算效率等方面仍有不足。
近期有多項(xiàng)研究表明,用深度學(xué)習(xí)進(jìn)行氨基酸序列設(shè)計(jì),能夠在天然氨基酸殘基類型恢復(fù)率等計(jì)算指標(biāo)上超過能量函數(shù)方法。但截至目前已正式發(fā)表的工作中,對相關(guān)方法的實(shí)驗(yàn)驗(yàn)證結(jié)果遠(yuǎn)未達(dá)到能量函數(shù)方法的成功率。
劉海燕介紹,利用ABACUS-R進(jìn)行序列設(shè)計(jì)的方法由兩部分組成。
第一部分是一個(gè)多任務(wù)預(yù)訓(xùn)練的編碼-解碼器網(wǎng)絡(luò),用于對單個(gè)氨基酸的結(jié)構(gòu)和化學(xué)環(huán)境進(jìn)行隱空間編碼,再解碼為包括中心殘基氨基酸類型在內(nèi)的多種真實(shí)特征;第二部分是把該編碼解碼網(wǎng)絡(luò)迭代應(yīng)用于目標(biāo)主鏈的每個(gè)氨基酸殘基,直到獲得最大程度自洽的全序列。
在理論驗(yàn)證的基礎(chǔ)上,團(tuán)隊(duì)嘗試了實(shí)驗(yàn)表征用ABACUS-R對3個(gè)天然主鏈結(jié)構(gòu)重新設(shè)計(jì)的57條序列,其中86%的序列(49條)可溶表達(dá)并能折疊為穩(wěn)定單體。實(shí)驗(yàn)解析的5個(gè)高分辨晶體結(jié)構(gòu)與目標(biāo)結(jié)構(gòu)高度一致。此外,與此前報(bào)道的從頭設(shè)計(jì)蛋白相似,ABACUS-R從頭設(shè)計(jì)的蛋白表現(xiàn)出超高熱穩(wěn)定性,去折疊溫度大多可達(dá)100℃以上。
總的來說,相較于ABACUS模型,ABACUS-R序列設(shè)計(jì)更高的成功率和結(jié)構(gòu)精度進(jìn)一步增強(qiáng)了數(shù)據(jù)驅(qū)動(dòng)蛋白質(zhì)從頭設(shè)計(jì)方法的實(shí)用性。ABACUS-R還提供了一種對蛋白質(zhì)局部結(jié)構(gòu)信息的預(yù)訓(xùn)練表示方式,可用于序列設(shè)計(jì)以外的其他任務(wù)。
審稿人認(rèn)為,該研究“最新穎的貢獻(xiàn)在于對設(shè)計(jì)的充分實(shí)驗(yàn)表征,包括晶體結(jié)構(gòu),以及可溶表達(dá)的高成功率。”