近日,中國農(nóng)業(yè)科學(xué)院生物技術(shù)研究所農(nóng)業(yè)微生物蛋白設(shè)計與智造創(chuàng)新團隊與北京畜牧獸醫(yī)研究所微生物與酶工程創(chuàng)新團隊合作,開發(fā)了預(yù)訓(xùn)練蛋白語言大模型技術(shù)支撐的蛋白高表達預(yù)測與設(shè)計新策略。相關(guān)研究成果發(fā)表于《先進科學(xué)》( Advanced Science )。
高效的可溶性異源表達是酶蛋白轉(zhuǎn)化為酶產(chǎn)品的關(guān)鍵核心環(huán)節(jié)。傳統(tǒng)的蛋白表達策略包括更換表達宿主、表達載體或添加分子伴侶等。但這些策略不僅依賴研究人員的個人經(jīng)驗且需大量的實驗驗證。
該研究利用遷移學(xué)習(xí)理論,開發(fā)了國產(chǎn)化的預(yù)訓(xùn)練蛋白質(zhì)語言模型MP-TRANS,創(chuàng)新性地提出了氨基酸表達指數(shù)(AEI)和相對氨基酸偏好強度(SRAB)的概念,為蛋白質(zhì)表達提供了精確的量化工具。
該研究構(gòu)建了表達量預(yù)測模型MPB-EXP和突變體生成模型MPB-MUT。其中,MPB-EXP是目前支持最多表達宿主(88種)的預(yù)測模型,平均預(yù)測準(zhǔn)確率為0.78。
實驗驗證,木聚糖酶、纖維素酶及PET塑料降解酶在大腸桿菌中可溶性表達量均顯著提升。研究通過將蛋白質(zhì)語言大模型與基因表達深度融合,為高效創(chuàng)制高性能蛋白產(chǎn)品提供了新的思路與工具。
該研究得到國家重點研發(fā)計劃、國家自然科學(xué)基金、中國農(nóng)業(yè)科學(xué)院創(chuàng)新工程項目的資助。模型構(gòu)建過程中,得到河北人工智能計算中心提供的計算資源支持。
相關(guān)論文信息:https://doi.org/10.1002/advs.202407664