記者今天從中國農(nóng)業(yè)科學院獲悉,該院生物技術(shù)研究所汪海博士與美國康奈爾大學愛德華?巴克勒院士團隊合作,開發(fā)出從基因組DNA序列預(yù)測基因表達調(diào)控模式的人工神經(jīng)網(wǎng)絡(luò)模型,該成果在分子育種領(lǐng)域的作用相當于谷歌的“AlphaGo”之于圍棋,為實現(xiàn)人工智能輔助定向育種奠定了基礎(chǔ)。
這一研究成果已于近日在線發(fā)表在《美國科學院院刊(PNAS)》上。
從蘋果的Siri到谷歌的AlphaGo,人工智能技術(shù)正在以席卷態(tài)勢進入公眾的視野與生活。不過汪海表示,人工智能技術(shù)在基因組學研究中尚未得到廣泛的應(yīng)用,其中的一個需要解決的難題就是,生物中具有許多序列高度相似性的基因家族,在訓(xùn)練神經(jīng)網(wǎng)絡(luò)模型時將基因隨機分配到訓(xùn)練集和測試集中,會導(dǎo)致該模型優(yōu)先學習DNA序列中跟基因家族或進化相關(guān)的基序,而不是真正決定基因表達調(diào)控的基序。
此次研究以基因家族代替單個基因為單位隨機分配訓(xùn)練集和測試集數(shù)據(jù),成功建立了預(yù)測二元化基因表達量的卷積神經(jīng)網(wǎng)絡(luò)模型;進一步利用多種算法進行解析,獲得了調(diào)控基因表達的關(guān)鍵DNA基序。在此模型基礎(chǔ)上,科研人員利用進化上親緣關(guān)系較近的兩個物種,成功預(yù)測了同源基因的相對表達量,并進一步獲得了調(diào)控同源基因相對表達量的關(guān)鍵DNA基序。
汪海研究團隊表示,該研究建立的深度學習模型在基礎(chǔ)理論研究和作物設(shè)計育種中具有廣泛的應(yīng)用前景。比如,未來可以在計算機中對基因組DNA序列進行虛擬誘變,并利用神經(jīng)網(wǎng)絡(luò)模型預(yù)測變異的后果,從中挑選符合預(yù)期目標的變異序列進行實驗驗證,從而實現(xiàn)低成本定點定向設(shè)計育種。