AI技術發現超16萬種RNA病毒 阿里雲聯合研究成果發表於國際期刊《Cell》

阿里雲聯合研究團隊採用基於深度學習的AI工具LucaProt找出高度差異的RNA病毒「暗物質」。

阿里雲聯合研究團隊採用基於深度學習的AI工具LucaProt找出高度差異的RNA病毒「暗物質」。

中山大學、阿里雲聯合悉尼大學、香港城市大學等多個院校及機構在國際頂級學術期刊《Cell》上發表最新科研成果,研究團隊利用人工智能(AI)技術發現超過16萬種RNA病毒,其中包括傳統研究方法未能識別的病毒「暗物質」。該研究推動病毒的發現,並提供了計算工具以更好地記錄全球RNA病毒群。

在病毒研究中,「暗物質」通常指那些與已知病毒有顯著不同的基因組特徵和功能,現有的病毒識別工具可能無法有效識別的病毒。揭示這些潛在病毒種類有助於更全面地理解病毒的多樣性和生態功能。

傳統的RNA病毒鑒定方法包括卷積神經網絡(CNNs)和遞歸神經網絡(RNNs)高度依賴於序列同源性比對,即通過比較未知病毒與已知病毒的序列相似性來進行識別。然而,RNA病毒種類繁多且高度分化,傳統方法難以捕捉那些缺乏同源性或同源性極低的「暗物質」病毒,因此難以突破已知框架的局限。

阿里雲聯合研究團隊採用基於深度學習Transformer架構的AI工具LucaProt,結合蛋白質序列和結構特徵,在測試數據集上表現優異,假陽性率僅為0.014%,假陰性率為1.72%。

LucaProt在測試數據集上表現優異,假陽性率僅為0.014%,假陰性率為1.72%。

LucaProt在測試數據集上表現優異,假陽性率僅為0.014%,假陰性率為1.72%。

「LucaProt的成功標誌著深度學習在病毒發現領域的重大突破,推動AI在微生物學的廣泛應用。未來,AI將成為重要工具,幫助我們預測病毒對人類的致病性,並為生物科學開闢新路,揭示更多病毒種類,」論文共同第一作者、阿里雲飛天實驗室算法專家賀勇表示,「這項研究是阿里雲與學術和研究機構合作,利用雲計算和AI推動生命科學創新的成果。」

LucaProt在來自全球不同生態系統的10,487個元轉錄物群(metatranscriptomes)中,找出高度差異的RNA病毒「暗物質」。使用該AI工具,研究團隊共發現161,979種潛在RNA病毒和180種RNA病毒超群,包括60個新發現的超群得到確認,以及23個超群無法通過序列同源方法識別,被稱為病毒「暗物質」。

「這項研究發現的新病毒種類數量是單項研究中最多的,極大地擴展了我們對與我們共存的病毒的了解,」論文合著者之一、悉尼大學醫學與健康學院的醫學科學系教授Edwards Holmes表示,「一次性發現這麼多新病毒,令人震驚,而這只是冰山一角,為我們打開一個發現的世界。還有數百萬計的病毒待被發現,我們可以將這種方法應用於識別細菌和寄生蟲。」

此外,研究發現了迄今為止最長的RNA病毒基因組之一,長度達到47,250個核苷酸。同時,研究還識別出超出以往認知的基因組結構,展示了RNA病毒基因組進化的靈活性。這些發現與多種功能性病毒蛋白的識別相輔相成,特別是與細菌相關的功能蛋白,進一步表明還有更多類型的RNA噬菌體亟待探索。

研究顯示全球RNA病毒的生態分布廣泛,許多新發現僅在單一生態系統中存在,部分病毒表現出對特定生態位的適應性。新發現的病毒主要來自於各種生態環境,包括熱液噴口(hydrothermal vents)、溫泉、鹽鹼灘、沉積物和活性污泥等極端環境。這些結果突顯了RNA病毒多樣性的巨大潛力,也為未來的環境取樣和病毒發現提供了重要依據。

立即訂閱阿里足跡,緊貼阿里巴巴集團最新發展動向,通過新聞故事及專題文章了解創新科技、電子商務及智能物流等新興議題的嶄新趨勢

阿里雲