人工智能幫助揭開海洋和我們腸道中病毒的奧秘
病毒是微生物生態(tài)系統(tǒng)中一種神秘且知之甚少的力量。研究人員知道,它們可以感染、殺死和操縱人類和細(xì)菌細(xì)胞幾乎每個環(huán)境,從海洋到你的腸道。
但科學(xué)家們還沒有全面了解病毒如何影響周圍的環(huán)境,這在很大程度上是因為它們具有非凡的多樣性和快速進化的能力.
微生物群落很難在實驗室環(huán)境中進行研究。許多微生物的培養(yǎng)具有挑戰(zhàn)性,它們的自然環(huán)境已經(jīng)更多功能影響他們的成功或失敗比科學(xué)家在實驗室中可以復(fù)制的要多。
所以像我這樣的系統(tǒng)生物學(xué)家通常對樣本中存在的所有 DNA 進行測序——例如,來自患者的糞便樣本——分離出病毒DNA序列然后批注各部分編碼蛋白質(zhì)的病毒基因組。
這些關(guān)于基因的位置、結(jié)構(gòu)和其他特征的注釋有助于研究人員了解病毒在環(huán)境中可能執(zhí)行的功能,并幫助識別不同種類的病毒。
研究人員通過將樣本中的病毒序列與先前注釋的序列進行匹配來注釋病毒公共數(shù)據(jù)庫病毒基因序列.
然而,科學(xué)家們正在鑒定從環(huán)境中收集的DNA中的病毒序列遠(yuǎn)遠(yuǎn)超過的速度我們注釋這些基因的能力。這意味著研究人員正在使用不可接受的一小部分可用數(shù)據(jù)來發(fā)表有關(guān)微生物生態(tài)系統(tǒng)中病毒的發(fā)現(xiàn)。
為了提高研究人員在全球范圍內(nèi)研究病毒的能力,我和我的團隊已經(jīng)開發(fā)了一種新穎的方法使用以下方法注釋病毒序列人工智能.
通過類似于 ChatGPT 等大型語言模型但特定于蛋白質(zhì)的蛋白質(zhì)語言模型,我們能夠?qū)σ郧翱床灰姷牟《拘蛄羞M行分類。這為研究人員打開了大門,不僅可以更多地了解病毒,還可以解決當(dāng)前技術(shù)難以回答的生物學(xué)問題
使用 AI 注釋病毒
大型語言模型使用大型文本數(shù)據(jù)集中單詞之間的關(guān)系,為未明確“教”出答案的問題提供潛在答案。
例如,當(dāng)你問聊天機器人“法國的首都是什么?”時,該模型不會在首都城市表中查找答案。相反,它正在利用其對大量文件和信息數(shù)據(jù)集的訓(xùn)練來推斷答案:“法國的首都是巴黎。
同樣地蛋白質(zhì)語言模型是經(jīng)過訓(xùn)練的人工智能算法,可以識別來自世界各地環(huán)境的數(shù)十億個蛋白質(zhì)序列之間的關(guān)系。通過這種訓(xùn)練,他們可能能夠推斷出一些關(guān)于病毒蛋白的本質(zhì)及其功能的信息。
我們想知道蛋白質(zhì)語言模型是否可以回答這個問題:“給定所有注釋的病毒基因序列,這個新序列的功能是什么?
在我們的概念驗證,我們在預(yù)先訓(xùn)練的蛋白質(zhì)語言模型中對先前注釋的病毒蛋白序列進行神經(jīng)網(wǎng)絡(luò)訓(xùn)練,然后使用它們來預(yù)測新病毒蛋白序列的注釋。
我們的方法使我們能夠探測模型在導(dǎo)致特定注釋的特定病毒序列中“看到”的內(nèi)容。這有助于根據(jù)它們的特定功能或它們的基因組排列方式來識別感興趣的候選蛋白質(zhì),從而篩選出大量數(shù)據(jù)集的搜索空間。
通過識別更遠(yuǎn)相關(guān)的病毒基因功能,蛋白質(zhì)語言模型可以補充當(dāng)前的方法,為微生物學(xué)提供新的見解。
例如,我和我的團隊能夠使用我們的模型來發(fā)現(xiàn)一個以前未識別的整合酶– 一種可以將遺傳信息移入和移出細(xì)胞的蛋白質(zhì) – 在全球豐富的海洋皮藍(lán)藻中原綠球菌和聚球菌.
值得注意的是,這種整合酶可能能夠?qū)⒒蛞迫牒鸵瞥龊Q笾械倪@些細(xì)菌種群,并使這些微生物能夠更好地適應(yīng)不斷變化的環(huán)境。
我們的語言模型還識別了一個新型病毒衣殼蛋白這在全球海洋中很普遍。我們制作了第一張關(guān)于其基因如何排列的圖片,表明它可以包含不同的基因集,我們認(rèn)為這些基因表明了這一點病毒在其環(huán)境中提供不同的功能。
這些初步發(fā)現(xiàn)僅代表了我們方法提供的數(shù)千個注釋中的兩個。
分析未知
大多數(shù)數(shù)以百計數(shù)以千計新發(fā)現(xiàn)病毒仍然存在未分類.許多病毒基因序列與功能未知或以前從未見過的蛋白質(zhì)家族相匹配。我們的研究表明,類似的蛋白質(zhì)語言模型可以幫助研究我們星球上許多未表征的病毒的威脅和前景。
雖然我們的研究集中在全球海洋中的病毒上,但改進病毒蛋白的注釋對于更好地了解病毒在人體健康和疾病中的作用至關(guān)重要。
我們和其他研究人員假設(shè)病毒在人類腸道微生物組中的活性可能會被更改當(dāng)你生病時。這意味著病毒可能有助于識別微生物群落中的壓力。
然而,我們的方法也有局限性,因為它需要高質(zhì)量的注釋。研究人員正在開發(fā)更新的蛋白質(zhì)語言模型,將其他“任務(wù)”作為訓(xùn)練的一部分,特別是預(yù)測蛋白質(zhì)結(jié)構(gòu)以檢測相似的蛋白質(zhì),以使它們更強大。
使所有 AI 工具都可通過以下方式使用FAIR數(shù)據(jù)原則- 可查找、可訪問、可互操作和可重復(fù)使用的數(shù)據(jù) - 可以幫助廣大研究人員意識到這些注釋蛋白質(zhì)序列的新方法的潛力,從而帶來有益于人類健康的發(fā)現(xiàn)。
利布莎·凱利,系統(tǒng)與計算生物學(xué)、微生物學(xué)和免疫學(xué)副教授,阿爾伯特愛因斯坦醫(yī)學(xué)院
湖北農(nóng)機化
農(nóng)業(yè)基礎(chǔ)科學(xué) - 省級期刊
文物鑒定與鑒賞
合作期刊 - 省級期刊
語文天地
合作期刊 - 省級期刊
通信技術(shù)
合作期刊 - 國家級期刊
大觀
中國語言文字 - 省級期刊
河南農(nóng)業(yè)
農(nóng)業(yè)綜合 - 省級期刊
運輸經(jīng)理世界
交通運輸經(jīng)濟 - 國家級期刊
中國商論
合作期刊 - 國家級期刊
山西化工
一般化學(xué)工業(yè) - 省級期刊
化工中間體
合作期刊 - 國家級期刊
現(xiàn)代農(nóng)業(yè)研究
農(nóng)業(yè)綜合 - 省級期刊