模型學(xué)習(xí)單個(gè)氨基酸如何決定蛋白質(zhì)功能
來自麻省理工學(xué)院研究人員的機(jī)器學(xué)習(xí)模型計(jì)算地分解了氨基酸鏈段如何決定蛋白質(zhì)的功能,這可以幫助研究人員設(shè)計(jì)和測(cè)試用于藥物開發(fā)或生物研究的新蛋白質(zhì)。
蛋白質(zhì)是氨基酸的線性鏈,通過肽鍵連接,折疊成極其復(fù)雜的三維結(jié)構(gòu),這取決于鏈內(nèi)的序列和物理相互作用。反過來,這種結(jié)構(gòu)決定了蛋白質(zhì)的生物學(xué)功能。因此,了解蛋白質(zhì)的三維結(jié)構(gòu)對(duì)于預(yù)測(cè)蛋白質(zhì)如何對(duì)某些藥物產(chǎn)生反應(yīng)是有價(jià)值的。
然而,盡管經(jīng)過數(shù)十年的研究和多種成像技術(shù)的發(fā)展,我們只知道很少一部分可能的蛋白質(zhì)結(jié)構(gòu) - 數(shù)以萬計(jì)的成千上萬。研究人員開始使用機(jī)器學(xué)習(xí)模型根據(jù)氨基酸序列預(yù)測(cè)蛋白質(zhì)結(jié)構(gòu),這可以發(fā)現(xiàn)新的蛋白質(zhì)結(jié)構(gòu)。但是,這是具有挑戰(zhàn)性的,因?yàn)椴煌陌被嵝蛄锌梢孕纬煞浅O嗨频慕Y(jié)構(gòu)。并且沒有很多結(jié)構(gòu)可以訓(xùn)練模型。
在5月份的國(guó)際學(xué)習(xí)代表會(huì)議上發(fā)表的一篇論文中,麻省理工學(xué)院的研究人員開發(fā)了一種方法,用于“學(xué)習(xí)”蛋白質(zhì)序列中每個(gè)氨基酸位置的易于計(jì)算的表示,最初使用3-D 蛋白質(zhì)結(jié)構(gòu)作為培訓(xùn)指南。然后,研究人員可以使用這些表示作為輸入,幫助機(jī)器學(xué)習(xí)模型預(yù)測(cè)單個(gè)氨基酸片段的功能 - 而無需再次需要蛋白質(zhì)結(jié)構(gòu)的任何數(shù)據(jù)。
將來,該模型可用于改進(jìn)蛋白質(zhì)工程,為研究人員提供更好地歸零和修飾特定氨基酸片段的機(jī)會(huì)。該模型甚至可能引導(dǎo)研究人員完全脫離蛋白質(zhì)結(jié)構(gòu)預(yù)測(cè)。
“我希望將結(jié)構(gòu)邊緣化,”第一作者Tristan Bepler說,他是計(jì)算機(jī)科學(xué)與人工智能實(shí)驗(yàn)室(CSAIL)計(jì)算與生物學(xué)研究組的研究生。“我們想知道蛋白質(zhì)的作用,知道結(jié)構(gòu)對(duì)此非常重要。但是,我們能預(yù)測(cè)蛋白質(zhì)的功能只能給出它的氨基酸序列嗎?動(dòng)機(jī)是遠(yuǎn)離專門預(yù)測(cè)結(jié)構(gòu),轉(zhuǎn)向[發(fā)現(xiàn)]氨基酸序列如何與功能相關(guān)。“
加入Bepler的是共同作者Bonnie Berger,麻省理工學(xué)院Simons數(shù)學(xué)教授,電氣工程和計(jì)算機(jī)科學(xué)系的聯(lián)合教員,以及計(jì)算和生物學(xué)組的負(fù)責(zé)人。
從結(jié)構(gòu)中學(xué)習(xí)
研究人員將預(yù)測(cè)的蛋白質(zhì)結(jié)構(gòu)信息直接編碼為表示,而不是像傳統(tǒng)模型那樣直接預(yù)測(cè)結(jié)構(gòu)。為此,他們使用已知的蛋白質(zhì)結(jié)構(gòu)相似性來監(jiān)督他們的模型,因?yàn)樵撃P蛯W(xué)習(xí)了特定氨基酸的功能。
他們根據(jù)蛋白質(zhì)結(jié)構(gòu)分類(SCOP)數(shù)據(jù)庫對(duì)大約22,000種蛋白質(zhì)進(jìn)行了模型訓(xùn)練,該數(shù)據(jù)庫包含數(shù)千種蛋白質(zhì),這些蛋白質(zhì)通過結(jié)構(gòu)和氨基酸序列的相似性組織成類別。對(duì)于每對(duì)蛋白質(zhì),他們計(jì)算了一個(gè)真實(shí)的相似性得分,這意味著它們?cè)诮Y(jié)構(gòu)上與它們的SCOP類別有多接近。
然后研究人員給他們的模型隨機(jī)配對(duì)的蛋白質(zhì)結(jié)構(gòu)及其氨基酸序列,它們被編碼器轉(zhuǎn)換成稱為嵌入的數(shù)字表示。在自然語言處理中,嵌入基本上是以對(duì)應(yīng)于句子中的字母或單詞的方式組合的數(shù)百個(gè)數(shù)字的表。兩個(gè)嵌入越相似,字母或單詞在句子中出現(xiàn)的可能性就越大。
在研究人員的工作中,每對(duì)嵌入包含有關(guān)每個(gè)氨基酸序列與另一個(gè)氨基酸序列有多相似的信息。該模型對(duì)齊兩個(gè)嵌入并計(jì)算相似性得分,然后預(yù)測(cè)其三維結(jié)構(gòu)的相似程度。然后,模型將其預(yù)測(cè)的相似性得分與其結(jié)構(gòu)的實(shí)際SCOP相似性得分進(jìn)行比較,并將反饋信號(hào)發(fā)送給編碼器。
同時(shí),該模型預(yù)測(cè)每個(gè)嵌入的“接觸圖”,其基本上表示每個(gè)氨基酸與蛋白質(zhì)預(yù)測(cè)的3-D結(jié)構(gòu)中的所有其他氨基酸相距多遠(yuǎn) - 基本上,它們是否接觸?該模型還將其預(yù)測(cè)的接觸圖與來自SCOP的已知接觸圖進(jìn)行比較,并將反饋信號(hào)發(fā)送到編碼器。這有助于模型更好地了解氨基酸在蛋白質(zhì)結(jié)構(gòu)中的確切位置,從而進(jìn)一步更新每種氨基酸的功能。
基本上,研究人員通過要求它預(yù)測(cè)配對(duì)序列嵌入是否將共享相似的SCOP蛋白結(jié)構(gòu)來訓(xùn)練他們的模型。如果模型的預(yù)測(cè)分?jǐn)?shù)接近真實(shí)分?jǐn)?shù),它就知道它在正確的軌道上; 如果沒有,它會(huì)調(diào)整。
蛋白質(zhì)設(shè)計(jì)
最后,對(duì)于一個(gè)輸入的氨基酸鏈,該模型將為3-D結(jié)構(gòu)中的每個(gè)氨基酸位置產(chǎn)生一個(gè)數(shù)值表示或嵌入。機(jī)器學(xué)習(xí)模型然后可以使用這些序列嵌入來基于其預(yù)測(cè)的3-D結(jié)構(gòu)“背景” - 位置和與其他氨基酸的接觸來準(zhǔn)確地預(yù)測(cè)每個(gè)氨基酸的功能。
例如,研究人員使用該模型預(yù)測(cè)哪些片段(如果有的話)通過細(xì)胞膜。鑒于只有一個(gè)氨基酸序列,研究人員的模型比最先進(jìn)的模型更準(zhǔn)確地預(yù)測(cè)所有跨膜和非跨膜片段。
“Bepler和Berger的工作在代表蛋白質(zhì)序列的局部結(jié)構(gòu)特性方面取得了重大進(jìn)展,”斯坦福大學(xué)計(jì)算機(jī)科學(xué)教授Serafim Batzoglou說。“使用最先進(jìn)的深度學(xué)習(xí)方法學(xué)習(xí)表示,這些方法在RaptorX和AlphaFold等系統(tǒng)中的蛋白質(zhì)結(jié)構(gòu)預(yù)測(cè)方面取得了重大進(jìn)展。這項(xiàng)工作最終應(yīng)用于人類健康和藥物基因組學(xué),因?yàn)樗兄跈z測(cè)破壞蛋白質(zhì)結(jié)構(gòu)的有害突變。“
接下來,研究人員的目標(biāo)是將該模型應(yīng)用于更多預(yù)測(cè)任務(wù),例如確定哪些序列片段與小分子結(jié)合,這對(duì)于藥物開發(fā)至關(guān)重要。他們還致力于將該模型用于蛋白質(zhì)設(shè)計(jì)。使用它們的序列嵌入,它們可以預(yù)測(cè)蛋白質(zhì)會(huì)發(fā)出什么顏色的波長(zhǎng)。
“我們的模型允許我們將信息從已知的蛋白質(zhì)結(jié)構(gòu)轉(zhuǎn)移到具有未知結(jié)構(gòu)的序列。使用我們的嵌入作為特征,我們可以更好地預(yù)測(cè)功能并實(shí)現(xiàn)更有效的數(shù)據(jù)驅(qū)動(dòng)蛋白質(zhì)設(shè)計(jì),”Bepler說。“在很高的層面上,這種類型的蛋白質(zhì)工程是目標(biāo)。”
Berger補(bǔ)充說:“我們的機(jī)器學(xué)習(xí)模型因此使我們能夠從相對(duì)較少的已知結(jié)構(gòu)中學(xué)習(xí)蛋白質(zhì)折疊的'語言' - 原始'圣杯'問題之一。”
推薦內(nèi)容
-
偷運(yùn)引發(fā)瑞麗疫情者被刑拘 因?yàn)檫@2個(gè)人封城大半個(gè)月
【偷運(yùn)引發(fā)瑞麗疫情者被刑拘,云南瑞麗警方通報(bào):兩名偷越國(guó)邊境人員組織偷渡引發(fā)瑞麗疫情,已被刑拘,這必須重判因?yàn)槟銉蓚€(gè)人封城大半個(gè)月
-
科普久對(duì)電腦4大食物要多吃及帶皮吃黑豆明顯改善貧血癥狀
說胡蘿卜則蘊(yùn)含了維他命A及多種類胡蘿卜素,乃維持眼睛健康之必需要素;在不少蔬果中都含有對(duì)眼睛有益的成分,長(zhǎng)期坐在電腦旁邊的你,不...
-
物理防曬霜比化學(xué)防曬霜效果好?真相? 真實(shí)情況是這樣
物理防曬霜比化學(xué)防曬霜效果好?真相? 真實(shí)情況是這樣全民自媒體時(shí)代,信息被大眾獲取的途徑多種多樣,但也出現(xiàn)了很多不實(shí)消息被誤傳的情
-
中融新大集團(tuán)現(xiàn)狀最新消息怎么樣了?中融新大集團(tuán)董事長(zhǎng)是誰資料
【導(dǎo)讀】你知道中融新大集團(tuán)有限公司嗎?據(jù)消息顯示,中融新大集團(tuán)有限公司,創(chuàng)立于2003年,是以能源化工、玻璃建材、礦產(chǎn)資源、物流清潔能
-
獨(dú)特的蛋白質(zhì)部分歸咎于蠕蟲的消化窘迫
與其他蛋白質(zhì)不同的蛋白質(zhì)似乎是造成地球上最常見動(dòng)物胃部紊亂的部分原因。萊斯大學(xué)對(duì)線蟲特有的奧賽病毒的研究結(jié)果表明,這種蠕蟲構(gòu)成...
-
孩子胖≠養(yǎng)得好別讓肥胖毀了孩子? 請(qǐng)檫亮眼睛
孩子胖≠養(yǎng)得好別讓肥胖毀了孩子? 請(qǐng)檫亮眼睛全民自媒體時(shí)代,訊息傳播效率飛速提高,但也出現(xiàn)了很多不實(shí)消息被誤傳的情況。所以在獲取信
-
申花終結(jié)亞冠16場(chǎng)不勝 上海申花的對(duì)手是誰
申花終結(jié)亞冠16場(chǎng)不勝 上海申花的對(duì)手是誰?想必大家對(duì)于申花這場(chǎng)比賽都是很關(guān)注的,畢竟已經(jīng)連續(xù)16場(chǎng)亞冠賽場(chǎng)沒有勝利了,這次終于終結(jié)了。
-
植物細(xì)胞壁的拉伸但不破裂的生長(zhǎng)比以前想象的更復(fù)雜
植物細(xì)胞壁生長(zhǎng)通常被描述為一個(gè)簡(jiǎn)單的過程,但研究人員使用能夠分辨納米尺度圖像的顯微鏡觀察到更復(fù)雜的東西。研究人員在最近的一項(xiàng)研...