基于深度學習的模型DeepSpCas9預測SpCas9的活動
在一份關于科學進步的新報告中,大韓民國藥理學,電氣與計算機工程,醫(yī)學,納米醫(yī)學和生物信息學系的許權權和跨學科研究人員評估了SpCas9的活性;化膿性鏈球菌的一種細菌RNA引導的Cas9 核酸內(nèi)切酶變體(一種可切割DNA進行基因組編輯的細菌酶)。他們基于人類細胞文庫,使用了具有12,832個目標序列的高通量方法來構建深度學習模型并預測SpCas9的活性。
數(shù)據(jù)包含寡核苷酸(核苷酸或構件),該寡核苷酸包含靶序列對和相應的指導序列以編碼單指導RNA(sgRNA),該單指導RNA可以指導Cas9蛋白結合并切割特定的DNA序列以進行基因組編輯。他們在SpCas9誘導的indel (插入或缺失)頻率的大型數(shù)據(jù)集上實施了基于深度學習的訓練,以開發(fā)名為DeepSpCas9的SpCas9活動預測模型,該模型現(xiàn)已在線提供。當團隊針對獨立生成的數(shù)據(jù)集測試該軟件時,結果顯示出較高的泛化性能,即該模型可以適當?shù)剡m應以前看不見的新數(shù)據(jù)。
所述CRISPR-CAS原核適應性免疫系統(tǒng)用作基因組編輯用工具的轉化研究在多種物種和潛在的細胞類型,包括人細胞,其中所述容量準確地預測SpCas9酶的活性是很重要的。研究人員先前已經(jīng)開發(fā)了幾種計算模型,這些模型可以根據(jù)基因編輯細胞的表型變化數(shù)據(jù)集或基于中等大小的質粒數(shù)據(jù)庫(在細菌和其他細胞之間轉移基因的載體)的庫對庫方法來預測SpCas9的活性。。但是,由于數(shù)據(jù)集的質量和大小都不理想,因此這些模型的泛化性能受到限制。例如,模型預測的基因插入和缺失(indels)以創(chuàng)建功能性敲除模型(一種在實驗室中的實驗動物模型中使基因失活的方法)會導致假陰性。此外,這些SpCas9誘導的插入缺失頻率數(shù)據(jù)集也只是中等大小。
Kim等。此前曾報道,一個名為深學習型計算模型DeepCpf1預測不同的核酸內(nèi)切酶(從AsCpf1的活性氨基酸球菌種)具有較高的推廣性能。為此,他們使用了指導RNA編碼的慢病毒文庫,目標序列對來生成稱為DeepCpf1的大型訓練數(shù)據(jù)集。盡管使用類似的基于庫的方法來開發(fā)可預測 Cas9酶產(chǎn)生的插入缺失頻率的計算模型,但仍有大量Cas9誘導的頻率數(shù)據(jù)集尚待形成。
因此,科學家必須開發(fā)具有高泛化性能的Cas9活動預測計算模型。在這項工作中,金等人。通過修改之前開發(fā)的DeepCpf1方法以形成DeepSpCas9,生成了一個高通量模型來測試SpCas9誘導的成千上萬個靶序列的插入缺失頻率。DeepSpCas9 Web工具是基于深度學習的模型,可以以較高的泛化性能準確預測SpCas9的活動。
Kim等。首先準備了一個慢病毒(一個復雜的逆轉錄病毒亞家族,可以整合外源DNA)文庫,包含15656個指導RNA(gRNA)編碼和目標序列對,用于SpCas9活性的高通量評估。該研究小組使用聚合酶鏈反應(PCR)擴增了包含指導序列和靶序列對的寡核苷酸庫,并使用Gibson DNA組裝技術將它們克隆到慢病毒質粒(用于在細胞之間轉移遺傳物質的轉基因傳遞系統(tǒng))中。
研究人員采用兩步法切割質粒,并在切割位點插入sgRNA支架序列以生成質粒文庫。為了隨后形成細胞文庫,科學家用從質粒文庫產(chǎn)生的慢病毒處理了人類胚胎腎細胞(HEK 293T)?,F(xiàn)在,每個細胞在其基因組中都包含一個合成靶序列,并表達了相應的sgRNA。然后,科學家用編碼SpCas9的慢病毒處理細胞文庫,從而在靶序列上引起sgRNA定向的切割和插入缺失形成,其頻率取決于sgRNA的活性。為了測量插入缺失的頻率,科學家對目標序列進行了PCR擴增,并對其進行了深度測序?;诟咄繉嶒?,Kim等人。生成了兩個數(shù)據(jù)集,用于訓練和測試DeepSpCas9模型。
科學家在具有不同染色質可及性(染色質結構修飾對基因轉錄的影響)的124個內(nèi)源靶位點上選擇了SpCas9活性,以測試整合的合成靶序列的插入缺失頻率是否與相應內(nèi)源位點的插入缺失頻率相關。他們觀察到根深蒂固的靶位點和HEK細胞內(nèi)源性位點的插入缺失頻率之間存在很強的相關性。
研究團隊接下來開發(fā)了一個精確的計算模型,以使用端到端深度學習框架形成DeepSpCas9并預測SpCas9的活動來預測大型數(shù)據(jù)集上的SpCas9的活動。對于基本模型架構,他們使用了卷積神經(jīng)網(wǎng)絡(CNN,類似于普通神經(jīng)網(wǎng)絡),對于輸入序列,他們使用了30個核苷酸的序列,并使用一鍵編碼將其轉換為二維二進制矩陣(將包含數(shù)字分類數(shù)據(jù)的列拆分為許多列)。為了了解模型選擇和訓練的通用性能,該團隊使用Spearman相關性進行了10倍交叉驗證 實驗測量值與預測的Cas9活性水平之間的系數(shù)。
當他們增加用于交叉驗證的訓練數(shù)據(jù)集的大小時,實驗indel頻率和DeepSpCas9模型的預測分數(shù)之間的平均Spearman相關系數(shù)穩(wěn)步增加到0.77。與以前用于SpCas9活動預測的傳統(tǒng)機器學習算法(如支持向量機(SVM),AdaBoost(自適應提升),隨機森林和梯度增強回歸樹)相比,DeepSpCas9模型的Spearman相關性明顯更高??傮w而言,DeepSpCas9在所有型號中均表現(xiàn)出最佳性能。
在以前的工作中,Kim等人??紤]了染色質可及性信息,以改善對內(nèi)源性靶位點AsCpf1酶活性的預測。他們試圖確定這些考慮因素是否還會改善SpCas9的活動預測。結果表明,與他們以前使用AsCpf1所做的努力相比,利用染色質可訪問性信息進行的微調僅能提高DeepSpCas9預測內(nèi)源位點插入缺失頻率的準確性。因此,與先前開發(fā)的DeepCpf1算法形成鮮明對比的是,染色質可訪問性僅對SpCas9活性產(chǎn)生了輕微影響。
為了了解DeepSpCas9的泛化性能,研究小組使用了足夠大的,已發(fā)布的,來自各種研究的數(shù)據(jù)集作為測試數(shù)據(jù),對該模型進行了測試。他們將結果與其他SpCas9活動預測程序(例如DeepCRISPR)的結果進行了比較。結果表明,在用于預測SpCas9活性的9個已發(fā)布模型中,DeepSpCas9保持最高的泛化功能。這樣,Hui Kwon Kim和研究團隊使用DeepSpCas9網(wǎng)絡工具(現(xiàn)已在線提供,連同補充代碼)廣泛驗證了準確預測SpCas9活動的潛力。提供給研究科學家將DeepSpCas9整合到現(xiàn)有模型中。基于DeepSpCas9的高泛化性能,研究團隊希望能夠提高基于SpCas9的基因組編輯的準確性。
推薦內(nèi)容
-
新方法可監(jiān)控CAR T細胞
2019年2月20日消息,—嵌合抗原受體-T(Chimeric Antigen Receptor-T,CAR-T)細胞療法已經(jīng)在血液瘤病人身上產(chǎn)生了顯著的療效。但是這個領
-
研究人員揭示了癌癥治療關鍵分子靶標的三維結構
哥倫比亞大學的科學家們與Nimbus Therapeutics的研究人員合作,揭開了一種代謝酶的神秘面紗,這種酶可能成為癌癥治療的下一個主要分子靶點
-
FDA局長Scott Gottlieb宣布退休
據(jù)FiercePharma報道,在管理FDA不到兩年后,Scott Gottlieb正在辦理辭職。他的突然離職可能會給生物制藥行業(yè)帶來沖擊,因為Scott Gottlie
-
研究將染色體區(qū)域的大量拷貝與化學治療藥物抗性聯(lián)系起來
貝爾維特生物醫(yī)學研究所(IDIBELL)的研究人員,貝勒醫(yī)學院(休斯頓)和阿斯圖里亞斯大學腫瘤學研究所(IUOPA)的合作者今天在癌癥研究中發(fā)表了一
-
科學家呼吁對環(huán)境基因編輯進行仔細監(jiān)督
在布基納法索,政府正在考慮使用轉基因蚊子來消滅瘧疾。在馬薩諸塞州的楠塔基特,官員們正在將基因編輯作為抗擊萊姆病的工具。科學家正...
-
聯(lián)合治療顯示出移植HCV感染器官的希望
數(shù)據(jù)從一個新的研究肝臟提交本周會議?- guardarado協(xié)會美國肝臟感染科研究發(fā)現(xiàn),結合抗病毒治療(斯)ezetimibe─的直接行動的膽固醇的藥...
-
數(shù)字醫(yī)療基金以193筆交易中的$ 3.4B刷新了H1記錄
根據(jù)Rock Health的最新報告,數(shù)字醫(yī)療資金在2018年上半年繼續(xù)打破紀錄,達到193個交易的34億美元,創(chuàng)六個月新高。持續(xù)的增長體現(xiàn)了數(shù)字醫(yī)
-
哺乳動物與4億年前的魚共享控制心臟的機制
根據(jù)一項新的研究,原始的空氣呼吸魚,其直接祖先最早出現(xiàn)在4億年前,顯示出控制心臟的機制,這種機制以前被認為只在哺乳動物中發(fā)現(xiàn)。哺乳
-
發(fā)現(xiàn)了基因調控蛋白的新功能
瑞典Umeå和斯德哥爾摩大學以及美國約翰霍普金斯大學醫(yī)學院的研究人員在Molecular Cell雜志上發(fā)表了一項新研究。他們展示了蛋白質CBP
-
研究發(fā)現(xiàn)噬菌體可以對腸道微生物組的動態(tài)產(chǎn)生深遠的影響
腸道微生物組是一個復雜的,相互關聯(lián)的物種生態(tài)系統(tǒng)。而且,像任何生態(tài)系統(tǒng)一樣,有些生物是捕食者,有些是獵物。由布里格姆婦女醫(yī)院和Wyss