如何利用大數(shù)據(jù)捕獲魚類基因組
如果你在美國吃魚,很可能曾經(jīng)在另一個國家游過魚。據(jù)聯(lián)合國估計,這是因為美國進口的海鮮超過80%。新的基因研究可以幫助養(yǎng)殖魚類更加美味,并將美國的野生魚類帶到餐桌上??茖W家利用大數(shù)據(jù)和超級計算機捕獲魚類基因組,這是其可持續(xù)水產(chǎn)養(yǎng)殖收獲的第一步。
研究人員首次匯集并注釋了基因組 - 魚類物種Seriola dorsalis的總遺傳物質(zhì)。也被稱為加利福尼亞黃尾魚,它是生魚片或生海鮮產(chǎn)業(yè)的高價值的魚。該科學團隊由美國國家海洋漁業(yè)局西南漁業(yè)科學中心,愛荷華州立大學和墨西哥國家政治研究所組成。他們于2018年1月在BMC Genomics期刊上發(fā)表了他們的研究結(jié)果。
該研究的共同作者,基因組信息學科學家和設(shè)施經(jīng)理Andrew Severin說:“該出版物的主要發(fā)現(xiàn)是對Seriola dorsalis基因組及其注釋進行描述,同時更好地了解這種魚類的性別決定。”愛荷華州立大學的設(shè)施。
“我們現(xiàn)在可以自信地說,”Severin補充說,“Seriola dorsalis有一個ZW性別決定系統(tǒng),我們知道它所包含的染色體以及實際決定這種魚性別的區(qū)域。”ZW是指性染色體,取決于雄性或雌性是否是雜合的(XX,XY或ZZ,ZW)。另一種思考方式是,在ZW性別測定中,魚卵的DNA分子決定了后代的性別。相比之下,在XY性別決定系統(tǒng)中,這種情況在人類中發(fā)現(xiàn),精子決定了后代的性別。
很難區(qū)分雄性和雌性黃尾魚,因為它們沒有任何明顯的表型或外在物理特征。“能夠確定魚類的性別非常重要,因為我們可以開發(fā)出一種標記物,可以用來確定幼魚的性別,而這種標記是你無法用表型確定的,”Severin解釋道。“這可以用來改善水產(chǎn)養(yǎng)殖實踐。”性別鑒定可以讓養(yǎng)殖漁民儲備適當比例的雄性和雌性,并獲得更好的產(chǎn)量。
組裝和注釋基因組就像構(gòu)建一個巨大的三維拼圖游戲。Seriola dorsalis基因組有6.85億個片段 - 它們的DNA堿基對 - 組合在一起。“基因注釋是基因組上編碼轉(zhuǎn)錄成蛋白質(zhì)的轉(zhuǎn)錄本的位置,”Severin解釋道。“蛋白質(zhì)是從食物消化到免疫系統(tǒng)激活到指甲生長的全身生物化學運作的分子機制。即使這是對所有規(guī)則的過度簡化。”
Severin和他的團隊匯集了來自數(shù)千個較小片段的685兆堿基(MB)對的基因組,每個片段都提供信息以形成完整的圖像。研究報告的共同作者Arun Seetharam說:“為了構(gòu)建完整的685 MB基因組,我們必須對它們進行相當深度的測序。”“這相當于大量的數(shù)據(jù),”愛荷華州立大學基因組信息學設(shè)施的副科學家Seetharam補充說。
原始DNA序列數(shù)據(jù)為Seriola dorsalis基因組的500千兆字節(jié),來自圣地亞哥Hubbs海洋世界研究所收集的幼魚的組織樣本。“為了將它們組合在一起,”Seetharam說,“我們需要一臺具有更多RAM的計算機將其全部放入計算機的內(nèi)存中,然后將它們組合在一起構(gòu)建685 MB的基因組。我們需要非常強大的機器。”
當Seetharam意識到當時愛荷華州立大學的計算資源不足以及時完成工作時,他轉(zhuǎn)向XSEDE,這是由美國國家科學基金會資助的極限科學和工程發(fā)現(xiàn)環(huán)境。XSEDE是一個單一的虛擬系統(tǒng),科學家可以使用它來交互式共享計算資源,數(shù)據(jù)和專業(yè)知識。
“當我們第一次開始使用XSEDE資源時,”Seetharam解釋道,“我們可以選擇ECSS,即擴展協(xié)作支持服務(wù)。我們認為如果有來自XSEDE的人幫助我們,這將是一個很大的幫助。我們選擇了ECSS。我們與匹茲堡超級計算中心的Phillip Blood的互動對于讓我們在XSEDE資源上快速啟動和運行組件非常重要,“Seetharam說。
該基因組組裝在匹茲堡超級計算中心(PSC)的Blacklight系統(tǒng)上計算了工作量,該系統(tǒng)曾經(jīng)是世界上最大的連貫共享內(nèi)存計算系統(tǒng)。此后,Blacklight已被PSC的以數(shù)據(jù)為中心的Bridges系統(tǒng)取代,該系統(tǒng)包括類似的大型內(nèi)存節(jié)點,最高可達12TB,是典型個人計算機的千兆倍。“當時我們最終使用了Blacklight,因為它有很多RAM,”Andrew Severin回憶道。那是因為他們需要將所有原始數(shù)據(jù)放入計算機的隨機存取存儲器(RAM)中,以便它可以使用Maryland Super-Read Celera Assembler基因組裝配軟件的算法。“你必須能夠?qū)⒚恳粋€序列數(shù)據(jù)與每個其他部分進行比較,以確定哪些部分需要連接在一起,
“我們還使用了Stampede,”Severin繼續(xù)說道,“第一個Stampede,它是另一個擁有大量計算節(jié)點的XSEDE計算資源。每個計算節(jié)點都可以看作是一臺獨立的計算機。”Texas Advanced的Stampede1系統(tǒng)計算中心擁有超過6,400個戴爾PowerEdge服務(wù)器節(jié)點,后來又添加了508個英特爾Knights Landing(KNL)節(jié)點,為其目前的繼任者Stampede2準備了4,200個KNL節(jié)點。
“我們使用Stampede對我們在基因組中發(fā)現(xiàn)的這些基因模型進行了注釋,試圖弄清楚它們的功能是什么,”Severin說。“這要求我們執(zhí)行稱為基本局部對齊搜索工具(BLAST)的分析,并且它要求我們使用許多CPU,超過一年的計算時間,我們最終在幾周的實際時間內(nèi)完成,因為在Stampede上有很多節(jié)點。“
“這項實驗始于與NOAA西南漁業(yè)科學中心的合作,”Severin解釋道。他說,該項目最初計劃完成一個大型的RNA-seq項目,結(jié)果發(fā)現(xiàn)有足夠的資金來進行基因組裝配。“這導致了與西南漁業(yè)科學中心的長期合作,”Severin說。“隨著高通量DNA測序的最新進展,我們現(xiàn)在能夠生成數(shù)TB的測序數(shù)據(jù)。這往往很短,100-150堿基對讀數(shù),我們必須將它們放在一起,就像一個非常大的謎題并弄清楚所有的作品都去了,“他補充道。
Severin和Seetharam的團隊完成了Seriola dorsalis基因組的基本圖片,但是他們說還有改進的空間。“我們組裝的基因組并不完美,因為它仍然存在許多碎片。我們無法完全拼湊整個染色體,”Seetharam解釋道。“我們有許多代表每條染色體的支架,我們?nèi)鄙偬钛a空白所需的大量信息。”Seetharam說,測序技術(shù)的進步可以解決這些差距,通過可以產(chǎn)生更長DNA讀取的測序技術(shù)的進步。
“我們也在論文中假設(shè),”Severin說,“這種缺失位于將雌酮轉(zhuǎn)化為雌激素的基因的上游,這是性決定途徑的一部分。這可能是性別決定的原因。但由于它只是一個假設(shè)基于計算方法,這需要在實驗室進一步研究。我們當然可以通過類似CRISPR的實驗來測試這種突變。“
Severin還提到了用于更大的全基因組關(guān)聯(lián)研究實驗的數(shù)據(jù)收集,以找到與頜畸形相關(guān)的基因組中的位置和變體。“我們目前正在收集這些樣本,”Severin說,“但我們將能夠利用該基因組為農(nóng)民提供標記,以選擇對抗下頜畸形這些傾向的魚類。”
Severin和Seetharam都堅信大數(shù)據(jù)可以解決可持續(xù)糧食生產(chǎn)中的問題。“我相信公眾將會看到更多這種大數(shù)據(jù)的利用,并了解為什么科學對我們的未來如此重要,”Severin說。他認為,基因注釋只是冰山一角。“我們將開始比較基因組裝配,開始了解基因組是什么以及它是如何工作的;以及特定基因組如何確定基因的存在與否或其三維結(jié)構(gòu)的背景,這是如何成為一個物種,“塞弗林說。
“大數(shù)據(jù)不斷變大,我們正在尋找真正有趣問題的答案。”塞弗林總結(jié)道。Seetharam補充說:“將有更多的研究使用對公眾具有重大影響的大數(shù)據(jù)。這一級別的研究將在未來促進更大規(guī)模的研究。”
這項研究“對Seriola dorsalis基因組裝配的硬骨魚性別測定的見解”于2018年1月發(fā)表在BMC Genomics期刊上。
推薦內(nèi)容
-
水果越酸含維生素C越高?大家都想知道
相信很多人都被“誤導”過。因為現(xiàn)在的網(wǎng)絡(luò)信息非常豐富和更新迅速,還沒等我們了解事情的詳情,下一秒就又反轉(zhuǎn)了。所以大家在獲取信息...
-
討厭別人看我這是什么心理
現(xiàn)在的人們越來越物質(zhì)化了,什么都要攀比,其實生活是自己的,過得開不開心只有自己知道。有時候我們真的不需要在意別人的眼光,做自己...
-
肺癌的治療方法可能支持疾病的進展
表觀遺傳調(diào)控因子可以調(diào)節(jié)基因的開啟和關(guān)閉,這是一種具有吸引力的抗癌靶點,但這種策略在體內(nèi)是否有效尚未得到證實。對小鼠的研究由波...
-
團隊發(fā)現(xiàn)了描述由傳染因子引起的營養(yǎng)級聯(lián)的新范例
當灰狼重新引入黃石國家公園時,它們引發(fā)了白楊樹的復(fù)活。年輕的白楊樹已經(jīng)被摧毀,幾乎消失了,麋鹿的禮貌,在所謂的營養(yǎng)級聯(lián) - 一個生
-
北京市科協(xié)、北京市網(wǎng)信辦等單位發(fā)布8月“科學”流言榜? 還真不
北京市科協(xié)、北京市網(wǎng)信辦等單位發(fā)布8月“科學”流言榜? 還真不一定!信息時代的來臨,信息被大眾獲取的途徑多種多樣,但也出現(xiàn)了很多...
-
新疆首例!
新疆首例! 來 源 :石榴云 新疆日報“這種瓣膜的柔韌性更強,比較適合中老年主動脈瓣膜狹窄患者,哪怕只有4—6毫米,也不影響