基因組分析的答案可能在云端
隨著NexGen測序儀以創(chuàng)紀(jì)錄的數(shù)量生成廉價(jià)的DNA數(shù)據(jù),基因組學(xué)研究人員一直在“云九”。除了一件事:從基因機(jī)器中涌出的數(shù)據(jù)正在淹沒計(jì)算機(jī)基礎(chǔ)設(shè)施 - 從最小的RO1實(shí)驗(yàn)室到最大的測序中心。
例如,國際1000基因組項(xiàng)目迄今為止產(chǎn)生的數(shù)據(jù)集,使用NexGen建立最詳細(xì)的人類遺傳變異目錄的努力,達(dá)到50TB。這是50,000,000,000,000字節(jié)的數(shù)據(jù)。由于計(jì)算機(jī)網(wǎng)絡(luò)通常以每秒1千兆位的速度運(yùn)行(一個(gè)字節(jié)中有8位),下載1000 Genome Project數(shù)據(jù)集需要4.6天以上 - 而且只有實(shí)驗(yàn)室的硬盤陣列足夠容納這一切。
然而,解決方案可能在云端 - 計(jì)算機(jī)云,即。云計(jì)算是一種空靈的,短暫的概念,依賴于互聯(lián)網(wǎng)利用的計(jì)算機(jī)網(wǎng)絡(luò)來咀嚼特定的計(jì)算問題。而這些云似乎有一線希望,這就是微軟,谷歌甚至亞馬遜等重量級(jí)企業(yè)開始提供云計(jì)算服務(wù)的原因。對(duì)于研究人員來說,這可能是一種經(jīng)濟(jì)有效的解決方案
為了找到答案,國家人類基因組研究所(NHGRI)最近舉辦了一個(gè)研討會(huì),討論云計(jì)算能否清除一些可能會(huì)減緩基因組測序醫(yī)療保健進(jìn)展的數(shù)據(jù)瓶頸。從支付互聯(lián)網(wǎng)服務(wù)提供商提供的服務(wù)是否更便宜 - 而且更安全,特別是對(duì)于患者數(shù)據(jù) - 而不是在每個(gè)主要研究人員的實(shí)驗(yàn)室中反復(fù)支付獨(dú)立數(shù)據(jù)中心的費(fèi)用。
“毫無疑問,數(shù)據(jù)管理和分析已成為基因組科學(xué)的新瓶頸,”NHGRI信息學(xué)和計(jì)算生物學(xué)項(xiàng)目主任,云計(jì)算研討會(huì)組織者Vivien Bonazzi博士說。“美國國立衛(wèi)生研究院必須弄清楚如何支持其受助者不斷增長的計(jì)算需求 - 無論是為每個(gè)RO1實(shí)驗(yàn)室支付費(fèi)用來創(chuàng)建自己的數(shù)據(jù)中心 - 這可能是昂貴的 - 或者找到另一種方法。我們想開始思考關(guān)于云計(jì)算是否可以成為解決方案。“
大量先例表明它可能會(huì)。例如,家庭項(xiàng)目的SETI(參見:SETI @ HOME)在通過互聯(lián)網(wǎng)鏈接的閑置家用計(jì)算機(jī)上使用屏幕保護(hù)軟件來分析搜索外星生命(SETI)的射電望遠(yuǎn)鏡的數(shù)據(jù)。雖然SETI還沒有找到任何一個(gè)小綠人,但它在數(shù)千臺(tái)普通PC中創(chuàng)造了一臺(tái)超級(jí)計(jì)算機(jī)??梢韵胂?,云計(jì)算可以為基因組研究做類似的事情。
在過去的幾年里,像亞馬遜,谷歌,微軟和其他互聯(lián)網(wǎng)電力公司這樣的公司已經(jīng)開始提供云計(jì)算解決方案作為一種服務(wù),插入其強(qiáng)大而龐大的計(jì)算機(jī)服務(wù)器網(wǎng)絡(luò)。許多在線公司使用云服務(wù)來管理他們的應(yīng)用程序或庫存和訂購系統(tǒng)。任何在亞馬遜上訂購書籍或使用Twitter或Facebook等社交媒體網(wǎng)站的人都可以從云計(jì)算中受益。
作為一項(xiàng)合同服務(wù),云服務(wù)提供了一種靈活的模型,可以訪問并將數(shù)千臺(tái)計(jì)算機(jī)的功能集中在一個(gè)大型科學(xué)問題上,該問題可以在全球任何地點(diǎn)按需使用和支付。然而,云計(jì)算解決方案僅處于起步階段,因此仍存在挑戰(zhàn)。
美國麻省理工學(xué)院麻省理工學(xué)院和哈佛大學(xué)的副主任兼首席信息學(xué)官Jill Mesirov博士是NHGRI的大型測序中心之一,他描述了目前中心所面臨的計(jì)算問題的狀態(tài)。和基因組社區(qū)。“這是一個(gè)嚴(yán)重的問題,對(duì)我們來說只會(huì)變得更糟,”Mesirov博士說,他正在評(píng)估云計(jì)算,看看它對(duì)Broad有何幫助。
Broad Institute的基因組測序平臺(tái)目前每年從NexGen測序平臺(tái)產(chǎn)生大約2PB的數(shù)據(jù)。1 PB等于100萬GB。目前,該中心擁有大約5.8PB(即5,800,000,000,000,000字節(jié))的存儲(chǔ)空間。除了存儲(chǔ),Broad的計(jì)算基礎(chǔ)設(shè)施和員工必須協(xié)商不同類型的數(shù)據(jù)以及各種基因組分析軟件工具的集成,這些工具都需要Mesirov博士團(tuán)隊(duì)的創(chuàng)新。
她認(rèn)為云計(jì)算可以提供一種擴(kuò)展和支付可變計(jì)算需求的方法,并且可能提供經(jīng)常在大型團(tuán)隊(duì)中協(xié)作的基因組研究人員,這是一種在實(shí)驗(yàn)室,項(xiàng)目和機(jī)構(gòu)之間共享大型數(shù)據(jù)集的方法。“這可能是一些問題的答案,但不是其他問題,”梅西羅夫博士說,他認(rèn)為在生物醫(yī)學(xué)研究人員采用云計(jì)算之前需要清除許多障礙。
障礙包括將數(shù)據(jù)移動(dòng)到云端并返回,將自定義應(yīng)用程序上傳到云端,在云計(jì)算的低成本和維護(hù)數(shù)據(jù)控制之間進(jìn)行權(quán)衡,應(yīng)用程序互操作以及與生物相關(guān)的無數(shù)隱私和安全問題 - 尤其是患者 - 數(shù)據(jù)。
從私營部門,政府和學(xué)術(shù)界,有許多團(tuán)體正在努力克服這些問題并優(yōu)化云計(jì)算,以便為生物學(xué)和許多其他研究領(lǐng)域工作,從工程到監(jiān)測地球氣候。例如,微軟公司,華盛頓州雷蒙德市和美國國家科學(xué)基金會(huì)(NSF)聯(lián)合起來,讓NSF選擇的個(gè)體研究人員在未來三年內(nèi)免費(fèi)訪問微軟云平臺(tái)Windows Azure。谷歌和IBM已經(jīng)與NSF展開了類似的努力,推出了Cluster Exploratory(CluE)計(jì)劃,該計(jì)劃讓NSF資助的研究人員可以訪問Google-IBM集群。
根據(jù)微軟Extreme Computing Group云計(jì)算未來架構(gòu)師Roger Barga博士的說法,該公司一直試圖讓世界各地的研究人員和學(xué)術(shù)界人士了解如何組織研究人員社區(qū),并確定他們進(jìn)行研究所需的核心服務(wù)和產(chǎn)品。
當(dāng)然,基因組研究界不會(huì)等待答案,并開始積極地在云中進(jìn)行實(shí)驗(yàn)。在亞馬遜的彈性計(jì)算云(EC2)基礎(chǔ)上,一項(xiàng)名為Galaxy的努力結(jié)合了現(xiàn)有基因組注釋數(shù)據(jù)庫和簡單Web門戶的信息。
Galaxy由NHGRI,賓夕法尼亞州立大學(xué)和加州大學(xué)圣克魯茲分校的計(jì)算機(jī)科學(xué)和生物研究人員建造。目標(biāo)是使研究人員能夠搜索多個(gè)遠(yuǎn)程基因組資源,并結(jié)合來自許多查詢的數(shù)據(jù),從而產(chǎn)生序列和比對(duì)的視覺結(jié)果。Galaxy允許用戶保存他們的分析,以便于共享和集成來自其他分析的數(shù)據(jù)。
“未來還有很多有趣的時(shí)期,”BioTeam的創(chuàng)始合伙人兼技術(shù)總監(jiān)Chris Dagdigian表示,該公司向生命科學(xué)研究人員提供包括云計(jì)算在內(nèi)的技術(shù)解決方案。
Dagdigian在研討會(huì)上談到了云計(jì)算的一些技術(shù)挑戰(zhàn),提出了另一個(gè)觀點(diǎn):雖然云計(jì)算最終可能足以分析大型生物和基因組數(shù)據(jù)集,但目前這些云的當(dāng)前版本并非如此為生物學(xué)家而建。相反,他們正如Dagdigian所說,“主要是為Facebook和世界的Twitters而建。”
雖然DNA測序在未來幾年將繼續(xù)變得更便宜和更有效,但解釋信息所需的信息學(xué)工具和專業(yè)知識(shí)的開發(fā)卻是相反的 - 昂貴且難以實(shí)現(xiàn) - 包括云計(jì)算。
但是,正如NHGRI促進(jìn)了DNA測序的改進(jìn),該研究所將采用NHGRI云計(jì)算研討會(huì)上提供的信息,并將其提供給4月底舉行的更大的信息學(xué)會(huì)議,以決定如何最好地應(yīng)對(duì)信息學(xué)挑戰(zhàn)。基因組時(shí)代。兩個(gè)研討會(huì)的結(jié)果可能會(huì)納入NHGRI規(guī)劃過程,該過程旨在于年底前在主要科學(xué)出版物中公布基因組學(xué)領(lǐng)域的新愿景。
推薦內(nèi)容
-
心理知識(shí):30歲后面相靠自己
社會(huì)的發(fā)展越來越快,大家現(xiàn)在也慢慢開始關(guān)注一個(gè)人的心理健康。因?yàn)橥饨缡挛锏木薮笞兓?,很多人跟不上變化的腳步就會(huì)產(chǎn)生心理落差感從...
-
哈士奇智商很低?大家都想知道
當(dāng)我們不知道一件事真假的時(shí)候,不防多等等官方的回應(yīng)。因?yàn)樾畔⑺槠?,很多小伙伴現(xiàn)在上網(wǎng)很容易只看到事情的一面就下定論,其實(shí)很多...
-
大口吃肉還能瘦?真是如此?
生活中我們經(jīng)常會(huì)聽見各種各樣的流言,但是只要我們用心去思考和辨認(rèn)其實(shí) 不難發(fā)現(xiàn)這些謠言有很多破綻。所以今天,小編照常給大家辟謠一則
-
心理知識(shí):懷疑讓你的身體變得不健康
心理這個(gè)詞最近被提及的頻率是越來越高了。其實(shí)在國外有一個(gè)職業(yè)特別吃香,那就是心理醫(yī)生。為什么呢?因?yàn)閲馓貏e是西方有幾個(gè)國家已...
-
研究揭示了哪些基因?qū)χ参飳?duì)干旱的反應(yīng)至關(guān)重要
由于植物在資源稀缺時(shí)無法重新定位,因此需要通過響應(yīng)環(huán)境線索來有效地調(diào)節(jié)其生長。干旱是降低植物生長和作物產(chǎn)量的最重要原因,這使人...
-
如何治療童年創(chuàng)傷
生活中,不管我們在跟自己獨(dú)處還是跟別人相處的過程中其實(shí)我們會(huì)發(fā)現(xiàn)心理對(duì)一個(gè)人的影響是很大的。因此當(dāng)我們發(fā)現(xiàn)自己有心理疾病的傾向...
-
情感虐待有哪些跡象
隨著社會(huì)壓力的不斷加大,人們現(xiàn)在把越來越多的目光放到了一個(gè)人的心理情況上。確實(shí),每個(gè)人的抗壓指數(shù)是有限的,一個(gè)平時(shí)看著正常的人...
-
黃冰糖比白冰糖更好?一起來看
當(dāng)我們不知道一件事真假的時(shí)候,不防多等等官方的回應(yīng)。因?yàn)樾畔⑺槠?,很多小伙伴現(xiàn)在上網(wǎng)很容易只看到事情的一面就下定論,其實(shí)很多...
-
發(fā)現(xiàn)電離輻射可以軟化腫瘤細(xì)胞的微環(huán)境
近一半的癌癥患者接受放射治療以抑制惡性細(xì)胞的生長。但人們對(duì)于電離輻射如何影響細(xì)胞外基質(zhì)(ECM)知之甚少,細(xì)胞外基質(zhì)是一種蛋白質(zhì)和其他
-
都什么年代了,還整天排毒?來看學(xué)者的建議
相信很多人都被“誤導(dǎo)”過。因?yàn)楝F(xiàn)在的網(wǎng)絡(luò)信息非常豐富和更新迅速,還沒等我們了解事情的詳情,下一秒就又反轉(zhuǎn)了。所以大家在獲取信息...