综合精品天天夜夜久久,日本中文字幕二区区精品,亚洲欧美中文字幕制服二区,青青青国产爽爽视频免费观看

        中國基因網(wǎng)您的位置:首頁 >國外研究 >

        搜索技術幫助研究人員在幾分鐘而不是幾天內(nèi)找到DNA序列

        由于卡內(nèi)基梅隆大學計算機科學家開發(fā)了一種新的搜索方法,現(xiàn)在可以在幾分鐘內(nèi)完成數(shù)據(jù)庫搜索DNA序列,這些DNA序列可以讓生物學家和醫(yī)學研究人員服用。由計算生物學副教授Carl Kingsford和博士研究生Brad Solomon開發(fā)的方法。計算生物學系的學生,旨在搜索所謂的“短讀取” - 通過高通量測序技術生成的DNA和RNA序列。它依賴于一種新的索引數(shù)據(jù)結構,稱為序列綻放樹或SBT,研究人員在今天由Nature Biotechnology雜志在線發(fā)表的報告中描述了這種結構。

        搜索技術幫助研究人員在幾分鐘而不是幾天內(nèi)找到DNA序列

        美國國立衛(wèi)生研究院維護著一個名為Sequence Read Archive的龐大數(shù)據(jù)庫,該數(shù)據(jù)庫包含大約三個petabases,或總共三千萬億堿基對的序列。這些信息對于廣泛的研究人員非常有用,從提出有關基本生物過程的問題到研究潛在癌癥治療的研究人員。

        金斯福德說:“該數(shù)據(jù)庫包含了無數(shù)尚未被發(fā)現(xiàn)的數(shù)據(jù),并且被大量使用。” “它的主要問題是搜索非常困難。”

        存儲這些序列需要數(shù)千個硬盤驅動器。他指出,通過短讀數(shù)(每個通常為50到200個堿基對)進行搜索,看看哪些可以組裝形成大約10,000個堿基對的靶基因,這很麻煩,在某些情況下可能需要數(shù)天。

        正如索引可以加快書籍或目錄的搜索速度一樣,Kingsford和Solomon開發(fā)的基于SBT的索引可以極大地加速對該生物信息學數(shù)據(jù)庫的搜索。它們實際上將每個短讀取表示為一組固定長度的子序列,采用稱為布隆過濾器的數(shù)據(jù)結構,可以有效地將信息存儲在一個小空間中,并可以測試一個元素是否是一個集合的一部分。

        在第一級調(diào)查中,SBT可以判斷數(shù)據(jù)庫中是否包含目標DNA序列。如果是,則搜索進行到下一級別,其中SBT指示序列是在數(shù)據(jù)庫的一半還是另一半中。在每個級別,查詢以這樣或那樣的方式分支,直到識別出期望的實驗。

        Kingsford和Solomon使用2,652人血液,乳房和大腦實驗數(shù)據(jù)庫測試了他們的技術,每個實驗通常包含超過10億個堿基對的RNA序列。他們發(fā)現(xiàn)該數(shù)據(jù)庫的大多數(shù)搜索都可以在平均20分鐘內(nèi)完成。他們估計使用現(xiàn)有技術(稱為SRA-BLAST和STAR)的可比搜索時間分別需要2.2天和921天。

        他們指出,可以進一步加速,因為可以同時執(zhí)行超過200,000次查詢。

        鄭重聲明:本文版權歸原作者所有,轉載文章僅為傳播更多信息之目的,如有侵權行為,請第一時間聯(lián)系我們修改或刪除,多謝。

        推薦內(nèi)容