综合精品天天夜夜久久,日本中文字幕二区区精品,亚洲欧美中文字幕制服二区,青青青国产爽爽视频免费观看

        中國基因網(wǎng)您的位置:首頁 >企業(yè)新聞 >

        麻省理工學院的研究人員開發(fā)了分析大量細胞數(shù)據(jù)集的新方

        數(shù)據(jù)采樣方法制作了笨拙的生物數(shù)據(jù)集的“草圖”,同時仍然捕獲了細胞類型的完整多樣性。藝術草圖可用于以更簡單的圖像捕捉場景的細節(jié)。麻省理工學院的研究人員現(xiàn)在將這一概念引入計算生物學,采用一種新方法,提取全面的樣本 - 稱為“草圖” - 大規(guī)模細胞數(shù)據(jù)集,更易于分析生物學和醫(yī)學研究。

        麻省理工學院的研究人員開發(fā)了分析大量細胞數(shù)據(jù)集的新方

        近年來,人們從各種人體組織和器官(如神經(jīng)元,肌肉和免疫細胞)中分析出單個細胞,以深入了解人類健康和治療疾病。最大的數(shù)據(jù)集包含大約100,000到200萬個單元格,并且還在增長。例如,人類細胞圖譜的長期目標是描繪大約100億個細胞。每個細胞本身都含有大量關于RNA表達的數(shù)據(jù),可以提供有關細胞行為和疾病進展的見解。

        憑借足夠的計算能力,生物學家可以分析完整的數(shù)據(jù)集,但需要數(shù)小時或數(shù)天。沒有這些資源,這是不切實際的。采樣方法可用于提取細胞的小子集以進行更快,更有效的分析,但它們不能很好地擴展到大型數(shù)據(jù)集,并且通常會錯過較少的細胞類型。

        在下周于計算分子生物學研究會議上發(fā)表的一篇論文中,麻省理工學院的研究人員描述了一種方法,該方法可以捕獲整個數(shù)據(jù)集的完全全面的“草圖”,可以與其他數(shù)據(jù)集輕松共享和合并。它不是以相同的概率對細胞進行采樣,而是均勻地對來自數(shù)據(jù)集中存在的不同細胞類型的細胞進行采樣。

        “這些就像紙上的草圖,藝術家將試圖保留主要圖像的所有重要特征,”麻省理工學院西蒙斯數(shù)學教授,電氣工程和計算機科學教授,以及其負責人Bonnie Berger說。計算和生物學小組。

        在實驗中,該方法在幾分鐘內(nèi)從數(shù)百萬個細胞的數(shù)據(jù)集中生成草圖 - 而不是幾個小時 - 從數(shù)據(jù)集中得到的稀有細胞的表示更為平等。在一個例子中,草圖甚至捕獲了其他方法遺漏的罕見的炎性巨噬細胞子集。

        “大多數(shù)分析單細胞數(shù)據(jù)的生物學家只是在他們的筆記本電腦上工作,”計算機科學與人工智能實驗室(CSAIL)博士生,計算與生物學研究組的Brian Hie說。“草圖繪制了一個非常大的數(shù)據(jù)集的簡明摘要,該數(shù)據(jù)集試圖保留盡可能多的生物信息......因此人們不需要使用如此多的計算能力。”

        加入Hie和Berger的是:CSAIL博士生Hyunghoon Cho;麻省理工學院和哈佛醫(yī)學院的研究生Benjamin DeMeo;和麻省理工學院生物工程助理教授Bryan Bryson。

        格子覆蓋物

        人類擁有數(shù)百種細胞類別和子類別,每個細胞都表達了多種多樣的基因。諸如RNA測序的技術捕獲大量表中的所有細胞信息,其中每行代表細胞,每列代表基因表達的一些測量。細胞是散布在龐大的多維空間周圍的點,其中每個維度對應于不同基因的表達。

        “如果你采取10%的樣本,并且在一個罕見的群集中有10個細胞,在一個共同的群集中有1,000個細胞,你更有可能抓住大量的常見細胞,但是會遺漏所有稀有細胞,”Hie說。“但稀有細胞可以導致重要的生物學發(fā)現(xiàn)。”實際上,具有相似基因多樣性的細胞類型 - 常見和罕見 - 形成相似大小的簇,占據(jù)大致相同的空間。但是這些群集中的細胞密度差異很大:1,000個細胞可能存在于一個共同的聚類中,而同樣多樣的稀有聚類將包含10個細胞。對于提取單個細胞的目標大小樣本的傳統(tǒng)??采樣方法來說,這是一個問題。

        研究人員修改了一類算法,該算法在數(shù)據(jù)集上形成了形狀。他們的算法覆蓋了整個計算空間,他們稱之為“格子覆蓋”,就像一個大小相等的網(wǎng)格,但在很多方面。它只放置這些多維正方形,其中至少有一個單元格,并跳過任何空白區(qū)域。最后,網(wǎng)格的空列將比占用的列更寬或更瘦 - 因此是“格子”描述。該技術可以節(jié)省大量計算量,以幫助覆蓋范圍擴展到海量數(shù)據(jù)集。

        捕獲稀有細胞

        占用的方塊可能只包含一個單元格或1,000個單元格,但它們都具有完全相同的采樣權重。然后,該算法隨機地通過均勻地從每個占用的方格中選擇一組單元格來找到目標樣本 - 例如20,000個單元。生成的草圖包含更加平等的細胞類型分布 - 例如,來自100個簇的10個常見細胞和來自10個簇的8個稀有細胞。

        “我們利用占據(jù)相似空間的這些細胞類型,”Hie說。“因為我們根據(jù)體積而不是密度進行采樣,我們可以更均勻地覆蓋生物空間......我們自然會保留稀有細胞類型。”

        他們將他們的素描方法應用于大約250,000個臍帶細胞的數(shù)據(jù)集,其中包含兩個罕見的巨噬細胞亞組 - 炎癥和抗炎。所有其他傳統(tǒng)的采樣方法將兩個子集聚集在一起,而草繪方法將它們分開。研究人員說,對這些巨噬細胞亞群的進一步深入研究有助于揭示炎癥的洞察力以及如何調(diào)節(jié)炎癥反應過程中的炎癥過程。

        “這對于在田野界面工作是有益的,”伯杰說。“我們接受過數(shù)學家培訓,但我們了解生物數(shù)據(jù)科學問題是什么,因此我們可以將最好的技術帶到他們的分析中。”

        鄭重聲明:本文版權歸原作者所有,轉(zhuǎn)載文章僅為傳播更多信息之目的,如有侵權行為,請第一時間聯(lián)系我們修改或刪除,多謝。

        推薦內(nèi)容