麻省理工學院的研究人員開發(fā)了分析大量細胞數(shù)據(jù)集的新方
數(shù)據(jù)采樣方法制作了笨拙的生物數(shù)據(jù)集的“草圖”,同時仍然捕獲了細胞類型的完整多樣性。藝術草圖可用于以更簡單的圖像捕捉場景的細節(jié)。麻省理工學院的研究人員現(xiàn)在將這一概念引入計算生物學,采用一種新方法,提取全面的樣本 - 稱為“草圖” - 大規(guī)模細胞數(shù)據(jù)集,更易于分析生物學和醫(yī)學研究。
近年來,人們從各種人體組織和器官(如神經(jīng)元,肌肉和免疫細胞)中分析出單個細胞,以深入了解人類健康和治療疾病。最大的數(shù)據(jù)集包含大約100,000到200萬個單元格,并且還在增長。例如,人類細胞圖譜的長期目標是描繪大約100億個細胞。每個細胞本身都含有大量關于RNA表達的數(shù)據(jù),可以提供有關細胞行為和疾病進展的見解。
憑借足夠的計算能力,生物學家可以分析完整的數(shù)據(jù)集,但需要數(shù)小時或數(shù)天。沒有這些資源,這是不切實際的。采樣方法可用于提取細胞的小子集以進行更快,更有效的分析,但它們不能很好地擴展到大型數(shù)據(jù)集,并且通常會錯過較少的細胞類型。
在下周于計算分子生物學研究會議上發(fā)表的一篇論文中,麻省理工學院的研究人員描述了一種方法,該方法可以捕獲整個數(shù)據(jù)集的完全全面的“草圖”,可以與其他數(shù)據(jù)集輕松共享和合并。它不是以相同的概率對細胞進行采樣,而是均勻地對來自數(shù)據(jù)集中存在的不同細胞類型的細胞進行采樣。
“這些就像紙上的草圖,藝術家將試圖保留主要圖像的所有重要特征,”麻省理工學院西蒙斯數(shù)學教授,電氣工程和計算機科學教授,以及其負責人Bonnie Berger說。計算和生物學小組。
在實驗中,該方法在幾分鐘內(nèi)從數(shù)百萬個細胞的數(shù)據(jù)集中生成草圖 - 而不是幾個小時 - 從數(shù)據(jù)集中得到的稀有細胞的表示更為平等。在一個例子中,草圖甚至捕獲了其他方法遺漏的罕見的炎性巨噬細胞子集。
“大多數(shù)分析單細胞數(shù)據(jù)的生物學家只是在他們的筆記本電腦上工作,”計算機科學與人工智能實驗室(CSAIL)博士生,計算與生物學研究組的Brian Hie說。“草圖繪制了一個非常大的數(shù)據(jù)集的簡明摘要,該數(shù)據(jù)集試圖保留盡可能多的生物信息......因此人們不需要使用如此多的計算能力。”
加入Hie和Berger的是:CSAIL博士生Hyunghoon Cho;麻省理工學院和哈佛醫(yī)學院的研究生Benjamin DeMeo;和麻省理工學院生物工程助理教授Bryan Bryson。
格子覆蓋物
人類擁有數(shù)百種細胞類別和子類別,每個細胞都表達了多種多樣的基因。諸如RNA測序的技術捕獲大量表中的所有細胞信息,其中每行代表細胞,每列代表基因表達的一些測量。細胞是散布在龐大的多維空間周圍的點,其中每個維度對應于不同基因的表達。
“如果你采取10%的樣本,并且在一個罕見的群集中有10個細胞,在一個共同的群集中有1,000個細胞,你更有可能抓住大量的常見細胞,但是會遺漏所有稀有細胞,”Hie說。“但稀有細胞可以導致重要的生物學發(fā)現(xiàn)。”實際上,具有相似基因多樣性的細胞類型 - 常見和罕見 - 形成相似大小的簇,占據(jù)大致相同的空間。但是這些群集中的細胞密度差異很大:1,000個細胞可能存在于一個共同的聚類中,而同樣多樣的稀有聚類將包含10個細胞。對于提取單個細胞的目標大小樣本的傳統(tǒng)??采樣方法來說,這是一個問題。
研究人員修改了一類算法,該算法在數(shù)據(jù)集上形成了形狀。他們的算法覆蓋了整個計算空間,他們稱之為“格子覆蓋”,就像一個大小相等的網(wǎng)格,但在很多方面。它只放置這些多維正方形,其中至少有一個單元格,并跳過任何空白區(qū)域。最后,網(wǎng)格的空列將比占用的列更寬或更瘦 - 因此是“格子”描述。該技術可以節(jié)省大量計算量,以幫助覆蓋范圍擴展到海量數(shù)據(jù)集。
捕獲稀有細胞
占用的方塊可能只包含一個單元格或1,000個單元格,但它們都具有完全相同的采樣權重。然后,該算法隨機地通過均勻地從每個占用的方格中選擇一組單元格來找到目標樣本 - 例如20,000個單元。生成的草圖包含更加平等的細胞類型分布 - 例如,來自100個簇的10個常見細胞和來自10個簇的8個稀有細胞。
“我們利用占據(jù)相似空間的這些細胞類型,”Hie說。“因為我們根據(jù)體積而不是密度進行采樣,我們可以更均勻地覆蓋生物空間......我們自然會保留稀有細胞類型。”
他們將他們的素描方法應用于大約250,000個臍帶細胞的數(shù)據(jù)集,其中包含兩個罕見的巨噬細胞亞組 - 炎癥和抗炎。所有其他傳統(tǒng)的采樣方法將兩個子集聚集在一起,而草繪方法將它們分開。研究人員說,對這些巨噬細胞亞群的進一步深入研究有助于揭示炎癥的洞察力以及如何調(diào)節(jié)炎癥反應過程中的炎癥過程。
“這對于在田野界面工作是有益的,”伯杰說。“我們接受過數(shù)學家培訓,但我們了解生物數(shù)據(jù)科學問題是什么,因此我們可以將最好的技術帶到他們的分析中。”
推薦內(nèi)容
-
通過分解激活 識別構(gòu)成免疫反應基礎的分子機制
LMU研究人員報告說,先天RNA分子的兩個位點是通過位點特異性裂解產(chǎn)生的,兩個短RNA激活了先天性免疫應答的核心部分,而這兩種衍生物都是由
-
研究了無花果新的傷口愈合特性
已發(fā)現(xiàn)來自無花果膠的酶Ficin對由葡萄球菌形成的生物膜具有活性。該項目由微生物遺傳學實驗室Ayrat Kayumov的高級研究員領導,由俄羅斯科
-
基于社區(qū)的計劃改善了慢性疼痛患者的抑郁癥
倫敦瑪麗皇后大學(QMUL)領導的一項研究顯示,針對慢性肌肉骨骼疼痛患者的基于社區(qū)的疼痛管理計劃改善了抑郁癥和社會融合。研究人員與華威大
-
飲食健康 富含植物的飲食可能有助于預防抑郁癥
根據(jù)先前研究的全面,系統(tǒng)的綜述,以蔬菜,水果,堅果,植物性食物和魚類為食(地中海式飲食的典型飲食)可以幫助降低患抑郁癥的風險。倫...
-
寄生蟲研究為感染療法鋪平了道路
對有害寄生蟲如何利用其所需能量的新見解可以指向預防潛在致命疾病的療法。對被稱為利什曼原蟲的傳染性寄生蟲的新認識 - 通過咬住白蛉傳
-
丁珂寫意花鳥畫 客廳裝飾畫的首選
在家里裝飾幾幅好看的字畫是現(xiàn)在很多家庭的選擇。家中掛畫,既能起到裝飾美化家居、改善家庭環(huán)境的作用,還能提升整個家中的文化藝術指...
-
研究人員展示了分子桶結(jié)構(gòu)如何在線粒體中發(fā)揮各種功能
弗萊堡的研究人員發(fā)現(xiàn),分子桶蛋白Mdm10可以通過與蛋白質(zhì)機器結(jié)合,發(fā)揮和維持線粒體結(jié)構(gòu)的各種功能。線粒體是細胞的強大動力,例如產(chǎn)生細
-
大孔畸形大孔畸形是一種常見的腫瘤
從遺傳學的角度來說,我們的研究是有目的的,但是從控制的角度來說,我們的研究是有目的的。 我的意思是說我的頭發(fā)是由我的頭發(fā)造成的。...
-
研究產(chǎn)生E組抗體的細胞有助于對抗過敏
Sechenov大學的研究人員和他們來自俄羅斯和奧地利的同事總結(jié)了關于細胞產(chǎn)生E組抗體的所有已知信息。這些分子是大多數(shù)過敏反應的原因,包...
-
科學家們發(fā)現(xiàn)了埃博拉病毒疫苗抗體反應的細節(jié)
在非洲地區(qū)埃博拉病毒的致命傳播方面,今天的衛(wèi)生專業(yè)人員現(xiàn)在至少有了一些對抗這種疾病的工具:疫苗。到目前為止,埃博拉疫苗已經(jīng)接種了...