利用一種名為FLSHclust(“flash clust”)的新算法,研究人員在數(shù)十億蛋白質(zhì)序列中發(fā)現(xiàn)了188種罕見的和以前未知的crispr相關(guān)基因模塊——包括一種新的VII型CRISPR-Cas系統(tǒng)。該方法及其發(fā)現(xiàn)為利用CRISPR系統(tǒng)和理解微生物蛋白質(zhì)的巨大功能多樣性提供了新的機(jī)會。
CRISPR系統(tǒng)已被用于開發(fā)越來越多的新型生物分子方法,包括CRISPR/ cas介導(dǎo)的基因組編輯。以前未知的CRISPR系統(tǒng)的發(fā)現(xiàn)有可能導(dǎo)致這些生物技術(shù)的進(jìn)一步發(fā)展,包括更安全和更有效的基因組治療。通過對蛋白質(zhì)序列數(shù)據(jù)庫的計算搜索,CRISPR工具箱得到了擴(kuò)展。
然而,通常使用的算法方法對于挖掘包含數(shù)十億蛋白質(zhì)的指數(shù)增長數(shù)據(jù)集已經(jīng)變得不切實際。為了解決這一限制,Han Altae-Tran及其同事開發(fā)了FLSHclust(快速基于位置敏感散列的聚類)——一種通過序列相似性對蛋白質(zhì)進(jìn)行聚類的算法,與目前可用的方法不同,它可以快速有效地分析大量的蛋白質(zhì)序列數(shù)據(jù)庫。
為了評估他們的方法,Altae-Tran等人使用FLSHclust在包含80億個蛋白質(zhì)和1020萬個CRISPR陣列的8.8個堿基對宏基因組數(shù)據(jù)庫中搜索罕見的CRISPR系統(tǒng)。該分析發(fā)現(xiàn)了188個以前未知的crispr相關(guān)基因。
作者還鑒定并表征了一類新的含有CRISPR系統(tǒng)的cas14, VII型,它作用于RNA。根據(jù)研究結(jié)果,新發(fā)現(xiàn)的系統(tǒng)是罕見的,并且許多只包含F(xiàn)LSHclust揭示的近13萬個crispr鏈接簇中的一個簇。
Altae-Tran等人寫道:“以前未知的cas基因和CRISPR系統(tǒng)的發(fā)現(xiàn)極大地擴(kuò)展了已知的CRISPR多樣性,強(qiáng)調(diào)了CRISPR功能的多功能性,即以前未發(fā)現(xiàn)的蛋白質(zhì)和結(jié)構(gòu)域經(jīng)常被招募,要么取代先前存在的成分,要么將新識別的功能賦予先前存在的cas蛋白支架。”
“總的來說,這項工作的結(jié)果揭示了CRISPR系統(tǒng)前所未有的組織和功能靈活性和模塊化,但也表明大多數(shù)變體是罕見的,只在相對不尋常的細(xì)菌和古細(xì)菌中發(fā)現(xiàn)。”
文章標(biāo)題
Uncovering the functional diversity of rare CRISPR-Cas systems with deep terascale clustering
(文章來源:www.ebiotrade.com/newsf/2023-11) |