一种用于宏基因组物种成分及丰度定量的数据处理方法、装置及存储介质,应用于数据处理领域。该方法包括:获取宏基因组样本测序数据,并对该宏基因组样本测序数据进行序列降维处理,得到该宏基因组样本测序数据的样本素描;通过利用该样本素描查询物种特异分子标签数据库,确定该宏基因组样本测序数据包含的目标物种及各目标物种的丰度并输出,其中该物种特异分子标签数据库基于相同和/或不同物种的参考基因组数据的参考素描构建。该方法可以大大加快运算速度,减少计算资源的消耗,提高数据处理效率。据处理效率。据处理效率。
【技术实现步骤摘要】
用于宏基因组物种成分及丰度定量的数据处理方法、装置及存储介质
[0001]本专利技术属于数据处理
,尤其涉及一种用于宏基因组物种成分及丰度定量的数据处理方法、装置及存储介质。
技术介绍
[0002]宏基因组样本测序以及宏基因组物种成分及丰度定量在生物医学研究中有十分广泛的应用,利用宏基因组测序数据进行样本中微生物种成分及丰度定量的方法目前已有许多,如:MetaPhlAn(metagenomic phylogenetic analysis,宏基因组系统发育分析)方法以及基于mOTUs(操作分类单元)的微生物丰度、活力和群落基因组分析方法等等。
[0003]然而,一方面,上述方法均需要事先下载安装一个很大的(约数GB大小)微生物参考基因组或分类学分子标签(marker)数据库,网络状态不佳的用户难以完成安装。另一方面,上述方法还需要借助另外的序列比对工具(如bowtie或bwa,通常计算量巨大,十分耗时)将样本宏基因组数据与分类学分子标签数据库比较后才能计算样本的各个物种组成成分及丰度。因此,目前的方法普遍存在使用难度大,运行速度慢,且较不精确的问题。
技术实现思路
[0004]本申请旨在提供一种用于宏基因组物种成分及丰度定量的数据处理方法、装置及存储介质,可以大大加快运算速度,减少计算资源的消耗,提高数据处理效率。
[0005]本申请实施例提供了一种用于宏基因组物种成分及丰度定量的数据处理方法,包括:
[0006]获取宏基因组样本测序数据,并对所述宏基因组样本测序数据进行序列降维处理,得到所述宏基因组样本测序数据的样本素描;
[0007]通过利用所述样本素描查询物种特异分子标签数据库,确定所述宏基因组样本测序数据包含的目标物种及各所述目标物种的丰度并输出,其中所述物种特异分子标签数据库基于相同和/或不同物种的参考基因组数据的参考素描构建。
[0008]本申请实施例还提供了一种电子装置,所述电子装置包括:存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,其中所述计算机程序包括:
[0009]样本分析模块,用于获取宏基因组样本测序数据,对所述宏基因组样本测序数据进行序列降维处理,得到所述宏基因组样本测序数据的样本素描,以及通过利用所述样本素描查询物种特异分子标签数据库,确定所述宏基因组样本测序数据包含的目标物种及各所述目标物种的丰度,其中所述物种特异分子标签数据库基于相同和/或不同物种的参考基因组数据的参考素描构建;
[0010]输出模块,用于输出各所述目标物种及各所述目标物种的丰度的信息。
[0011]本申请实施例还提供了一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时,实现如上述实施例所示的用于宏基因组物种成分及丰度定量
的数据处理方法。
[0012]上述本申请各实施例,通过对获取的宏基因组样本测序数据进行序列降维处理,得到该宏基因组样本测序数据的样本素描,然后通过利用该样本素描查询物种特异分子标签数据库,确定该宏基因组样本测序数据包含的目标物种及各目标物种的丰度并输出,由于是利用通过序列降维处理得到的数据量较小的素描进行比对,因此可以大大加快运算速度,减少计算资源的消耗,提高数据处理效率。
附图说明
[0013]为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本专利技术的一些实施例。
[0014]图1是本申请一实施例提供的用于宏基因组物种成分及丰度定量的数据处理方法的流程示意图;
[0015]图2是本申请另一实施例提供的用于宏基因组物种成分及丰度定量的数据处理方法的流程示意图;
[0016]图3是图2所示方法中步骤S202的实现流程示意图;
[0017]图4是图2所示方法中数据库构建的示意图;
[0018]图5是图2所示方法中样本分析的示意图;
[0019]图6是本申请实施例提供的电子装置的结构示意图。
具体实施方式
[0020]为使得本专利技术的专利技术目的、特征、优点能够更加的明显和易懂,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本专利技术一部分实施例,而非全部实施例。基于本专利技术中的实施例,本领域技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本专利技术保护的范围。
[0021]参见图1,图1为本申请一实施例提供的用于宏基因组物种成分及丰度定量的数据处理方法的流程示意图,该方法可以应用如:台式电脑、手提电脑、平板电脑、个人计算机、服务器以及其他可在移动或非可移动的环境中进行数据处理的计算机设备。如图1所示,该方法主要包括如下步骤:
[0022]步骤S101,获取宏基因组样本测序数据,并对该宏基因组样本测序数据进行序列降维处理,得到该宏基因组样本测序数据的样本素描;
[0023]步骤S102,通过利用该样本素描查询物种特异分子标签数据库,确定该宏基因组样本测序数据包含的目标物种及各目标物种的丰度并输出。
[0024]具体的,可使用预设的序列降维算法,如KSSD(K
‑
mer Substring Space Decomposition,子序列空间分解)算法,对获取的宏基因组样本测序数据进行序列降维处理,得到该宏基因组样本测序数据的样本素描(sketch)。
[0025]该物种特异分子标签数据库基于相同和/或不同物种的参考基因组数据的参考素描构建。该参考素描与样本素描类似,不同的是,该参考素描是通过对参考基因组数据进行序列降维处理得到。
[0026]可以理解的,该物种特异分子标签数据库中还存储有各素描与其所属物种之间的对应关系。将样本素描与物种特异分子标签数据库进行比对,从而可确定出该样本素描所包含的一个或多个目标物种,并进而得到各目标物种的丰度,然后将确定出的各目标物种及其各自的丰度的相关信息按照预设的输出方式输出,例如可以但不限于生成包含确定出的各目标物种及其丰度定量的描述信息的报告文件并输出至本地或云端服务器进行保存等等。
[0027]于本实施例中,通过对获取的宏基因组样本测序数据进行序列降维处理,得到该宏基因组样本测序数据的样本素描,然后通过利用该样本素描查询物种特异分子标签数据库,确定该宏基因组样本测序数据所包含的目标物种及各目标物种的丰度并输出,由于是利用通过序列降维处理得到的数据量较小的素描进行比对,因此可以大大加快运算速度,减少计算资源的消耗,提高数据处理效率。
[0028]参见图2,图2为本申请另一实施例提供的用于宏基因组物种成分及丰度定量的数据处理方法的流程示意图,该方法可以应用如:台式电脑、手提电脑、平板电脑、个人计算机、服务器以及其他可在移动或非可移动的环境中进行数据处理的计算机设备。如图2所示,该方法主要包括如下步骤:
[0029]步骤S201,获取参考基因组数本文档来自技高网...
【技术保护点】
【技术特征摘要】
1.一种用于宏基因组物种成分及丰度定量的数据处理方法,其特征在于,包括:获取宏基因组样本测序数据,并对所述宏基因组样本测序数据进行序列降维处理,得到所述宏基因组样本测序数据的样本素描;通过利用所述样本素描查询物种特异分子标签数据库,确定所述宏基因组样本测序数据包含的目标物种及各所述目标物种的丰度并输出,其中所述物种特异分子标签数据库基于相同和/或不同物种的参考基因组数据的参考素描构建。2.如权利要求1所述的方法,其特征在于,所述方法还包括:从公共数据库获取多个所述参考基因组数据;对各所述参考基因组数据进行序列降维处理,得到各所述参考基因组数据的参考素描;基于得到的各所述参考素描构建所述物种特异分子标签数据库。3.如权利要求2所述的方法,其特征在于,所述对各所述参考基因组数据进行序列降维处理,得到各所述参考基因组数据的参考素描,包括:利用子序列空间分解算法对各所述参考基因组数据进行序列降维处理,得到所述参考素描。4.如权利要求2所述的方法,其特征在于,基于所述参考素描构建所述物种特异分子标签数据库,包括:取来自同一物种的多个所述参考素描的并集,以得到所述物种的泛基因组素描;将各所述物种的泛基因组素描分别减去除本物种之外的其他物种的泛基因组素描,以得到各所述物种的特异泛基因组素描;通过索引得到的所有所述特异泛基因组素描构建所述物种特异分子标签数据库。5.如权利要求3所述的方法,其特征在于,所述对所述宏基因组样本测序数据进行序列降维处理,包括:利用所述子序列空间分解算法,对所述宏基因组样本测序数据进行序列降维处理。6.如权利要求2至5中的任一项所述...
【专利技术属性】
技术研发人员:易会广,
申请(专利权)人:中国农业科学院深圳农业基因组研究所,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。