当前位置: 首页 > 专利查询>山东大学专利>正文

基于测序数据的病原微生物检测方法及系统技术方案

技术编号:33274710 阅读:14 留言:0更新日期:2022-04-30 23:32
本发明专利技术提出了基于测序数据的病原微生物检测方法及系统,属于生物检测技术技术领域,解决了目前检测软件检测效率的问题,包括:唯一的kmer的生成步骤:生成参考基因的唯一的kmer;质量控制步骤:重新划分生产者消费者模型的任务分配,对测序数据进行预处理和质量控制,获得测序数据文件;微生物检测步骤:以生成的唯一的kmer文件以及经过质量控制之后的测序数据文件作为输入文件,进行病原微生物检测过程。本发明专利技术采用了一种节省内存的编码方式和通过将中间结果存储在硬盘中的方案来解决生成唯一的kmer过程中内存占用量过大的问题。成唯一的kmer过程中内存占用量过大的问题。成唯一的kmer过程中内存占用量过大的问题。

【技术实现步骤摘要】
基于测序数据的病原微生物检测方法及系统


[0001]本专利技术属于生物检测
,尤其涉及基于测序数据的病原微生物检测方法及系统。

技术介绍

[0002]本部分的陈述仅仅是提供了与本专利技术相关的
技术介绍
信息,不必然构成在先技术。
[0003]作为生命科学的一个重要领域,基因测序技术有了很大的发展,具有高通量测序能力的二代测序技术目前已经广泛地应用到了各个领域。二代测序技术(NGS)相较于一代测序技术添加了可逆终止末端,边合成边测序,可以并行地对几十万到几百万条DNA分子进行测序。依赖于二代测序技术的特点,宏基因组学测序迅速发展。
[0004]1998年,Handelsman等人提出了宏基因组的概念,即环境中所有微生物基因组的总和。相较于传统的基因测序方法,宏基因组学测序不需要提前制备,可以直接从环境中获取待检病毒,可以检测到样本中的多种微生物,可以有效地分析不同微生物与环境或其宿主之间的关系。在自 2014 年宏基因组测序首次应用于临床诊断并取得巨大成效后,宏基因组学测序因为具有检测周期短,准确率高,病原体覆盖广等特点已经被广泛应用于新出现病原体的检测与识别。得到病毒的基因序列后,使用宏基因组学技术直接检测样本中是否含有目标病毒是一种快速而且有效的方法,这对于从病毒传播初期直接确定传染源,阻断病毒传播具有积极作用。
[0005]现有技术中,fastv 软件在微生物检测识别,亚种识别等方面可以取得非常好的效果,但是软件的执行时间限制了其能力的发挥,除此之外,对于大规模的数据,fastv软件无法应用于检测任务。
[0006]具体的,fastv软件在病原微生物的检测目前主要存在如下几个问题:1.fastv软件运行效率存在问题,线程扩展性较差,限制了它的使用价值。
[0007]2.fastv软件内存使用量非常大,这导致其只能处理小规模的数据,无法应用在大规模数据的处理上。
[0008]3.fastv在病原微生物的检测上尽管已经达到了较高的准确性和精确度,但是在检测标准上仍然存在一些问题,这些问题限制了它的使用价值。

技术实现思路

[0009]为克服上述现有技术的不足,本专利技术提供了基于测序数据的病原微生物检测方法,可以处理大规模的数据,达到更高的准确性和精确度。
[0010]为实现上述目的,本专利技术的一个或多个实施例提供了如下技术方案:第一方面,公开了基于测序数据的病原微生物检测方法,包括:唯一的kmer的生成步骤:生成参考基因的唯一的kmer;质量控制步骤:重新划分生产者消费者模型的任务分配,对测序数据进行预处理
和质量控制,获得经过质量控制之后的测序数据文件;微生物检测步骤:以生成的唯一的kmer文件以及经过质量控制之后的测序数据文件作为输入文件,进行病原微生物检测过程。
[0011]进一步的技术方案,只在某种参考基因组中出现而不在其他参考基因组中出现的kmer称为唯一的kmer,并将测序数据中唯一的kmer的覆盖度作为检测的标准。
[0012]进一步的技术方案,在生成唯一的kmer的过程中产生的中间结果存储在硬盘中。
[0013]第二方面,公开了基于测序数据的病原微生物检测系统,包括:唯一的kmer的生成模块,被配置为:生成参考基因的唯一的kmer;质量控制模块,被配置为:重新划分生产者消费者模型的任务分配,对测序数据进行预处理和质量控制,获得经过质量控制之后的测序数据文件;微生物检测模块,被配置为:以生成的唯一的kmer文件以及经过质量控制之后的测序数据文件作为输入文件,进行病原微生物检测过程。
[0014]以上一个或多个技术方案存在以下有益效果:本专利技术采用了一种节省内存的编码方式和通过将中间结果存储在硬盘中的方案来解决生成唯一的kmer过程中内存占用量过大的问题。除此之外,采用了高效的实现方式,这种方式提高了程序的运行速度,减少了唯一的kmer生成过程所消耗的时间。
[0015]本专利技术重新划分了生产者与消费者模型的任务分配来充分地利用处理器的多核,修改了编码方式来充分减少分支预测错误的惩罚,将核心部分使用向量化方式来做并行化处理,提高程序的处理速度。
[0016]本专利技术采用向量化的方式来加速这一过程。布隆过滤器对于数据集中不存在的数据具有非常好的过滤作用,因此我们采用了布隆过滤器这一数据结构来加速查询过程。
[0017]本专利技术附加方面的优点将在下面的描述中部分给出,部分将从下面的描述中变得明显,或通过本专利技术的实践了解到。
附图说明
[0018]构成本专利技术的一部分的说明书附图用来提供对本专利技术的进一步理解,本专利技术的示意性实施例及其说明用于解释本专利技术,并不构成对本专利技术的不当限定。
[0019]附图1为本专利技术的方法流程图。
具体实施方式
[0020]应该指出,以下详细说明都是示例性的,旨在对本专利技术提供进一步的说明。除非另有指明,本文使用的所有技术和科学术语具有与本专利技术所属
的普通技术人员通常理解的相同含义。
[0021]需要注意的是,这里所使用的术语仅是为了描述具体实施方式,而非意图限制根据本专利技术的示例性实施方式。
[0022]在不冲突的情况下,本专利技术中的实施例及实施例中的特征可以相互组合。
[0023]实施例一本实施例公开了基于测序数据的病原微生物检测方法,针对于fastv软件的缺陷,本专利技术有针对性地进行优化,更好地发挥了硬件的性能,提高软件的执行效率,采用了多种
方法减少其内存的使用量,使之可以处理大规模的数据。此外,本专利技术修改了fastv的检测标准,使之可以达到更高的准确性和精确度。包含了病原微生物检测的整个流程的高效实现。
[0024]参见附图1所示,主要包括唯一的kmer的生成,质量控制,微生物检测三个步骤。
[0025]步骤一,唯一的kmer的生成:在进行病原微生物检测之前,首先需要生成参考基因的唯一的kmer。将只在某种参考基因组中出现而不在其他参考基因组中出现的kmer称为唯一的kmer,并将测序数据中唯一的kmer的覆盖度作为检测的标准。在生成唯一的kmer的过程中主要存在的问题是内存使用量过大,产生的中间结果的大小通常是参考基因的大小与kmer长度的乘积。在生成如bacterial参考基因组的唯一的kmer时,使用的内存量会超过1T,超过了一般服务器的内存大小。
[0026]为了解决这个问题,本专利技术采用了一种节省内存的编码方式和通过将中间结果存储在硬盘中的方案,来解决生成唯一的kmer过程中内存占用量过大的问题。
[0027]具体的,首先对kmer进行分类,分类的依据是每个kmer的最小值。计算每个kmer的最小值,连续的最小值相同的kmer会被分到同一类中,此时不存储每个kmer,而是将kmer所覆盖到的字串作为中结果存到硬盘中,这样节省了内存,同时保证了正确性。在第二步,读取硬盘中的中间结果,可以根据内存的限制来决定每次处理的中间结果的数量。
[0028]除此之外,本专利技术采用了高效的实现方本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.基于测序数据的病原微生物检测方法,其特征是,包括:唯一的kmer的生成步骤:生成参考基因的唯一的kmer;质量控制步骤:重新划分生产者消费者模型的任务分配,对测序数据进行预处理和质量控制,获得测序数据文件;微生物检测步骤:以生成的唯一的kmer文件以及经过质量控制之后的测序数据文件作为输入文件,进行病原微生物检测过程。2.如权利要求1所述的基于测序数据的病原微生物检测方法,其特征是,只在某种参考基因组中出现而不在其他参考基因组中出现的kmer称为唯一的kmer,并将测序数据中唯一的kmer的覆盖度作为检测的标准。3.如权利要求1所述的基于测序数据的病原微生物检测方法,其特征是,在生成唯一的kmer的过程中产生的中间结果存储在硬盘中。4.如权利要求1所述的基于测序数据的病原微生物检测方法,其特征是,生成参考基因的唯一的kmer时:对kmer进行分类,分类的依据是每个kmer的最小值,计算每个kmer的最小值,连续的最小值相同的kmer被分到同一类中。5.如权利要求3所述的基于测序数据的病原微生物检测方法,其特征是,产生的中间结果存储在硬盘中,具体为:不存储每个kmer,将kmer所覆盖到的字串作为中结果存到硬盘中。6.如权利要求3或5所述的基于测序数据的病原微生物检测方法,其特征是,还包括:读取硬盘中的中间结果,根据内存的...

【专利技术属性】
技术研发人员:刘卫国常启鑫张浩殷泽坤
申请(专利权)人:山东大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1