基于第三代测序序列的补洞方法及装置制造方法及图纸

技术编号:19343062 阅读:54 留言:0更新日期:2018-11-07 14:13
本发明专利技术公开了一种基于第三代测序序列的补洞方法及装置。其中,该方法包括:对三代测序序列中包含的至少一个子测序序列进行比对,得到第一比对结果;从第一比对结果中提取位于至少一个gap序列一定范围内的子测序序列,得到至少一个第一提取结果;对第一提取结果进行精细比对,得到第二比对结果;从第二比对结果中提取位于至少一个gap序列一定范围内的子测序序列,得到至少一个第二提取结果;将至少一个第二提取结果进行组装,得到一致性序列;使用一致性序列替换基因组草图中的原有序列;其中,gap序列为未知序列。本发明专利技术解决了在对测序数据进行基因组补洞的过程中,比对测序序列的过程速度很慢,导致资源消耗较大的技术问题。

Hole filling method and device based on the third generation sequencing sequence

The invention discloses a hole filling method and device based on the third generation sequencing sequence. Among them, the method includes: aligning at least one subsequence sequence contained in the third generation sequence to obtain the first alignment result; extracting at least one subsequence sequence within a certain range of at least one gap sequence from the first alignment result, and obtaining at least one first extraction result; and fine comparing the first extraction result. Second alignment results are obtained; sub-sequencing sequences located within a certain range of at least one gap sequence are extracted from the second alignment results, and at least one second extraction result is obtained; at least one second extraction result is assembled to obtain a consistent sequence; and the original sequence in the genome sketch is replaced by a consistent sequence. The gap sequence is an unknown sequence. The invention solves the technical problem that in the process of genome filling in sequencing data, the process of aligning sequencing sequence is very slow, resulting in a large consumption of resources.

【技术实现步骤摘要】
基于第三代测序序列的补洞方法及装置
本专利技术涉及生物信息领域,具体而言,涉及一种基于第三代测序序列的补洞方法及装置。
技术介绍
Denovo组装已成为第二代测序(NGS)技术的主要应用之一。目前,有大量的软件可用于组装基因组草图,例如Velvet,ABySS和SOAPdeno等等。尽管如此,组装出的scaffold中会包含很多gap序列,一般用“N”来填充代表。一般而言,是由于低覆盖和重复区域的序列过于复杂而导致组装过程中软件无法判断该位置的对应序列,因此只能填充“N”碱基代表位置序列。虽然pair-endreads的距离信息可以将contig连接成更长的scaffold,但是这不能解决低覆盖和重复区域的固有问题:即不会增加新的序列信息到基因组草图中。而这些scaffolds中的gap序列,会对于后面的基因组学分析结果产生负面影响,例如基因预测时候会因为gap序列而无法进行预测,或者在gap序列没有办法进行结构变异检测。自2011年以来,第三代测序Pacbio和OxfordNanopore单分子实时测序技术逐步进入市场。第三代测序仪具有超长读长的特点,最长甚至可以达到1MB。基于第三代测序超长读长特点,使用第三代测序序列对基因组草图进行补洞,是目前提高基因组组装指标和准确性的一种很好的方案。目前基于第三代测序数据进行基因组补洞主要采用PBjelly软件,但其所用的blasr比对软件速度非常慢。例如对于人的基因组,单纯比对的过程就需要几千个cpu小时,一般只能在高性能集群才能完成相关任务,这个过程耗时多而且费用昂贵,难以满足实际应用需求。针对上述的问题,目前尚未提出有效的解决方案。
技术实现思路
本专利技术实施例提供了一种基于第三代测序序列的补洞方法及装置,以至少解决在对测序数据进行基因组补洞的过程中,比对测序序列的过程速度很慢,导致资源消耗较大的技术问题。根据本专利技术实施例的一个方面,提供了一种基于第三代测序序列的补洞方法,包括:对三代测序序列中包含的至少一个子测序序列进行比对,得到第一比对结果;从第一比对结果中提取位于至少一个gap序列一定范围内的子测序序列,得到至少一个第一提取结果;对第一提取结果进行精细比对,得到第二比对结果;从第二比对结果中提取位于至少一个gap序列一定范围内的子测序序列,得到至少一个第二提取结果;将至少一个第二提取结果进行组装,得到一致性序列;使用一致性序列替换基因组草图中的原有序列;其中,gap序列为未知序列。可选地,在从预设数量第一比对结果中提取位于至少一个gap序列一定范围内的子测序序列,得到至少一个第一提取结果之前,预设数量方法还包括:从预设数量三代测序序列中确定gap序列,预设数量gap序列中碱基用N表示。可选地,预设数量gap序列的碱基数量为预设数量,其中,在预设数量gap序列的碱基数量小于预设数量的情况下,将预设数量gap序列左右两端的序列改为gap序列,直到预设数量gap序列的碱基数量达到预设数量。可选地,从第一比对结果中提取位于至少一个gap序列一定范围内的子测序序列,得到至少一个第一提取结果,包括:使用第一比对软件将三代测序序列中包含的至少一个子测序序列,比对回基因组草图的scaffolds序列,得到每条子测序序列(reads)在scaffolds中的比对位置;使用第二比对软件,比较基因组草图的gap序列的位置和三代测序序列中包含的每个子测序序列(reads)的位置,提取比对位置处于gap序列一定范围内的子测序序列(reads)。可选地,在比较基因组草图的gap序列的位置和三代测序序列中包含的每个子测序序列(reads)的位置的过程中,判断的条件为:子测序序列reads的比对位置与gap序列的上下游2000bp包括至少1bp的重叠。可选地,对第一提取结果进行精细比对,得到第二比对结果,包括:使用第三比对软件对比对位置处于gap序列一定范围内的子测序序列进行精细比对。可选地,从第二比对结果中提取位于至少一个gap序列一定范围内的子测序序列,得到至少一个第二提取结果,包括:根据第三比对软件的比对结果,抽取满足以下条件的子测序序列reads:条件一:比对到距离gap序列对应的gap序列起点的预设数量之内;条件二:存在至少第一预定数量的没有比对上的碱基进入gap序列中。可选地,将至少一个第二提取结果进行组装,得到一致性序列,包括:基于抽取到的子测序序列reads以及gap序列两侧的第二预定数量的基因组草图序列进行局部组装。可选地,使用一致性序列替换基因组草图中的原有序列,包括:使用一致性序列将对应的gap序列进行替换。根据本专利技术实施例的另一方面,还提供了一种基于第三代测序序列的补洞装置,包括:第一比对模块,用于对三代测序序列中包含的至少一个子测序序列进行比对,得到第一比对结果;第一提取模块,用于从第一比对结果中提取位于至少一个gap序列一定范围内的子测序序列,得到至少一个第一提取结果;第二比对模块,用于对第一提取结果进行精细比对,得到第二比对结果;第二提取模块,用于从第二比对结果中提取位于至少一个gap序列一定范围内的子测序序列,得到至少一个第二提取结果;组装模块,用于将至少一个第二提取结果进行组装,得到一致性序列;替换模块,用于使用一致性序列替换基因组草图中的原有序列;其中,gap序列为未知序列。可选地,装置还包括:确定模块,用于从预设数量三代测序序列中确定gap序列,预设数量gap序列中碱基用N表示。可选地,预设数量gap序列的碱基数量为预设数量,其中,在预设数量gap序列的碱基数量小于预设数量的情况下,将预设数量gap序列左右两端的序列改为gap序列,直到预设数量gap序列的碱基数量至少达到预设数量。可选地,第一提取模块,包括:第一子比对模块,用于使用第一比对软件将三代测序序列中包含的至少一个子测序序列,比对回基因组草图的scaffolds序列,得到每条子测序序列(reads)在scaffolds中的比对位置;比较模块,用于使用第二比对软件,比较基因组草图的gap序列的位置和三代测序序列中包含的每个子测序序列(reads)的位置;第一子提取模块,用于提取比对位置处于gap序列一定范围内的子测序序列(reads)。可选地,在比较基因组草图的gap序列的位置和三代测序序列中包含的每个子测序序列(reads)的位置的过程中,判断的条件为:子测序序列reads的比对位置与gap序列的上下游2000bp包括至少1bp的重叠。可选地,第二比对模块,包括:第二子比对模块,用于使用第三比对软件对比对位置处于gap序列一定范围内的子测序序列进行精细比对。可选地,第二提取模块,包括:抽取模块,用于根据第三比对软件的比对结果,抽取满足以下条件的子测序序列reads:条件一:比对到距离gap序列对应的gap序列起点的预设数量之内;条件二:存在至少第一预定数量的没有比对上的碱基进入gap序列中。可选地,组装模块,包括:子组装模块,用于基于抽取到的子测序序列reads以及gap序列两侧的第二预定数量的基因组草图序列进行局部组装。可选地,替换模块,包括:子替换模块,用于使用一致性序列将对应的gap序列进行替换。在本专利技术实施例中,采用Minimap2软件对三代测序reads进行快速比对,本文档来自技高网
...

【技术保护点】
1.一种基于第三代测序序列的补洞方法,其特征在于,包括:对三代测序序列中包含的至少一个子测序序列进行比对,得到第一比对结果;从所述第一比对结果中提取位于至少一个gap序列一定范围内的子测序序列,得到至少一个第一提取结果;对所述第一提取结果进行精细比对,得到第二比对结果;从所述第二比对结果中提取位于至少一个gap序列一定范围内的子测序序列,得到至少一个第二提取结果;将所述至少一个第二提取结果进行组装,得到一致性序列;使用所述一致性序列替换基因组草图中的原有序列;其中,所述gap序列为未知序列。

【技术特征摘要】
1.一种基于第三代测序序列的补洞方法,其特征在于,包括:对三代测序序列中包含的至少一个子测序序列进行比对,得到第一比对结果;从所述第一比对结果中提取位于至少一个gap序列一定范围内的子测序序列,得到至少一个第一提取结果;对所述第一提取结果进行精细比对,得到第二比对结果;从所述第二比对结果中提取位于至少一个gap序列一定范围内的子测序序列,得到至少一个第二提取结果;将所述至少一个第二提取结果进行组装,得到一致性序列;使用所述一致性序列替换基因组草图中的原有序列;其中,所述gap序列为未知序列。2.根据权利要求1所述的方法,其特征在于,在从所述第一比对结果中提取位于至少一个gap序列一定范围内的子测序序列,得到至少一个第一提取结果之前,所述方法还包括:从所述三代测序序列中确定gap序列,所述gap序列中碱基用N表示。3.根据权利要求2所述的方法,其特征在于,所述gap序列的碱基数量为预设数量,其中,在所述gap序列的碱基数量小于预设数量的情况下,将所述gap序列左右两端的序列改为gap序列,直到所述gap序列的碱基数量达到预设数量。4.根据权利要求1所述的方法,其特征在于,从所述第一比对结果中提取位于至少一个gap序列一定范围内的子测序序列,得到至少一个第一提取结果,包括:使用第一比对软件将所述三代测序序列中包含的至少一个子测序序列,比对回基因组草图的scaffolds序列,得到每条子测序序列(reads)在scaffolds中的比对位置;使用第二比对软件,比较所述基因组草图的gap序列的位置和所述三代测序序列中包含的每个子测序序列(reads)的位置,提取比对位置处于所述gap序列一定范围内的子测序序列(reads)。5.根据权利要求4所述的方法,其特征在于,在比较所述基因组草图的gap序列的位置和所述三代测序序列中包含的每个子测序序列(reads)的位置的过程中,判断的条件为:所述子测序序列reads的比对位置与所述gap序列的上下游2000bp包括至少1bp的重叠。6.根据权利要求4所述的方法,其特征在于,对所述第一提取结果进行精细比对,得到第二比对结果,包括:使用第三比对软件对所述比对位置处于所述gap序列一定范围内的子测序序列进行所述精细比对。7.根据权利要求6所述的方法,其特征在于,从所述第二比对结果中提取位于至少一个gap序列一定范围内的子测序序列,得到至少一个第二提取结果,包括:根据所述第三比对软件的比对结果,抽取满足以下条件的子测序序列reads:条件一:比对到距离所述gap序列对应的gap序列起点的预设数量之内;条件二:存在至少第一预定数量的没有比对上的碱基进入所述gap序列中。8.根据权利要求6所述的方法,其特征在于,将所述至少一个第二提取结果进行组装,得到一致性序列,包括:基于抽取到的子测序序列reads以及所述gap序列两侧的第二预定数量的基因组草图序列进行局部组装。9.根据权利要求1所述的方法,其特征在于,使用所述一致性序列替换基因组草图中的原有序列,包括:使用...

【专利技术属性】
技术研发人员:周义其李季张锦波蒋智李瑞强
申请(专利权)人:南京诺禾致源生物科技有限公司
类型:发明
国别省市:江苏,32

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1