长读长测序对基因组组装结果纠错方法优化装置和系统制造方法及图纸

技术编号:37216351 阅读:13 留言:0更新日期:2023-04-20 23:04
本发明专利技术提出了一种用于长读段测序数据纠错的方法,包括:(1)对参考序列进行分组,以便获得由所述参考序列的一部分构成的多个参考序列子集;(2)针对所述多个参考序列子集的每一个,分别进行纠错处理,所述纠错处理是基于下列进行的:(a)所述参考序列子集中所包含的参考序列;(b)总比对结果中与(a)对应的所述比对结果;(c)所述长读段测序数据中与(a)对应的部分数据;(d)将所述多个参考序列子集中得到的纠错结果进行整合,以便获得所述长读段测序数据纠错结果。数据纠错结果。

【技术实现步骤摘要】
长读长测序对基因组组装结果纠错方法优化装置和系统


[0001]本专利技术涉及生物信息领域,具体地,涉及长读长测序对基因组组装结果纠错方法优化装置和系统, 更具体地,涉及纠错长读长组装结果的方法、纠错长读长组装结果的装置、及计算机可读存储介质。

技术介绍

[0002]随着技术发展,以Pacbio及Nanopore为代表的单分子测序数据拥有超长读长的特点可以解决基因 组复杂区域的拼接问题,因此单分子测序目前已成为基因组组装分析的重要测序技术之一。然而单分子 测序拥有长读长的同时也有高的测序错误率,一些组装软件例如WTDBG2、Miniasm、Flye等可以使用 含有高测序错误的数据进行拼接,所以对于长读长组装结果的纠错尤为重要。另一些软件先对高测序错 误率的数据纠错然后组装,例如Canu软件组装的准确性较高,但是其计算分析成本高,对于高度复杂 基因组的拼接效果不好并不能适用于所有的物种;而falcon等软件可以有效解决高度复杂的区域,但是 其拼接结果准确性较低,组装完成后对于基因组组装结果的纠错也是必不可少的一步。
[0003]对于组装后的纠错环节,尽管短读长数据相对于长读长数据准确性高,但是长读长数据具有超长的 读长特点可以跨过大的重复序列区域,对基因组复杂区域的矫正更为准确,基因组组装矫正首先使用长 读长数据纠错才能获得高质量高准确度的组装结果。
[0004]尽管目前长读长的比对软件都使用Minimap2替换所有的比对软件,并且在长读长对基因组的纠错 应用中有非常好的效果。尤其是纠错软件输入文件的格式为paf格式时,比对速度非常很快。但是对于 大基因组,在数据纠错步骤依然需要很大的内存,并且消耗时间很长。如果将大基因组分割,对每个分 割的小块单独比对和纠错,虽然这种方法类似于对小基因组进行比对和纠错,在一定程度上可以降低内 存和缩短分析时间,但是由于真核生物内有大量的重复序列,序列之间存在一定的相似性,这种局部比 对并不能考虑到全基因组的比对信息,从而对整个基因组的纠错结果存在一定的偏向性,导致结果不准 确。因此目前纠错软件仅支持全局比对(即所有数据比对到全基因组上),然后基于全局比对的结果进 行纠错(即所有的数据的比对结果对基因组序列上进行纠错),这样在纠错过程中依然存在内存和时间 消耗的问题。因此,仍需进一步优化纠错方式以降低纠错过程中运行的峰值内存和执行时间。

技术实现思路

[0005]本申请是基于专利技术人对以下问题的发现和认识作出的:
[0006]多项研究表明大基因组的长读长纠错过程中内存飙升,耗时很长;因此,专利技术人经过大量研究发现, 在长读长数据对基因组纠错过程中,将基因组模块处理、比对结果模块处理和长度长数据模块处理,有 效将一个纠错大任务切分成多个纠错小任务;保留了长读长数据与参考基因组之间的全部关联信息,保 证了纠错结果的准确性;同时,这种切分方式可以多个子任务并行执行,有效降低纠错过程耗费的运行 的峰值内存和执行时间,达到
时间效率最大化,实现整个基因组纠错分析成本的降低。
[0007]在本专利技术的第一方面,本专利技术提出了一种用于长读段测序数据纠错的方法。根据本专利技术的实施例, 包括:(1)对参考序列进行分组,以便获得由所述参考序列的一部分构成的多个参考序列子集;(2) 针对所述多个参考序列子集的每一个,分别进行纠错处理,所述纠错处理是基于下列进行的:(a)所 述参考序列子集中所包含的参考序列;(b)总比对结果中与(a)对应的所述比对结果;(c)所述长 读段测序数据中与(a)对应的部分数据;(d)将步骤(2)中各所述参考序列子集中得到的纠错结果 进行整合,以便获得所述长读段测序数据纠错结果。根据本专利技术实施例的方法对长读段测序数据进行纠 错,所述方法通过多任务并行进行数据导入、比对、纠错操作,显著降低了数据纠错的时间,提高了测 序数据的纠错效率。
[0008]根据本专利技术的实施例,上述方法还可以进一步包括如下附加技术特征至少之一:
[0009]根据本专利技术的实施例,对长读段测序数据纠错前,进一步包括以下处理:(3)将所述长读段测序 数据进行分组,以便获得由测序读段构成的多个测序数据子集;(4)将所述多个测序数据子集的每一 个分别与所述参考序列进行比对,以便获得各所述测序数据子集的比对结果;(5)将所述多个测序数 据子集的比对结果合并,以便获得所述多个测序数据子集的总比对结果。
[0010]根据本专利技术的实施例,所述长测序读段为长度10K以上的测序读段。
[0011]根据本专利技术的实施例,所述分组是随机进行的。
[0012]根据本专利技术的实施例,每个所述测序数据子集中所述测序读段的数目不受特别限制。
[0013]根据本专利技术的实施例,在步骤(3)之前,包括:对所述长读段测序数据进行组装,以便获得初步 组装结果,所述初步组装结果构成步骤(4)中的所述参考序列。
[0014]根据本专利技术的实施例,所述步骤(4)和步骤(2)的至少之一为多任务同时进行。
[0015]根据本专利技术的实施例,所述对所述参考序列进行分组是基于下列标准进行的:(1)对所述参考序 列中的每一条序列不进行内部切分;(2)各所述参考序列子集中含有序列的总长度差异不超过20%。
[0016]在本专利技术的第二方面,本专利技术提出了一种测序方法。根据本专利技术的实施例,包括:获取核酸样本; 对所述核酸样本进行长读段测序,以便获得长读段测序数据;对所述测序数据,按照第一方面所述的方 法进行纠错处理,以便获得经过纠错的测序结果。根据本专利技术实施例的方法对长读段测序数据进行纠错, 所述方法通过多任务并行进行数据导入、比对、纠错操作,显著降低了数据纠错的时间,提高了测序数 据的纠错效率。
[0017]根据本专利技术的实施例,上述方法还可以进一步包括如下附加技术特征至少之一:
[0018]根据本专利技术的实施例,所述核酸样本来源于未知基因组序列的宿主。
[0019]在本专利技术的第三方面,本专利技术提出了一种用于长读段测序数据纠错的装置。根据本专利技术的实施例, 包括:第一分组模块,用于将所述长读段测序数据进行分组,以便获得由测序读段构成的多个测序数据 子集;比对模块,用于将所述多个测序数据子集的每一个分别与参考序列进行比对,以便获得各所述测 序数据子集的比对结果;比对结果合并模块,用于将所述多个测序数据子集的比对结果合并,以便获得 所述多个测序数据子集的总比对结果;第二分组模块,用于对所述参考序列进行分组,以便好的由所述 参考序列的一部
分构成的多个参考序列子集;纠错模块,用于针对所述多个参考序列子集的每一个,分 别进行纠错处理,所述纠错处理是基于下列进行的:(a)所述参考序列子集中所包含的参考序列;(b) 总比对结果中与(a)对应的部分比对结果;(c)所述测序数据中与(a)对应的部分测序数据;纠错 结果整合模块,用于将所述多个参考序列子集中得到的纠错结果进行整合,以便获得所述长读段测序数 据纠错结果。
[0020]在本专利技术的第四方面,本专利技术提出了一种用于长读段测序数据纠错的装置本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种用于长读段测序数据纠错的方法,其特征在于,包括:(1)对参考序列进行分组,以便获得由所述参考序列的一部分构成的多个参考序列子集;(2)针对所述多个参考序列子集的每一个,分别进行纠错处理,所述纠错处理是基于下列进行的:(a)所述参考序列子集中所包含的参考序列;(b)总比对结果中与(a)对应的部分比对结果;(c)所述长读段测序数据中与(a)对应的部分测序数据;(d)将步骤(2)中各所述参考序列子集中得到的纠错结果进行整合,以便获得所述长读段测序数据纠错结果。2.根据权利要求1所述的方法,其特征在于,进行步骤(1)前,进一步包括以下处理:(3)将所述长读段测序数据进行分组,以便获得由测序读段构成的多个测序数据子集;(4)将所述多个测序数据子集的每一个分别与所述参考序列进行比对,以便获得各所述测序数据子集的比对结果;(5)将所述多个测序数据子集的比对结果合并,以便获得所述多个测序数据子集的总比对结果。3.根据权利要求2所述的方法,其特征在于,所述长测序读段为长度在10K以上的测序读段。4.根据权利要求2所述的方法,其特征在于,所述分组是随机进行的。5.根据权利要求2所述的方法,其特征在于,在步骤(3)之前,包括:对所述长读段测序数据进行组装,以便获得初步组装结果,所述初步组装结果构成步骤(4)中的所述参考序列。6.根据权利要求1或2所述的方法,其特征在于,所述步骤(4)和步骤(2)的至少之一为多任务同时进行。7.根据权利要求1所述的方法,其特征在于,所述对所述参考序列进行分组是基于下列标准进行的:(1)对所述参考序列中的每一条序列不进行内部切分;(2)各所述参考序列子集中含有序列的总...

【专利技术属性】
技术研发人员:贺丽娟邓天全陈世璇杨林峰谢敏
申请(专利权)人:武汉华大基因技术服务有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1