【技术实现步骤摘要】
一种基因数据的查询方法、系统、设备及存储介质
本专利技术涉及基因数据比对
,特别是涉及一种基因数据的查询方法、系统、设备及存储介质。
技术介绍
随着第二代、第三代基因测序技术的快速发展,基因序列数据量快速增长,如何高效地存储、访问、查询这些海量数据,是目前业界面临的一大挑战。基因测序应用的关键要求是需要迅速并准确的将DNA子序列映射到参考基因组上,并且,基因数据通常都是压缩后的数据,可以方便保存和传输,但是,当需要精确查询时,传统的查询方式便需要进行在线解压缩,使得这样的方式运行性能非常低,查询耗时非常长。目前,还有的一类方案是基于整体的压缩方法对数据进行索引,这样的方法需要对所有基因序列进行连接之后,进行整体的压缩索引,从而支持快速查询。但是,这样的方案构建基因序列索引的开销非常大。另一类方案是基于基准序列来构建签名索引,常见的是通过q-gram倒排索引法来索引基准序列,将query序列分成长度为q的子序列作为签名索引,这种方法构建索引的开销非常小。但是,要求query长度至少大于q,而且q的取值会影 ...
【技术保护点】
1.一种基因数据的查询方法,其特征在于,包括:/n将待测序列均分为x+t条seed,并将基准序列均分为x+t条子序列;x为预设的编辑距离阈值,t为长度调整参数;/n将每一个seed均与所述基准序列进行匹配,确定出每一个匹配位置;/n对确定出的每一个匹配位置进行左扩展以及右扩展,并在进行任意方向的扩展时,当编辑距离达到x时或者扩展至所述待测序列的末尾时则结束该方向的扩展;/n根据每一个匹配位置的扩展长度以及编辑距离确定出该匹配位置对应的扩展质量评分;/n将扩展质量评分低于预设质量评分阈值的匹配位置进行过滤,并基于过滤后的各个匹配位置确定出所述待测序列在所述基准序列中的定位。/n
【技术特征摘要】 【专利技术属性】
1.一种基因数据的查询方法,其特征在于,包括:
将待测序列均分为x+t条seed,并将基准序列均分为x+t条子序列;x为预设的编辑距离阈值,t为长度调整参数;
将每一个seed均与所述基准序列进行匹配,确定出每一个匹配位置;
对确定出的每一个匹配位置进行左扩展以及右扩展,并在进行任意方向的扩展时,当编辑距离达到x时或者扩展至所述待测序列的末尾时则结束该方向的扩展;
根据每一个匹配位置的扩展长度以及编辑距离确定出该匹配位置对应的扩展质量评分;
将扩展质量评分低于预设质量评分阈值的匹配位置进行过滤,并基于过滤后的各个匹配位置确定出所述待测序列在所述基准序列中的定位。
2.根据权利要求1所述的基因数据的查询方法,其特征在于,所述将每一个seed均与所述基准序列进行匹配,确定出每一个匹配位置,包括:
将每一个seed均与所述基准序列进行匹配,通过哈希查表的方式确定出每一个匹配位置。
3.根据权利要求1所述的基因数据的查询方法,其特征在于,还包括:
当确定出的匹配位置的数量大于预设的数量阈值y时,则降低t的取值,并返回执行所述将待测序列均分为x+t条seed,并将基准序列均分为x+t条子序列的操作。
4.根据权利要求1所述的基因数据的查询方法,其特征在于,所述根据每一个匹配位置的扩展长度以及编辑距离确定出该匹配位置对应的扩展质量评分,包括:
将扩展长度作为第一优先级,编辑距离作为第二优先级,确定出每一个匹配位置对应的扩展质量评分。
5.根据权利要求1至4任一项所述的基因数据的查询方法,其特征在于,还包括:预设包括n个序列片段的片段库,每个序列片段包括第一片段信息以及第二片段信息;
相应的,所述对确定出的每一个匹配位置进行左扩展以及右扩展,包括:
对确定出的每一个匹配位置进行左扩展以及右扩展,并在进行任意方向的扩展时,当扩展时出现的序列片段符合所述片段库中的任意一个序列片段时,计算并保存该序列片段所对应的编辑距离,以使得后续扩展时再次出现该序列片段时,通过保存下的编辑距离代替编辑距离的计算;
其中,扩展时出现的序列片段符合所述片段库中的任意一个序列片段,表示:扩展时seed的片段信息符合所述片段库中的任意一个序列片段的第一片段信息,且对应的所述基准序列的子序列的片段信息符合所述片段库中的该序列片段的第二片段信息。
技术研发人员:葛沅,史宏志,赵健,
申请(专利权)人:浪潮北京电子信息产业有限公司,
类型:发明
国别省市:北京;11
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。