基因序列处理方法以及系统技术方案

技术编号:38007429 阅读:12 留言:0更新日期:2023-06-30 10:24
本说明书实施例提供基因序列处理方法以及装置,其中所述基因序列处理方法包括:获取测序基因序列和所述测序基因序列关联的参考基因序列;计算所述测序基因序列对应的序列哈希值,以及读取所述参考基因序列对应的哈希表;根据所述哈希表确定所述序列哈希值不满足序列压缩条件的情况下,利用预设比对策略对所述测序基因序列和所述参考基因序列进行比对;根据比对结果构建所述测序基因序列对应的序列栅格图,作为对所述测序基因序列的压缩结果。果。果。

【技术实现步骤摘要】
基因序列处理方法以及系统


[0001]本说明书实施例涉及基因检测
,特别涉及基因序列处理方法以及系统。

技术介绍

[0002]在生物信息学中其主要任务之一就是进行采集和分析基因数据,这些数据对于基因研究来讲非常重要。而测序作为其中的一种重要手段,是指将DNA化学信号转换为计算机可处理的数学信号,用于实现在基因数据分析时使用。而现有技术中,在对基因数据存储前大多数需要经过比对和压缩两个过程。比对过程的准确性能够影响后续的压缩率,通常都是采用哈希比对的方式实现,但是其准确性较低;若提高比对精度,则需要消耗更多的计算资源,因此亟需一种有效的方案以解决上述问题。

技术实现思路

[0003]有鉴于此,本说明书实施例提供了基因序列处理方法。本说明书一个或者多个实施例同时涉及基因序列处理装置,基因序列处理系统,一种计算设备,一种计算机可读存储介质以及一种计算机程序,以解决现有技术中存在的技术缺陷。
[0004]根据本说明书实施例的第一方面,提供了一种基因序列处理方法,包括:
[0005]获取测序基因序列和所述测序基因序列关联的参考基因序列;
[0006]计算所述测序基因序列对应的序列哈希值,以及读取所述参考基因序列对应的哈希表;
[0007]根据所述哈希表确定所述序列哈希值不满足序列压缩条件的情况下,利用预设比对策略对所述测序基因序列和所述参考基因序列进行比对;
[0008]根据比对结果构建所述测序基因序列对应的序列栅格图,作为对所述测序基因序列的压缩结果。
[0009]根据本说明书实施例的第二方面,提供了一种基因序列处理装置,包括:
[0010]获取模块,被配置为获取测序基因序列和所述测序基因序列关联的参考基因序列;
[0011]计算模块,被配置为计算所述测序基因序列对应的序列哈希值,以及读取所述参考基因序列对应的哈希表;
[0012]比对模块,被配置为根据所述哈希表确定所述序列哈希值不满足序列压缩条件的情况下,利用预设比对策略对所述测序基因序列和所述参考基因序列进行比对;
[0013]构建模块,被配置为根据比对结果构建所述测序基因序列对应的序列栅格图,作为对所述测序基因序列的压缩结果。
[0014]根据本说明书实施例的第三方面,提供了另一种基因序列处理方法,包括:
[0015]接收关联测序基因序列的解压请求;
[0016]响应于所述解压请求加载序列栅格图,以及确定参考基因序列;
[0017]在所述序列栅格图与预设比对策略具有比对关系的情况下,根据所述参考基因序
列确定序列还原信息;
[0018]基于所述序列还原信息和所述序列栅格图还原所述测序基因序列。
[0019]根据本说明书实施例的第四方面,提供了另一种基因序列处理装置,包括:
[0020]接收模块,被配置为接收关联测序基因序列的解压请求;
[0021]加载模块,被配置为响应于所述解压请求加载序列栅格图,以及确定参考基因序列;
[0022]确定模块,被配置为在所述序列栅格图与预设比对策略具有比对关系的情况下,根据所述参考基因序列确定序列还原信息;
[0023]还原模块,被配置为基于所述序列还原信息和所述序列栅格图还原所述测序基因序列。
[0024]根据本说明书实施例的第五方面,提供了一种基因序列处理系统,包括:
[0025]服务端和数据库;
[0026]所述数据库用于存储基因序列,所述服务端用于执行基因序列处理可执行指令,该基因序列处理可执行指令被所述服务端执行时实现任上述基因序列处理方法的步骤。
[0027]根据本说明书实施例的第六方面,提供了一种计算设备,包括:
[0028]存储器和处理器;
[0029]所述存储器用于存储计算机可执行指令,所述处理器用于执行所述计算机可执行指令时实现任上述基因序列处理方法的步骤。
[0030]根据本说明书实施例的第七方面,提供了一种计算机可读存储介质,其存储有计算机可执行指令,该指令被处理器执行时实现上述基因序列处理方法的步骤。
[0031]根据本说明书实施例的第八方面,提供了一种计算机程序,其中,当所述计算机程序在计算机中执行时,令计算机执行上述基因序列处理方法的步骤。
[0032]本说明书提供的基因序列处理方法,为了能够提高比对精度和压缩效率,可以在获取到测序基因序列的同时,加载测序基因序列关联的参考基因序列,之后再计算测序基因序列对应的序列哈希值,以及读取参考基因序列对应的哈希表;此时通过将序列哈希值与哈希表中包含的哈希值进行匹配,即可确定二者的比对情况;在此基础上,为了能够弥补哈希比对精度低的问题,可以在初步比对后确定序列哈希值不满足序列压缩条件的情况下,进行深度比对,即先利用预设比对策略对测序基因序列和参考基因序列进行比对,从而实现根据比对结果构建出测序基因序列对应的序列栅格图,以作为测序基因序列的压缩结果,实现在哈希比对的基础上进行深度比对,从而提高整体比对的准确性性,在比对精度提升的情况下再进行压缩,可以提高数据压缩率,以满足下游服务使用。
附图说明
[0033]图1是本说明书一个实施例提供的一种基因序列处理的结构示意图;
[0034]图2是本说明书一个实施例提供的一种基因序列处理方法的流程图;
[0035]图3是本说明书一个实施例提供的一种基因序列处理方法的处理过程流程图;
[0036]图4是本说明书一个实施例提供的一种基因序列处理装置的结构示意图;
[0037]图5是本说明书一个实施例提供的另一种基因序列处理方法的流程图;
[0038]图6是本说明书一个实施例提供的另一种基因序列处理装置的结构示意图;
[0039]图7是本说明书一个实施例提供的一种计算设备的结构框图。
具体实施方式
[0040]在下面的描述中阐述了很多具体细节以便于充分理解本说明书。但是本说明书能够以很多不同于在此描述的其它方式来实施,本领域技术人员可以在不违背本说明书内涵的情况下做类似推广,因此本说明书不受下面公开的具体实施的限制。
[0041]在本说明书一个或多个实施例中使用的术语是仅仅出于描述特定实施例的目的,而非旨在限制本说明书一个或多个实施例。在本说明书一个或多个实施例和所附权利要求书中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式,除非上下文清楚地表示其他含义。还应当理解,本说明书一个或多个实施例中使用的术语“和/或”是指并包含一个或多个相关联的列出项目的任何或所有可能组合。
[0042]应当理解,尽管在本说明书一个或多个实施例中可能采用术语第一、第二等来描述各种信息,但这些信息不应限于这些术语。这些术语仅用来将同一类型的信息彼此区分开。例如,在不脱离本说明书一个或多个实施例范围的情况下,第一也可以被称为第二,类似地,第二也可以被称为第一。取决于语境,如在此所使用的词语“如果”可以被解释成为“在
本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基因序列处理方法,包括:获取测序基因序列和所述测序基因序列关联的参考基因序列;计算所述测序基因序列对应的序列哈希值,以及读取所述参考基因序列对应的哈希表;根据所述哈希表确定所述序列哈希值不满足序列压缩条件的情况下,利用预设比对策略对所述测序基因序列和所述参考基因序列进行比对;根据比对结果构建所述测序基因序列对应的序列栅格图,作为对所述测序基因序列的压缩结果。2.根据权利要求1所述的方法,所述获取测序基因序列和所述测序基因序列关联的参考基因序列,包括:获取对应目标基因数据格式的基因数据;确定所述基因数据对应的基因类型,以及在所述基因数据中提取所述测序基因序列;选择所述基因类型对应的基准基因序列,作为所述测序基因序列关联的参考基因序列。3.根据权利要求1所述的方法,所述计算所述测序基因序列对应的序列哈希值,以及读取所述参考基因序列对应的哈希表步骤执行之前,还包括:对所述参考基因序列进行拆分,获得多个子基因序列;对所述多个子基因序列分别进行哈希运算,获得所述多个子基因序列分别对应的参考哈希值;根据所述多个子基因序列分别对应的参考哈希值,构建所述参考基因序列对应的哈希表。4.根据权利要求1所述的方法,所述根据所述哈希表确定所述序列哈希值不满足序列压缩条件的情况下,利用预设比对策略对所述测序基因序列和所述参考基因序列进行比对,包括:在所述序列哈希值与所述哈希表中包含的参考哈希值未匹配的情况下,确定所述序列哈希值不满足所述序列压缩条件,则执行利用预设比对策略对所述测序基因序列和所述参考基因序列进行比对的步骤;或者,在所述序列哈希值与所述哈希表中包含的参考哈希值匹配,且所述测序基因序列中存在变更信息的情况下,确定所述序列哈希值不满足所述序列压缩条件,则执行利用预设比对策略对所述测序基因序列和所述参考基因序列进行比对的步骤。5.根据权利要求1所述的方法,所述根据所述哈希表确定所述序列哈希值不满足序列压缩条件的情况下,利用预设比对策略对所述测序基因序列和所述参考基因序列进行比对,包括:将所述序列哈希值与所述哈希表中包含的参考哈希值进行匹配;根据匹配结果确定目标参考哈希值,并根据所述目标参考哈希值在所述参考基因序列中提取目标子基因序列;对所述测序基因序列和所述目标子基因序列进行残差计算,根据计算结果确定残差信息;在所述残差信息不满足预设残差条件的情况下,确定所述序列哈希值不满足所述序列
压缩条件,则执行利用预设比对策略对所述测序基因序列和所述参考基因序列进行比对的步骤。6.根据权利要求1所述的方法,所述利用预设比对策略对所述测序基因序列和所述参考基因序列进行比对,包...

【专利技术属性】
技术研发人员:胡耀罗辉浩杨晔辉李文兆
申请(专利权)人:阿里巴巴中国有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1