【技术实现步骤摘要】
基因序列处理方法以及系统
[0001]本说明书实施例涉及基因检测
,特别涉及基因序列处理方法以及系统。
技术介绍
[0002]在生物信息学中其主要任务之一就是进行采集和分析基因数据,这些数据对于基因研究来讲非常重要。而测序作为其中的一种重要手段,是指将DNA化学信号转换为计算机可处理的数学信号,用于实现在基因数据分析时使用。而现有技术中,在对基因数据存储前大多数需要经过比对和压缩两个过程。比对过程的准确性能够影响后续的压缩率,通常都是采用哈希比对的方式实现,但是其准确性较低;若提高比对精度,则需要消耗更多的计算资源,因此亟需一种有效的方案以解决上述问题。
技术实现思路
[0003]有鉴于此,本说明书实施例提供了基因序列处理方法。本说明书一个或者多个实施例同时涉及基因序列处理装置,基因序列处理系统,一种计算设备,一种计算机可读存储介质以及一种计算机程序,以解决现有技术中存在的技术缺陷。
[0004]根据本说明书实施例的第一方面,提供了一种基因序列处理方法,包括:
[0005]获取测序基因序列和所述测序基因序列关联的参考基因序列;
[0006]计算所述测序基因序列对应的序列哈希值,以及读取所述参考基因序列对应的哈希表;
[0007]根据所述哈希表确定所述序列哈希值不满足序列压缩条件的情况下,利用预设比对策略对所述测序基因序列和所述参考基因序列进行比对;
[0008]根据比对结果构建所述测序基因序列对应的序列栅格图,作为对所述测序基因序列的压缩结果。
[ ...
【技术保护点】
【技术特征摘要】
1.一种基因序列处理方法,包括:获取测序基因序列和所述测序基因序列关联的参考基因序列;计算所述测序基因序列对应的序列哈希值,以及读取所述参考基因序列对应的哈希表;根据所述哈希表确定所述序列哈希值不满足序列压缩条件的情况下,利用预设比对策略对所述测序基因序列和所述参考基因序列进行比对;根据比对结果构建所述测序基因序列对应的序列栅格图,作为对所述测序基因序列的压缩结果。2.根据权利要求1所述的方法,所述获取测序基因序列和所述测序基因序列关联的参考基因序列,包括:获取对应目标基因数据格式的基因数据;确定所述基因数据对应的基因类型,以及在所述基因数据中提取所述测序基因序列;选择所述基因类型对应的基准基因序列,作为所述测序基因序列关联的参考基因序列。3.根据权利要求1所述的方法,所述计算所述测序基因序列对应的序列哈希值,以及读取所述参考基因序列对应的哈希表步骤执行之前,还包括:对所述参考基因序列进行拆分,获得多个子基因序列;对所述多个子基因序列分别进行哈希运算,获得所述多个子基因序列分别对应的参考哈希值;根据所述多个子基因序列分别对应的参考哈希值,构建所述参考基因序列对应的哈希表。4.根据权利要求1所述的方法,所述根据所述哈希表确定所述序列哈希值不满足序列压缩条件的情况下,利用预设比对策略对所述测序基因序列和所述参考基因序列进行比对,包括:在所述序列哈希值与所述哈希表中包含的参考哈希值未匹配的情况下,确定所述序列哈希值不满足所述序列压缩条件,则执行利用预设比对策略对所述测序基因序列和所述参考基因序列进行比对的步骤;或者,在所述序列哈希值与所述哈希表中包含的参考哈希值匹配,且所述测序基因序列中存在变更信息的情况下,确定所述序列哈希值不满足所述序列压缩条件,则执行利用预设比对策略对所述测序基因序列和所述参考基因序列进行比对的步骤。5.根据权利要求1所述的方法,所述根据所述哈希表确定所述序列哈希值不满足序列压缩条件的情况下,利用预设比对策略对所述测序基因序列和所述参考基因序列进行比对,包括:将所述序列哈希值与所述哈希表中包含的参考哈希值进行匹配;根据匹配结果确定目标参考哈希值,并根据所述目标参考哈希值在所述参考基因序列中提取目标子基因序列;对所述测序基因序列和所述目标子基因序列进行残差计算,根据计算结果确定残差信息;在所述残差信息不满足预设残差条件的情况下,确定所述序列哈希值不满足所述序列
压缩条件,则执行利用预设比对策略对所述测序基因序列和所述参考基因序列进行比对的步骤。6.根据权利要求1所述的方法,所述利用预设比对策略对所述测序基因序列和所述参考基因序列进行比对,包...
【专利技术属性】
技术研发人员:胡耀,罗辉浩,杨晔辉,李文兆,
申请(专利权)人:阿里巴巴中国有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。