数据压缩方法、数据解压方法、装置和计算机系统制造方法及图纸

技术编号:27009312 阅读:18 留言:0更新日期:2021-01-08 17:16
本公开提供了一种数据压缩方法,包括:获取测序数据中的质量值序列;获取所述质量值序列中的任一质量值的优先级分数,所述优先级分数表征所述任一质量值对于与所述测序数据相关的基因型的影响程度;基于所述优先级分数对所述任一质量值的比特平面进行位移,得到更新的质量值序列;以及基于比特平面编码算法对所述更新的质量值序列进行编码,得到所述质量值序列的压缩比特流。本公开还提供了一种数据解压方法、数据压缩装置、数据解压装置和计算机系统。

【技术实现步骤摘要】
数据压缩方法、数据解压方法、装置和计算机系统
本公开涉及计算机
,更具体地,本公开涉及一种数据压缩方法、数据解压方法、数据压缩装置、数据解压装置和计算机系统。
技术介绍
在生物信息学/基因组学领域中,通过基因组测序(GenomeSequencing)得到的高通量测序数据通常占据较大数据量,需要对其进行压缩后传输,以进行后续基因组数据处理和分析流程。现有技术中,通常根据测序数据的不同的数据域或数据类型划分成不同的数据块,然后分别进行压缩。目前仅能够实现无损编码,或者损失数据量固定的有损编码。因此灵活性较差,无法实现从无损至不同程度有损的可伸缩式编码。
技术实现思路
本公开的一个方面提供了一种数据压缩方法,包括:获取测序数据中的质量值序列;获取所述质量值序列中的任一质量值的优先级分数,所述优先级分数表征所述任一质量值对于与所述测序数据相关的基因型的影响程度;基于所述优先级分数对所述任一质量值的比特平面进行位移,得到更新的质量值序列;以及,基于比特平面编码算法对所述更新的质量值序列进行编码,得到所述质量值序列的压缩比特流。可选地,上述获取所述质量值序列中的任一质量值的优先级分数包括:为所述任一质量值设置第一偏差量和第二偏差量;在所述任一质量值增加所述第一偏差量的情况下,计算与所述测序数据相关的基因型的第一概率;在所述任一质量值减少所述第二偏差量的情况下,计算与所述测序数据相关的基因型的第二概率;以及,基于所述第一偏差量、所述第二偏差量、所述第一概率和所述第二概率,得到所述任一质量值的优先级分数。可选地,上述计算与所述测序数据相关的基因型的第一概率和所述计算与所述测序数据相关的基因型的第二概率包括:基于贝叶斯算法计算与所述测序数据相关的基因型的后验概率。可选地,上述得到所述任一质量值的优先级分数包括:计算所述第一概率和所述第二概率之间的第三偏差量;将所述第一偏差量和所述第二偏差量之和作为第四偏差量;以及,基于所述第三偏差量和所述第四偏差量的比值,得到所述任一质量值的优先级分数。可选地,上述计算与所述测序数据相关的基因型的第一概率和所述计算与所述测序数据相关的基因型的第二概率包括:当与所述测序数据相关的基因型包括多个基因型时,分别计算所述多个基因型中的任一基因型的第一概率和第二概率;计算所述任一基因型的第一概率和第二概率之间的第三偏差量;将所述第一偏差量和所述第二偏差量之和作为第四偏差量;以及,基于与所述多个基因型中的各基因型对应的第三偏差量的均值与所述第四偏差量的比值得到所述任一质量值的优先级分数,或者,当与所述任一基因型对应的第三偏差量大于与所述多个基因型中的其他基因型对应的第三偏差量时,基于与所述任一基因型对应的第三偏差量与所述第四偏差量的比值得到所述任一质量值的优先级分数。可选地,上述基于所述优先级分数对所述任一质量值的比特平面进行位移包括:当所述优先级分数小于等于零时,确定位移量为0;当所述优先级分数大于零小于第一数值时,确定所述位移量为所述优先级分数的取整结果;当所述优先级分数大于等于所述第一数值时,确定所述位移量为所述第一数值;以及,将所述任一质量值的比特平面移动所述位移量,得到所述更新的质量值序列。可选地,上述测序数据包括按照预定顺序排列的多个短读长序列,所述短读长序列包括多个质量值,所述多个短读长序列中的质量值构成所述质量值序列。可选地,上述方法还包括:在基于所述优先级分数对所述任一质量值的比特平面进行位移之前,根据所述任一质量值的属性信息为所述任一质量值划分区间,所述属性信息包括如下至少一项:所述任一质量值所在的短读长序列的比对方向是正向比对或反向比对,所述任一质量值所在的短读长序列是第一条序列或第二条序列,以及,所述任一质量值在其所在的短读长序列上的位置;以及,对于任一区间内的任一质量值,基于预定映射规则将所述任一质量值映射为更新质量值,使得所述任一区间内的最大更新质量值小于等于所述任一区间内的最大质量值。则上述基于所述优先级分数对所述任一质量值的比特平面进行位移包括:基于所述优先级分数对所述更新质量值的比特平面进行位移。可选地,上述基于所述优先级分数对所述更新的所述任一质量值的比特平面进行位移包括:对于所述任一区间,基于所述任一区间内的最大更新质量值确定关于所述任一区间的最大比特平面;对于任一更新质量值,计算所述任一更新质量值的二进制数据,以所述任一更新质量值所属的区间的最大比特平面作为所述二进制数据的最高位;基于与所述任一更新质量值对应的质量值的优先级分数对所述二进制数据的比特平面进行位移;以及,由位移后的各更新质量值的二进制数据构成所述更新的质量值序列。可选地,上述基于比特平面编码算法对所述更新的质量值序列进行编码包括:按照比特平面从高至低的顺序对所述更新的质量值序列进行扫描,依次记录扫描到的比特位的取值,其中,如果扫描到的比特位的取值不存在,则跳过该比特位。可选地,上述基于所述任一区间内的最大更新质量值确定关于所述任一区间的最大比特平面包括:将所述最大更新质量值的最高位作为所述最大比特平面。并且/或者,上述计算所述任一更新质量值的二进制数据包括:将所述任一更新质量值与所述任一更新质量值所属的区间内的最小更新质量值之间的差值转换为二进制形式,得到所述二进制数据。本公开的另一方面提供了一种数据解压方法,包括:获取质量值序列的压缩比特流,所述质量值序列被划分为一个或多个区间,所述质量值序列包括多个质量值;获取任一区间的最大比特平面和任一质量值的优先级分数;基于所述最大比特平面、所述优先级分数、以及比特平面编码算法对所述压缩比特流进行解码,得到所述质量值序列;以及,基于所述质量值序列,得到与所述质量值序列匹配的测序数据。其中,所述优先级分数表征所述任一质量值的比特平面的位移,所述优先级分数表征所述任一质量值对于与所述测序数据相关的基因型的影响程度。可选地,上述获取质量值序列的压缩比特流包括:获取所述质量值序列的全部压缩比特流。上述基于所述最大比特平面、所述优先级分数、以及比特平面编码算法对所述压缩比特流进行解码包括:对于任一质量值,根据各区间的最大比特平面、所述任一质量值所属的区间的最大比特平面、以及所述任一质量值的优先级分数,确定所述任一质量值的比特位分布;以及,基于所述比特位分布,按照比特平面从高至低的顺序将所述压缩比特流的取值依次填入各比特位,得到所述质量值序列。可选地,上述获取质量值序列的压缩比特流包括:获取所述质量值序列的压缩比特流的前预定数量个比特位。上述基于所述最大比特平面、所述优先级分数、以及比特平面编码算法对所述压缩比特流进行解码包括:对于任一质量值,根据各区间的最大比特平面、所述任一质量值所属的区间的最大比特平面、以及所述任一质量值的优先级分数,确定所述任一质量值的比特位分布;基于所述比特位分布,按照比特平面从高至低的顺序将所述前预定数量个比特位的取值依次填入各比特位;以及,对于任一质量值,如果存在无取值的比特位,对所述任一质量值进行重构,得到所述质量值序列。可选地,上述对所述任一本文档来自技高网...

【技术保护点】
1.一种数据压缩方法,包括:/n获取测序数据中的质量值序列;/n获取所述质量值序列中的任一质量值的优先级分数,所述优先级分数表征所述任一质量值对于与所述测序数据相关的基因型的影响程度;/n基于所述优先级分数对所述任一质量值的比特平面进行位移,得到更新的质量值序列;以及/n基于比特平面编码算法对所述更新的质量值序列进行编码,得到所述质量值序列的压缩比特流。/n

【技术特征摘要】
1.一种数据压缩方法,包括:
获取测序数据中的质量值序列;
获取所述质量值序列中的任一质量值的优先级分数,所述优先级分数表征所述任一质量值对于与所述测序数据相关的基因型的影响程度;
基于所述优先级分数对所述任一质量值的比特平面进行位移,得到更新的质量值序列;以及
基于比特平面编码算法对所述更新的质量值序列进行编码,得到所述质量值序列的压缩比特流。


2.根据权利要求1所述的方法,其中,所述获取所述质量值序列中的任一质量值的优先级分数包括:
为所述任一质量值设置第一偏差量和第二偏差量;
在所述任一质量值增加所述第一偏差量的情况下,计算与所述测序数据相关的基因型的第一概率;
在所述任一质量值减少所述第二偏差量的情况下,计算与所述测序数据相关的基因型的第二概率;以及
基于所述第一偏差量、所述第二偏差量、所述第一概率和所述第二概率,得到所述任一质量值的优先级分数。


3.根据权利要求2所述的方法,其中,所述计算与所述测序数据相关的基因型的第一概率和所述计算与所述测序数据相关的基因型的第二概率包括:基于贝叶斯算法计算与所述测序数据相关的基因型的后验概率。


4.根据权利要求2所述的方法,其中,所述得到所述任一质量值的优先级分数包括:
计算所述第一概率和所述第二概率之间的第三偏差量;
将所述第一偏差量和所述第二偏差量之和作为第四偏差量;以及
基于所述第三偏差量和所述第四偏差量的比值,得到所述任一质量值的优先级分数。


5.根据权利要求2所述的方法,其中,所述计算与所述测序数据相关的基因型的第一概率和所述计算与所述测序数据相关的基因型的第二概率包括:当与所述测序数据相关的基因型包括多个基因型时,分别计算所述多个基因型中的任一基因型的第一概率和第二概率;
所述得到所述任一质量值的优先级分数包括:
计算所述任一基因型的第一概率和第二概率之间的第三偏差量;
将所述第一偏差量和所述第二偏差量之和作为第四偏差量;以及
基于与所述多个基因型中的各基因型对应的第三偏差量的均值与所述第四偏差量的比值得到所述任一质量值的优先级分数,或者,当与所述任一基因型对应的第三偏差量大于与所述多个基因型中的其他基因型对应的第三偏差量时,基于与所述任一基因型对应的第三偏差量与所述第四偏差量的比值得到所述任一质量值的优先级分数。


6.根据权利要求1所述的方法,其中,所述基于所述优先级分数对所述任一质量值的比特平面进行位移包括:
当所述优先级分数小于等于零时,确定位移量为0;
当所述优先级分数大于零小于第一数值时,确定所述位移量为所述优先级分数的取整结果;
当所述优先级分数大于等于所述第一数值时,确定所述位移量为所述第一数值;以及
将所述任一质量值的比特平面移动所述位移量,得到所述更新的质量值序列。


7.根据权利要求1所述的方法,其中,所述测序数据包括按照预定顺序排列的多个短读长序列,所述短读长序列包括多个质量值,所述多个短读长序列中的质量值构成所述质量值序列。


8.根据权利要求7所述的方法,还包括:
在基于所述优先级分数对所述任一质量值的比特平面进行位移之前,
根据所述任一质量值的属性信息为所述任一质量值划分区间,所述属性信息包括如下至少一项:所述任一质量值所在的短读长序列的比对方向是正向比对或反向比对,所述任一质量值所在的短读长序列是第一条序列或第二条序列,以及,所述任一质量值在其所在的短读长序列上的位置;以及
对于任一区间内的任一质量值,基于预定映射规则将所述任一质量值映射为更新质量值,使得所述任一区间内的最大更新质量值小于等于所述任一区间内的最大质量值;
则所述基于所述优先级分数对所述任一质量值的比特平面进行位移包括:基于所述优先级分数对所述更新质量值的比特平面进行位移。


9.根据权利要求8所述的方法,其中,所述基于所述优先级分数对所述更新的所述任一质量值的比特平面进行位移包括:
对于所述任一区间,基于所述任一区间内的最大更新质量值确定关于所述任一区间的最大比特平面;
对于任一更新质量值,计算所述任一更新质量值的二进制数据,以所述任一更新质量值所属的区间的最大比特平面作为所述二进制数据的最高位;
基于与所述任一更新质量值对应的质量值的优先级分数对所述二进制数据的比特平面进行位移;以及
由位移后的各更新质量值的二进制数据构成所述更新的质量值序列。


10.根据权利要求9所述的方法,其中,所述基于比特平面编码算法对所述更新的质量值序列进行编码包括:
按照比特平面从高至低的顺序对所述更新的质量...

【专利技术属性】
技术研发人员:杨文娴
申请(专利权)人:厦门极元科技有限公司
类型:发明
国别省市:福建;35

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1