高通量测序背景下的基因数据压缩方法、装置及相关设备制造方法及图纸

技术编号:35531543 阅读:14 留言:0更新日期:2022-11-09 14:55
本申请公开了一种高通量测序背景下的基因数据压缩方法、装置及相关设备,该方法包括:获取待压缩的基因数据,并从所述基因数据中获取各短序列的元数据、碱基数据和质量数据;采用增量编码技术或游程长度编码技术对各短序列的元数据进行压缩;利用预设的参考基因组对各短序列的碱基数据进行比对,并根据比对结果对各短序列的碱基数据进行压缩;结合游程长度编码技术、上下文统计模型、ANS+FSE编码技术、算术编码技术和/或哈夫曼编码技术对各短序列的质量数据进行压缩。本申请通过针对基于数据中的不同部分,分别采用与之相适配的压缩方法进行压缩,可以提高压缩率,从而节省海量基因数据的存储空间。数据的存储空间。数据的存储空间。

【技术实现步骤摘要】
高通量测序背景下的基因数据压缩方法、装置及相关设备


[0001]本申请涉及基因测序
,更具体地说,是涉及一种高通量测序背景下的基因数据压缩方法、装置及相关设备。

技术介绍

[0002]基因测序技术作为探索生命奥秘的重要手段,已经成为了生物信息学研究的重要分支,在物种鉴别、基因检测、疾病诊断等方面有着广泛的应用,基因测序技术的飞速发展为精准医疗奠定了坚实的基础。
[0003]随着基因测序技术的发展,测序成本越来越低,导致测序业务规模越来越广,基因测序数据量呈爆炸式增长。虽然磁盘存储的成本也随着时间的推移而稳步下降,但它并没有与测序成本和数量的巨大变化相匹配。当前基因分析流程中使用的多为对通用数据进行处理的压缩软件,没有利用基因数据的特性进行压缩,且压缩在流程中作为单独的步骤,在压缩速度和压缩率方面存在不足,这也制约了数据压缩对于缓解海量基因数据能够起到的作用。
[0004]如何在现有的计算资源及存储资源下,对测序数据进行高效压缩,是值得探究的技术问题。

技术实现思路

[0005]有鉴于此,本申请提供了一种高通量测序背景下的基因数据压缩方法、装置及相关设备,以实现基因数据的高效压缩。
[0006]为实现上述目的,本申请第一方面提供了一种高通量测序背景下的基因数据压缩方法,包括:
[0007]获取待压缩的基因数据,并从所述基因数据中获取各短序列的元数据、碱基数据和质量数据;
[0008]采用增量编码技术或游程长度编码技术对各短序列的元数据进行压缩,得到第一压缩结果;
[0009]利用预设的参考基因组对各短序列的碱基数据进行比对,并根据比对结果对各短序列的碱基数据进行压缩,得到第二压缩结果;
[0010]结合游程长度编码技术、上下文统计模型、ANS+FSE编码技术、算术编码技术和/或哈夫曼编码技术对各短序列的质量数据进行压缩,得到第三压缩结果。
[0011]优选地,所述结合游程长度编码技术、上下文统计模型、ANS+FSE编码技术、算术编码技术和/或哈夫曼编码技术对各短序列的质量数据进行压缩,得到第三压缩结果的过程,包括:
[0012]通过预设的自适应模型确定各短序列的质量数据的复杂度,并基于所述复杂度确定第一目标阶数的上下文统计模型;
[0013]利用所述第一目标阶数的上下文统计模型对所述质量数据进行压缩,得到第一中
间压缩结果;
[0014]采用游程长度编码技术、ANS+FSE编码技术、算术编码技术或哈夫曼编码技术对所述第一中间压缩结果进行压缩,得到第三压缩结果。
[0015]优选地,所述利用预设的参考基因组对各短序列的碱基数据进行比对,并根据比对结果对所述碱基数据进行压缩的过程,包括:
[0016]将每一短序列中的碱基数据划分成多个子序列;
[0017]采用哈希比对方法将每一子序列与预设的参考基因组进行比对,得到每一子序列的匹配信息,所述匹配信息包括错配值;
[0018]对于错配值小于或等于预设阈值的子序列,基于所述子序列的匹配信息,对所述子序列进行压缩;
[0019]对于错配值大于预设阈值的子序列,结合游程长度编码技术、上下文统计模型、ANS+FSE编码技术、算术编码技术和/或哈夫曼编码技术对所述子序列进行压缩。
[0020]优选地,所述采用哈希比对方法将每一子序列与预设的参考基因组进行比对,得到每一子序列的匹配信息的过程,包括:
[0021]利用每一子序列的哈希值作为查询条件,在预设的哈希表进行查询,得到每一子序列的匹配信息;
[0022]其中,所述预设的哈希表记载有所述参考基因组中各参考子序列的哈希值以及各参考子序列在所述参考基因组中的位置信息,所述各参考子序列为从所述参考基因组划分得到的。
[0023]优选地,所述匹配信息包括所述子序列对应于所述参考基因组的位置信息;所述对于错配值小于或等于预设阈值的子序列,基于所述子序列的匹配信息,对所述子序列进行压缩的过程,包括:
[0024]基于所述位置信息和所述错配值,对所述子序列进行排序,得到排序后的子序列;
[0025]基于所述子序列的位置信息,对所述排序后的子序列进行增量编码压缩。
[0026]优选地,所述对于错配值大于预设阈值的子序列,结合游程长度编码技术、上下文统计模型、ANS+FSE编码技术、算术编码技术和/或哈夫曼编码技术对所述子序列进行压缩的过程,包括:
[0027]利用游程长度编码对所述子序列进行预处理,得到消除冗余后的子序列;
[0028]基于消除冗余后的子序列的复杂度,确定第二目标阶数的上下文统计模型;
[0029]利用所述第二目标阶数的上下文统计模型对所述消除冗余后的子序列进行压缩,得到第二中间压缩结果;
[0030]采用游程长度编码技术、ANS+FSE编码技术、算术编码技术或哈夫曼编码技术对所述第二中间压缩结果进行压缩。
[0031]优选地,所述获取待压缩的基因数据,并从所述基因数据中获取各短序列的元数据、碱基数据和质量数据的过程,包括:
[0032]当第一存储器的第一预留区域中的可用空间达到预设容量时,获取预设大小的基因数据块,所述基因数据块为从测序平台实时传入的短序列集合,所述待压缩的基因数据包含多个所述基因数据块;
[0033]将所述基因数据块输入至所述第一存储器的第一预留区域中,所述第一预留区域
具备容纳N个基因数据块的能力,所述预设大小不大于所述预设容量;
[0034]从所述基因数据块中获取各短序列的元数据、碱基数据和质量数据;
[0035]所述对各短序列的元数据、质量数据进行压缩,得到第一压缩结果,以及所述碱基数据进行压缩,得到第二压缩结果,以及对各短序列的质量数据进行压缩,得到第三压缩结果的过程,包括:
[0036]对所述基因数据块中的各短序列的元数据进行压缩,得到所述基因数据块的第一压缩结果;
[0037]对所述基因数据块中的各短序列中的碱基数据进行压缩,得到所述基因数据块的第二压缩结果;
[0038]对所述基因数据块中的各短序列的质量数据进行压缩,得到所述基因数据块的第三压缩结果;
[0039]在得到所述基因数据块的第一压缩结果、得到所述基因数据块的第二压缩结果以及得到所述基因数据块的第三压缩结果之后,还包括:
[0040]基于所述基因数据块的第一压缩结果、第二压缩结果和第三压缩结果,生成所述基因数据块的基因数据压缩块;
[0041]将所述基因数据压缩块保留在第一存储器的第二预留区域中,并从第一存储器中释放所述基因数据块,所述第二预留区域具备容纳M个基因数据压缩块的能力;
[0042]当第一存储器中的基因数据压缩块的数目达到J之后,将J个基因数据压缩块输出至第二存储器中,并从第一存储器中释放所述J个基因数据压缩块;
[0043]其中,N、M、J均为预设的自然数,且J不大于M。
[0044]优选地,还包本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种高通量测序背景下的基因数据压缩方法,其特征在于,包括:获取待压缩的基因数据,并从所述基因数据中获取各短序列的元数据、碱基数据和质量数据;采用增量编码技术或游程长度编码技术对各短序列的元数据进行压缩,得到第一压缩结果;利用预设的参考基因组对各短序列的碱基数据进行比对,并根据比对结果对各短序列的碱基数据进行压缩,得到第二压缩结果;结合游程长度编码技术、上下文统计模型、ANS+FSE编码技术、算术编码技术和/或哈夫曼编码技术对各短序列的质量数据进行压缩,得到第三压缩结果。2.根据权利要求1所述的方法,其特征在于,所述结合游程长度编码技术、上下文统计模型、ANS+FSE编码技术、算术编码技术和/或哈夫曼编码技术对各短序列的质量数据进行压缩,得到第三压缩结果的过程,包括:通过预设的自适应模型确定各短序列的质量数据的复杂度,并基于所述复杂度确定第一目标阶数的上下文统计模型;利用所述第一目标阶数的上下文统计模型对所述质量数据进行压缩,得到第一中间压缩结果;采用游程长度编码技术、ANS+FSE编码技术、算术编码技术或哈夫曼编码技术对所述第一中间压缩结果进行压缩,得到第三压缩结果。3.根据权利要求1所述的方法,其特征在于,所述利用预设的参考基因组对各短序列的碱基数据进行比对,并根据比对结果对所述碱基数据进行压缩的过程,包括:将每一短序列中的碱基数据划分成多个子序列;采用哈希比对方法将每一子序列与预设的参考基因组进行比对,得到每一子序列的匹配信息,所述匹配信息包括错配值;对于错配值小于或等于预设阈值的子序列,基于所述子序列的匹配信息,对所述子序列进行压缩;对于错配值大于预设阈值的子序列,结合游程长度编码技术、上下文统计模型、ANS+FSE编码技术、算术编码技术和/或哈夫曼编码技术对所述子序列进行压缩。4.根据权利要求3所述的方法,其特征在于,所述采用哈希比对方法将每一子序列与预设的参考基因组进行比对,得到每一子序列的匹配信息的过程,包括:利用每一子序列的哈希值作为查询条件,在预设的哈希表进行查询,得到每一子序列的匹配信息;其中,所述预设的哈希表记载有所述参考基因组中各参考子序列的哈希值以及各参考子序列在所述参考基因组中的位置信息,所述各参考子序列为从所述参考基因组划分得到的。5.根据权利要求3所述的方法,其特征在于,所述匹配信息包括所述子序列对应于所述参考基因组的位置信息;所述对于错配值小于或等于预设阈值的子序列,基于所述子序列的匹配信息,对所述子序列进行压缩的过程,包括:基于所述位置信息和所述错配值,对所述子序列进行排序,得到排序后的子序列;基于所述子序列的位置信息,对所述排序后的子序列进行增量编码压缩。
6.根据权利要求3所述的方法,其特征在于,所述对于错配值大于预设阈值的子序列,结合游程长度编码技术、上下文统计模型、ANS+FSE编码技术、算术编码技术和/或哈夫曼编码技术对所述子序列进行压缩的过程,包括:利用游程长度编码对所述子序列进行预处理,得到消除冗余后的子序列;基于消除冗余后的子序列的复杂度,确定第二目标阶数的上下文统计模型;利用所述第二目标阶数的上下文统计模型对所述消除冗余后的子序列进行压缩,得到第二中间压缩结果;采用游程长度编码技术、ANS+FSE编码技术、算术编码技术或哈夫曼编码技术对所述第二中间压缩结果进行压缩。7.根据权利要求1~6任一项...

【专利技术属性】
技术研发人员:杨姣博张优劲林培鑫刘朝熙贺增泉晋向前
申请(专利权)人:深圳华大医学检验实验室
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1