一种基于外显子区域插入的数据压缩方法技术

技术编号:28627923 阅读:33 留言:0更新日期:2021-05-28 16:24
一种基于外显子区域插入的数据压缩方法,涉及数据压缩领域。本发明专利技术是为了解决现有的数据压缩方法压缩时运行速度慢、压缩适应范围窄、压缩存储量消耗大的问题。本发明专利技术包括:对测序短读DNA数据进行预处理获取外显子数据集合;对外显子数据集合进行质控获取异常值并将异常值存储在哈希表中;将哈希表中的异常值进行有序存放;使用霍夫曼编码对存放在哈希表中的异常值中的碱基进行压缩存储;利用LYZip局部解压缩方法判断此时累积插入序列深度是否已经达到30X,如果大于30X则表明无法进行插入压缩;如果小于30X,并且累加上新加入的插入序列仍然小于30X,则重复压缩步骤。本发明专利技术用于对数据的压缩。

【技术实现步骤摘要】
一种基于外显子区域插入的数据压缩方法
本专利技术属于数据压缩领域,具体涉及一种基于外显子区域插入的数据压缩方法。
技术介绍
随着生物信息学的发展测序技术已经发展为三代测序时代,三代测序技术已经成为目前生物信息领域主要研究的方向。但是随着三代测序技术的迅速发展也带来了测序生成序列与数据库存储空间不匹配,数据增长速度与计算机容量增长不匹配等问题,因此为了对应测序数据的高速生长,对于测序数据的压缩方法成为目前急需解决的难题。目前针对此类压缩问题——已有一定压缩数据,输入新的测序数据,压缩新的测序数据到之前的压缩数据中,压缩主要采用两种方法;一种是将压缩输数据解压缩,然后解压缩数据和新的测序数据合并进行排序再压缩,但是这种方法序列之间的排序使用的是samtools的sort功能,该功能会随着序列的增多而消耗大量时间,从而减缓运行速度,且压缩时将正常比对碱基序列也进行了压缩,增大了压缩的存储消耗。第二种方法是LYZip增量压缩方法,但是LYZip增量压缩方法的压缩深度只能是10X,其压缩适应范围不够广且压缩的数据比较少。因此目前的数据压缩方法存在运行速度慢、压缩适应范围窄、压缩存储消耗大的的问题。
技术实现思路
本专利技术目的是为了解决现有的数据压缩方法压缩时运行速度慢、压缩适应范围窄、压缩存储量消耗大的问题,而提出了一种基于外显子区域插入的数据压缩方法。一种基于外显子区域插入的数据压缩方法,具体过程为:步骤一、对测序短读DNA数据进行预处理获取外显子数据集合;步骤二、对外显子数据集合进行质控获取异常值并将异常值存储在哈希表中;步骤三、将哈希表中的异常值进行有序存放;步骤四、使用霍夫曼编码对存放在哈希表中的异常值中的碱基进行压缩存储;步骤五、利用LYZip局部解压缩方法判断此时累积插入序列深度是否已经达到30X,如果大于30X则表明无法进行插入压缩;如果小于30X,并且累加上新加入的插入序列仍然小于30X,则重复步骤一到三再次进行插入压缩。本专利技术的有益效果为:本专利技术是对LYZip中增量压缩算法的改进,在原有一定深度的,经过TPBWT算法压缩的测序短读数据基础上,提取其中的基因区域的外显子区间数据,在不全部解压缩原有测序数据压缩文件的基础上,将提出的外显子数据插入到既定位置,同时完成压缩操作,本专利技术针对外显子进行压缩省略了排序的过程,节省了压缩的时间进而提高了整体压缩的速度,且压缩过程中没有压缩正常比对碱基序列,节省了压缩时间的同时也节省了存储消耗。本专利技术还利用了TPBWT结构能够通过前一列存储索引结构变换后一列而不需要额外存储索引结构以及TPBWT结构中所有位点都包含标识符'2'的特性,保证了插入操作不需要额外对索引信息进行改动,减少了处理步骤,提高了运行速度,以及通过设置标识符'2'可以占据压缩区间的所有位点,保证了后续的插入压缩算法能够在线性时间快速定位到所要插入的位点位置,使插入压缩在压缩速度上得到了提升的同时将最大压缩深度提升到了31X,提高了数据压缩的适应范围,进而提高了压缩存储量。附图说明图1为本专利技术结构框图。具体实施方式具体实施方式一:外显子区域插入的数据压缩方法必须在有测序压缩数据的前提下才能够使用。测序压缩数据也必须是三代数据且建立了TPBWT自索引结构。TPBWT自索引结构保证了对于压缩数据的快速定位,找到需要进行数据插入的起始位置和终止位置。外显子区域插入压缩泛主要是利用TPBWT数据结构的两点特性。第一是TPBWT结构能够通过前一列存储索引结构变换后一列,而不需要额外存储索引结构。这就保证了插入操作不需要额外对索引信息进行改动,减少了处理步骤,提高了运行速度。第二是所有位点都包含标识符'2'。测序数据按照位点一一对应到参考基因组上,但是压缩是以每一个位点对应的列为压缩对象。对于有测序短读覆盖的位点,自索引算法会在每一列的结束位置添加标志符号'2',表示一列的终止。对于无测序短读覆盖的位点,自索引算法同样也会在此列添加标识符号'2',但是此时的字符起到占位符号的作用。通过设置标识符'2'可以占据压缩区间的所有位点,保证了后续的插入压缩数据的方法能够在线性时间快速定位到所要插入的位点位置。这使得插入压缩数据的方法在压缩速度上得到了提升。本实施方式一种基于外显子区域插入的数据压缩方法,具体过程为:步骤一、对测序短读DNA数据进行预处理获取外显子数据集合;步骤一一、筛选待压缩的数据,去掉测序序列中不包含基因片段的测序短读,包括以下步骤:输入TPBWT变换压缩数据、测序短读数据集合和参考基因组,通过参考基因组筛选待压缩的数据,去掉测序序列中不包含基因片段的测序短读;通过公共数据库中公认的外显子区间范围对输入测序短读序列进行筛选,如果该序列不在任何外显子区间内,则认为该序列为无用序列,将其删除。如果该序列中包含一个或多个外显子(区间),则保留,进行接下来处理;步骤一二、将包含基因片段的测序短读进行剪切:将步骤一一保留下来的短读序列进一步筛选其中的外显子区域,如果该序列包含一个或者多个外显子区域则将这些区域全部保留;步骤一三、提取剪切后的测序短读外显子区间的碱基序列,获得外显子数据集合:每一条短读序列经过筛选和剪切之后可能包含一个或者多个外显子,将来自同一条序列的外显子放在一起进行存储。压缩输入的测序数据为三代测序数据,长度多数高于1000bp。较长的碱基长度可以尽可能的覆盖基因区域。但是基因与基因之间存在基因间隔,这部分距离同样距离较远。只有基因内部才包含外显子区域和内含子区域,并且外显子区域对于性状的表现起到了决定性的作用。这部分信息是整条测序序列中最为重要的信息,也是需要无损特殊压缩的数据。无需对提取的外显子区间的碱基序列的外显子片段进行编号,因为本身压缩的对象就是外显子碱基序列。最原始输入的三代测序短读片段仅仅是为了能够更大范围的包含外显子片段。步骤二、对外显子数据集合进行质控获取异常值并将异常值存储在哈希表中,包括以下步骤:步骤二一、外显子整体质控:计算每一个外显子全部碱基的测序质量分数的平均值,若平均值低于30,则认为整条外显子测序存在问题,整体的数据质量较差,将整条外显子舍弃;若该值高于30,则认为整条序列较为可靠,保留该序列并进行外显子内部变异质控。步骤二二、外显子内部变异质控:步骤二二一、引入参考序列基因组,将参考序列基因组和外显子整体质控后的碱基序列进行比对获取无法比对到参考基因组上碱基序列的质量分数记为异常质量分数;通过输入文件的比对结果文件sam格式文件,可以知道每个碱基的序列的质量分数;通过参考基因组相对应位点上的碱基进行还原,压缩过程中只需要保存压缩异常值即可。这样做大大降低了压缩所需要的存储空间,也提高了整体的压缩速度。步骤二二二、将异常质量分数大于预设阈值(30)的位点存储到对应位点下的哈希表中,比对质量分数小于预设阈值(30)的位点进行本文档来自技高网...

【技术保护点】
1.一种基于外显子区域插入的数据压缩方法,其特征在于所述方法具体过程为:/n步骤一、对测序短读DNA数据进行预处理获取外显子数据集合;/n步骤二、对外显子数据集合进行质控获取异常值并将异常值存储在哈希表中;/n步骤三、将哈希表中的异常值进行有序存放;/n步骤四、使用霍夫曼编码对存放在哈希表中的异常值中的碱基进行压缩存储;/n步骤五、利用LYZip局部解压缩方法判断此时累积插入序列深度是否已经达到30X,如果大于30X则表明无法进行插入压缩;如果小于30X,并且累加上新加入的插入序列仍然小于30X,则重复步骤一到三再次进行插入压缩。/n

【技术特征摘要】
1.一种基于外显子区域插入的数据压缩方法,其特征在于所述方法具体过程为:
步骤一、对测序短读DNA数据进行预处理获取外显子数据集合;
步骤二、对外显子数据集合进行质控获取异常值并将异常值存储在哈希表中;
步骤三、将哈希表中的异常值进行有序存放;
步骤四、使用霍夫曼编码对存放在哈希表中的异常值中的碱基进行压缩存储;
步骤五、利用LYZip局部解压缩方法判断此时累积插入序列深度是否已经达到30X,如果大于30X则表明无法进行插入压缩;如果小于30X,并且累加上新加入的插入序列仍然小于30X,则重复步骤一到三再次进行插入压缩。


2.根据权利要求1所述的一种基于外显子区域插入的数据压缩方法,其特征在于:所述步骤一中对测序短读DNA数据进行预处理获取外显子数据集合,包含以下步骤:
步骤一一、筛选待压缩的数据,去掉测序序列中不包含基因片段的测序短读:
输入TPBWT变换压缩数据、测序短读数据集合和参考基因组,通过参考基因组筛选待压缩的数据,去掉测序序列中不包含基因片段的测序短读;通过公共数据库中公认的外显子区间范围对输入测序短读序列进行筛选,如果该序列不在任何外显子区间内,则该序列为无用序列,将其删除;如果该序列中包含一个或多个外显子,则保留;
步骤一二、将包含基因片段的测序短读进行剪切:
将步骤一一保留下来的短读序列进一步筛选其中的外显子区域,如果该序列包含一个或者多个外显子区域则将这些区域全部保留;
步骤一三、提取剪切后的测序短读外显子区间的碱基序列,获得外显子数据集合:
每一条短读序列经过筛选和剪切之后包含一个或者多个外显子,将来自同一条序列的外显子放在一起进行存储。


3.根据权利要求2所述的一种基于外显子区域插入的数据压缩方法,其特征在于:所述步骤二中对外显子数据集合进行质控并将异常值存储在哈希表中,包括以下步骤:
步骤二一、外显子整体质控;
步骤二二、外显子内部变异质控并将获取的异常值存储在哈希表中。


4.根据权利要求3所述的一种基于外显子区域插入的数据压缩方法,其特征在于:所述步骤二一中外显子整体质控,包括以下步骤:
计算每一个外显子全部碱基的测序质量分数的平均值,若平均值低于30,则认为整条外显子测序存在问题,整体的数据质量较差,将整条外显子舍弃;若该值高于30,则整条序列可靠,保留可靠序列并进行外显子内部变异质控。


5.根据权利要求4所述的一种基于外显子区域插入的数据压缩方法,其特征在于:所述步骤二二中外显子内部变异质控,包括以下步骤:
步骤二二一、引入参考序列基因组...

【专利技术属性】
技术研发人员:张云翔李杨刘博王亚东
申请(专利权)人:哈尔滨工业大学
类型:发明
国别省市:黑龙江;23

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1