【技术实现步骤摘要】
一种基于外显子区域插入的数据压缩方法
本专利技术属于数据压缩领域,具体涉及一种基于外显子区域插入的数据压缩方法。
技术介绍
随着生物信息学的发展测序技术已经发展为三代测序时代,三代测序技术已经成为目前生物信息领域主要研究的方向。但是随着三代测序技术的迅速发展也带来了测序生成序列与数据库存储空间不匹配,数据增长速度与计算机容量增长不匹配等问题,因此为了对应测序数据的高速生长,对于测序数据的压缩方法成为目前急需解决的难题。目前针对此类压缩问题——已有一定压缩数据,输入新的测序数据,压缩新的测序数据到之前的压缩数据中,压缩主要采用两种方法;一种是将压缩输数据解压缩,然后解压缩数据和新的测序数据合并进行排序再压缩,但是这种方法序列之间的排序使用的是samtools的sort功能,该功能会随着序列的增多而消耗大量时间,从而减缓运行速度,且压缩时将正常比对碱基序列也进行了压缩,增大了压缩的存储消耗。第二种方法是LYZip增量压缩方法,但是LYZip增量压缩方法的压缩深度只能是10X,其压缩适应范围不够广且压缩的数据比较少。因此目前的数据压缩方法存在运行速度慢、压缩适应范围窄、压缩存储消耗大的的问题。
技术实现思路
本专利技术目的是为了解决现有的数据压缩方法压缩时运行速度慢、压缩适应范围窄、压缩存储量消耗大的问题,而提出了一种基于外显子区域插入的数据压缩方法。一种基于外显子区域插入的数据压缩方法,具体过程为:步骤一、对测序短读DNA数据进行预处理获取外显子数据集合;步骤二、对外显 ...
【技术保护点】
1.一种基于外显子区域插入的数据压缩方法,其特征在于所述方法具体过程为:/n步骤一、对测序短读DNA数据进行预处理获取外显子数据集合;/n步骤二、对外显子数据集合进行质控获取异常值并将异常值存储在哈希表中;/n步骤三、将哈希表中的异常值进行有序存放;/n步骤四、使用霍夫曼编码对存放在哈希表中的异常值中的碱基进行压缩存储;/n步骤五、利用LYZip局部解压缩方法判断此时累积插入序列深度是否已经达到30X,如果大于30X则表明无法进行插入压缩;如果小于30X,并且累加上新加入的插入序列仍然小于30X,则重复步骤一到三再次进行插入压缩。/n
【技术特征摘要】
1.一种基于外显子区域插入的数据压缩方法,其特征在于所述方法具体过程为:
步骤一、对测序短读DNA数据进行预处理获取外显子数据集合;
步骤二、对外显子数据集合进行质控获取异常值并将异常值存储在哈希表中;
步骤三、将哈希表中的异常值进行有序存放;
步骤四、使用霍夫曼编码对存放在哈希表中的异常值中的碱基进行压缩存储;
步骤五、利用LYZip局部解压缩方法判断此时累积插入序列深度是否已经达到30X,如果大于30X则表明无法进行插入压缩;如果小于30X,并且累加上新加入的插入序列仍然小于30X,则重复步骤一到三再次进行插入压缩。
2.根据权利要求1所述的一种基于外显子区域插入的数据压缩方法,其特征在于:所述步骤一中对测序短读DNA数据进行预处理获取外显子数据集合,包含以下步骤:
步骤一一、筛选待压缩的数据,去掉测序序列中不包含基因片段的测序短读:
输入TPBWT变换压缩数据、测序短读数据集合和参考基因组,通过参考基因组筛选待压缩的数据,去掉测序序列中不包含基因片段的测序短读;通过公共数据库中公认的外显子区间范围对输入测序短读序列进行筛选,如果该序列不在任何外显子区间内,则该序列为无用序列,将其删除;如果该序列中包含一个或多个外显子,则保留;
步骤一二、将包含基因片段的测序短读进行剪切:
将步骤一一保留下来的短读序列进一步筛选其中的外显子区域,如果该序列包含一个或者多个外显子区域则将这些区域全部保留;
步骤一三、提取剪切后的测序短读外显子区间的碱基序列,获得外显子数据集合:
每一条短读序列经过筛选和剪切之后包含一个或者多个外显子,将来自同一条序列的外显子放在一起进行存储。
3.根据权利要求2所述的一种基于外显子区域插入的数据压缩方法,其特征在于:所述步骤二中对外显子数据集合进行质控并将异常值存储在哈希表中,包括以下步骤:
步骤二一、外显子整体质控;
步骤二二、外显子内部变异质控并将获取的异常值存储在哈希表中。
4.根据权利要求3所述的一种基于外显子区域插入的数据压缩方法,其特征在于:所述步骤二一中外显子整体质控,包括以下步骤:
计算每一个外显子全部碱基的测序质量分数的平均值,若平均值低于30,则认为整条外显子测序存在问题,整体的数据质量较差,将整条外显子舍弃;若该值高于30,则整条序列可靠,保留可靠序列并进行外显子内部变异质控。
5.根据权利要求4所述的一种基于外显子区域插入的数据压缩方法,其特征在于:所述步骤二二中外显子内部变异质控,包括以下步骤:
步骤二二一、引入参考序列基因组...
【专利技术属性】
技术研发人员:张云翔,李杨,刘博,王亚东,
申请(专利权)人:哈尔滨工业大学,
类型:发明
国别省市:黑龙江;23
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。