一种DNA自索引区间解压缩方法技术

技术编号:29222723 阅读:33 留言:0更新日期:2021-07-10 01:04
一种DNA自索引区间解压缩方法,它属于DNA压缩数据的解压缩技术领域。本发明专利技术解决了现有的解压缩算法需要的解压缩时间长,且解压缩后的数据需要的存储空间大的问题。本发明专利技术的自索引区间解压缩算法可以根据需求来选取解压缩的范围,相对于全局静态TPBWT解压缩算法来说,很大程度的降低了解压缩时间,同时也降低了解压缩数据的存储空间。相对于传统解压缩算法,该算法更加灵活能够依据不同需求,解压缩出不同含义的数据,适用性更强。本发明专利技术可以应用于对DNA压缩数据的解压缩。对DNA压缩数据的解压缩。对DNA压缩数据的解压缩。

【技术实现步骤摘要】
一种DNA自索引区间解压缩方法


[0001]本专利技术涉及DNA压缩数据的解压缩
,具体涉及一种DNA自索引区间解压缩方法。

技术介绍

[0002]随着DNA测序技术的发展,生物医学研究面临着如何存储和传输DNA数据的问题。对DNA数据进行压缩后,然后再进行解压缩的技术成为其中解决问题的重要方法之一。
[0003]LYZip工具基于TPBWT算法进行数据压缩得到短读测序数据后,采用现有的解压缩算法只能实现全局的、静态的解压缩。现有的解压缩算法虽然能够实现DNA数据的解压缩,但是需要的解压缩时间较长、且解压缩后的数据需要的存储空间也较大,因此,提出一种减少解压缩时间和存储空间的方法是十分必要的。

技术实现思路

[0004]本专利技术的目的是为解决现有的解压缩算法需要的解压缩时间长,且解压缩后的数据需要的存储空间大的问题,而提出了一种DNA自索引区间解压缩方法。
[0005]本专利技术为解决上述技术问题采取的技术方案是:一种DNA自索引区间解压缩方法,所述方法具体包括以下步骤:
[0006]步骤一、输入本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种DNA自索引区间解压缩方法,其特征在于,该方法包括以下步骤:步骤一、输入待解压缩的序列数据文件,并配置索引区间参数和解压缩输出模式参数;步骤二、根据索引区间参数,确定出待解压缩的序列数据文件中需要解压缩的区间范围;步骤三、根据待解压缩序列数据文件的头文件信息,确定出需要解压缩区间范围内的测序短读碱基比特信息,比对到参考基因组上碱基的测序质量分数比特信息,无法比对到参考基因组上单核苷酸变异的测序质量分数比特信息,单核苷酸变异、插入删除变异、结构变异比特信息以及表示位置、长度比特信息的具体位置;步骤四、分别对测序短读碱基比特信息,比对到参考基因组上碱基的测序质量分数比特信息,无法比对到参考基因组上单核苷酸变异的测序质量分数比特信息,单核苷酸变异、插入删除变异、结构变异比特信息以及表示位置、长度比特信息进行字节变换处理后,获得字节变换后的压缩文件;步骤五、对字节变换后的压缩文件进行字符变换,还原出每一列所包含的信息;步骤六、将还原出的每一列所包含的信息进行存储后,并按照步骤一配置的解压缩输出模式参数进行输出。2.根据权利要求1所述的一种DNA自索引区间解压缩方法,其特征在于,所述解压缩输出模式参数决定解压缩输出的数据类型。3.根据权利要求2所述的一种DNA自索引区间解压缩方法,其特征在于,所述解压缩输出模式参数设置为1时,则解压缩输出的数据类型为基因序列,当解压缩输出模式参数设置为2时,则解压缩输出的数据类型为短读序列,当解压缩输出模式参数设置为3时,则解压缩输出的数据类型为全基因组序列。4.根据权利要求3所述的一种DNA自索引区间解压缩方法,其特征在于,所述待解压缩序列数据文件的头文件信息包括100位比特信息。5.根据权利要求4所述的一种DNA自索引区间解压缩方法,其特征在于,所述步骤四中,对测序短读碱基比特信息进行字节变换处理的方式为:对测序短读碱基比特信息进行游程解码,将原始的测序短读碱基比特信息还原为整型的{0,1}数据,得到碱基序列。6.根据权利要求5所述的一种DNA自索引区间解压缩方法,其特征在于,所述步骤四中,对比对到参考基因组上碱基的测序质量分数比特信息,无法比对到参考基因组上单核苷酸变异的测序质量分数比特信息以及单核苷酸变异、插入删除变异、结构变异比特信息进行字节变换处理的方式...

【专利技术属性】
技术研发人员:李杨刘博王亚东
申请(专利权)人:哈尔滨工业大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1