一种基于Fasta、Fastq生物大数据的压缩方法技术

技术编号：37234750 阅读：14 留言：0更新日期：2023-04-20 23:16

本发明专利技术公开了一种基于Fasta、Fastq生物大数据的压缩方法，属于高压缩算法工具领域。包括以下步骤：S1、通过文件名后缀判定Fasta文件或者Fastq文件类型，解压文件并读取到内存中；S2、对Fasta文件或者Fastq文件进行分割处理，组成新的数组文件；S3、对新的数组文件进行代号字符数值分组和转换处理；S4、将转换以后的代号字符重新组成新的串，并进行替代存储，从而减少字符数量提高压缩率。本发明专利技术充分利用Fasta、Fastq数据格式的特征与计算机底层编码原理开展数据压缩算法与工具设计，采用基因碱基符号进行字符转换，以代号字符替换原有的碱基字符后再存储数据和进一步压缩。基字符后再存储数据和进一步压缩。基字符后再存储数据和进一步压缩。

全部详细技术资料下载

【技术实现步骤摘要】
一种基于Fasta、Fastq生物大数据的压缩方法

[0001]本专利技术涉及高压缩算法工具领域，具体为一种基于Fasta、Fastq生物大数据的压缩方法。

技术介绍

[0002]在生物信息
，随着第二代、第三代基因样本数据急剧增大，信息系统面对海量的Fasta、Fastq格式的大数据存储。存储技术涉及磁盘阵列、SAS、SAN、分布式存储系统等技术，每一份数据都要保存2到3个副本。面对大量的数据长期存储或冷备时，特别是数据中心、科研院所等机构需要PB(1PB＝1024TB)级的数据存储时，本算法代来的经济价值非常大。然而，现有压缩gz、rar格式压缩比率还不够低，在大数据存储使用上成本不够低，在PB级的存储节省的投入不够大，并不能把专用Fasta、Fastq格式的大数据做到最理想的压缩效果。
[0003]所以，人们急需一种基于Fasta、Fastq生物大数据的压缩方法来解决上述问题。

技术实现思路

[0004]本专利技术的目的在于提供一种基于Fasta、Fastq生物大数据的压缩方法，以解决上述
技术介绍
中提出的问题。
[0005]为了解决上述技术问题，本专利技术提供如下技术方案：
[0006]一种基于Fasta、Fastq生物大数据的压缩方法，该方法包括以下步骤：
[0007]S1、在目录中通过文件名后缀判定Fasta文件或者Fastq文件类型，解压文件并读取到内存中；
[0008]S2、对Fasta文件或者Fastq文件进行分割处理，组成新的数组文件和文...

【技术保护点】

【技术特征摘要】
1.一种基于Fasta、Fastq生物大数据的压缩方法，其特征在于：该方法包括以下步骤：S1、在目录中通过文件名后缀判定Fasta文件或者Fastq文件类型，解压文件并读取到内存中；S2、对Fasta文件或者Fastq文件进行分割处理，组成新的数组文件和文本文件；S3、对新的数组文件进行代号字符数值分组和转换处理；S4、将转换以后的代号字符重新组成新的串，并进行替代存储，从而减少字符数量提高压缩率。2.根据权利要求1所述的一种基于Fasta、Fastq生物大数据的压缩方法，其特征在于：在步骤S1中，通过程序在所述指定目录中检索后缀名为Fasta或者Fastq的文件类型，并对所述Fasta或者Fastq的文件类型进行解压并读取到所述内存中。3.根据权利要求2所述的一种基于Fasta、Fastq生物大数据的压缩方法，其特征在于：在步骤S2中，去掉内存中后缀名为Fasta的解压文件的首个“>”符号，后文以“>”字符为分割符号分割所述数组文件内容，生成新的数组文件，再以“\n”作为分隔符分割所述文本文件内容；对于后缀名为Fastq的解压文件，需要去除文件中首个“@”符号，后文以“@”字符为分割符号分割所述数组文件内容，生成新的数组文件，产生一个四元素数组，再以“\n”作为分隔符分割所述文本文件内容。4.根据权利要求3所述的一种基于Fasta、Fa...

【专利技术属性】
技术研发人员：李志达，郭涛，
申请(专利权)人：玉溪融建信息技术有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人