【技术实现步骤摘要】
数据压缩方法、装置、设备及存储介质
[0001]本申请涉及数据处理
,具体而言,涉及一种数据压缩方法
、
装置
、
设备及存储介质
。
技术介绍
[0002]随着大数据时代的到来,数据信息呈现爆炸式的增长,但是在物联网
、
人工智能等特定应用领域中,对海量数据的处理所要求的时延性不断提高,因此,如何能够高效地传输海量数据,同时不对处理器造成较大的负荷是目前亟需解决的问题
。
[0003]现有技术中通常采用哈夫曼
(Huffman)
编码的压缩算法对数据进行压缩
。
哈夫曼编码是通过统计字符出现的次数,对数据处理的可变字长编码,基于字符出现的次数构建哈夫曼二叉树,从树的叶子节点到根节点进行编码,出现的越多的字符让短一些的码替换,同时次数少的字符被长一些的码替换掉,可以实现数据的总体大小减小,达到压缩的目的
。
[0004]但是,在将待编码数据进行哈夫曼编码时,需要从根节点遍历二叉树,到叶子节点结束,按照 ...
【技术保护点】
【技术特征摘要】
1.
一种数据压缩方法,其特征在于,包括:获取并遍历待编码数据,确定所述待编码数据的字符序列;将所述字符序列构建哈夫曼树,并确定所述哈夫曼树中各个字符种类的层级;确定所述哈夫曼树各层级的初始编码,并根据各层级的初始编码生成对应层级的各个字符种类的压缩编码,其中,所述压缩编码的码长长度与对应的层级呈正相关,且所述压缩编码为前缀码;基于各个字符种类对应的所述压缩编码将所述待编码数据编译成压缩数据
。2.
根据权利要求1所述的数据压缩方法,其特征在于,所述确定所述待编码数据的字符序列,包括:从所述待编码数据中提取得到有效数据;对所述有效数据进行统计,得到所述有效数据中各个字符种类的统计结果,所述统计结果包括:字符种类以及字符种类的权重,其中,有效数据中的相同的字符为同一字符种类,所述字符种类的权重用于表征所述字符种类占所述有效数据中所有字符的比重;根据各所述字符种类的权重对各所述字符种类进行排序,得到所述字符序列
。3.
根据权利要求2所述的数据压缩方法,其特征在于,所述对所述有效数据进行统计,得到所述有效数据中各个字符种类的统计结果,包括:确定待统计字符种类,所述待统计字符种类为所述有效数据中的任一字符种类;分别确定所述有效数据中与待统计字符种类相同的字符个数,将所述字符个数作为所述待统计字符种类的权重;根据所述统计字符种类以及对应的权重生成所述统计结果
。4.
根据权利要求2所述的数据压缩方法,其特征在于,所述根据各所述字符种类的权重对各所述字符种类进行排序,得到所述字符序列,包括:将每一所述字符种类分别与所述有效数据中除所述字符种类之外的其他字符种类依次比较权重,得到权重比较结果;根据所述权重比较结果,确定每一所述字符种类的得分值;基于所述有效数据中各个所述字符种类的得分值对各所述字符种类进行排序,以形成所述字符序列
。5.
根据权利要求2所述的数据压缩方法,其特征在于,所述将所述字符序列构建哈夫曼树,并确定所述哈夫曼树中各个字符种类的层级,包括:
a、
确定第一存储空间和第二存储空间,所述第一存储空间存储所述字符序列;
b、
将所述字符序列中权重最小且相邻的两个字符种类所对应的存储地址以及权重和整合成数据集合,并将数据集合存储于所述第二存储空间内;
c、
确定所述字符序列中的剩余字符种类以及所述第二存储空间内的剩余数据集合,其中,剩余字符种类为所述字符序列中排除存储地址已存储至所述第二存储空间的字符种类以外的字符种类,剩余数据集合为所述第二存储空间内排除存储地址已存储至所述第二存储空间的数据集合以外的数据集合;
d、
比较剩余字符种类对应的权重与剩余数据集合中的权重和,将数值最小的两个剩余字符种类和
/
或剩余数据集合所对应的存储地址以及权重和整...
【专利技术属性】
技术研发人员:岳博,丁昊杰,钟林钢,杨飞,任宇,
申请(专利权)人:杭州菲数科技有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。