一种数据处理的方法和装置制造方法及图纸

技术编号:30638437 阅读:29 留言:0更新日期:2021-11-04 00:28
本发明专利技术实施例提供了一种数据处理的方法和装置,所述方法包括:获取目标数据;对所述目标数据进行分块,得到一个或多个数据块;针对每个数据块,确定一个或多个数据单元集,并分别对所述一个或多个数据单元集进行压缩,得到每个数据单元集的压缩数据;根据所包含的数据单元集的压缩数据,得到每个数据块的压缩数据,并根据所述一个或多个数据块的压缩数据,得到所述目标数据的压缩数据。通过本发明专利技术实施例,实现了更加高效的并行数据压缩,具有较高的压缩率和较快的压缩速度,且压缩率无需依赖分块的大小。分块的大小。分块的大小。

【技术实现步骤摘要】
一种数据处理的方法和装置


[0001]本专利技术涉及压缩
,特别是涉及一种数据处理的方法和装置。

技术介绍

[0002]随着计算机及互联网技术的发展,产生的数据量越来越多,庞大的数据量对数据存储和网络传输带来了很大的挑战,为节省存储空间或传输带宽,已经在计算机系统中广泛地使用了数据压缩技术。
[0003]在磁介质存储数据或网络传输数据时,通常使用基于硬件或软件的各种压缩技术,但现有的压缩技术均无法获得较高的压缩率和较快的压缩速度。
[0004]例如,在熵编码中,通过统计待压缩数据中的某些数据段或字符串出现概率,生成码字,概率高的数据使用最短的码字,用码字+少量数据的内容替换原始数据,一般码字+少量数据的长度小于原始数据的长度,从而达到压缩的效果,但由于需要先基于统计信息生成一定的码字,需要对整个待压缩数据进行一次以上遍历,影响了压缩算法的速度。
[0005]又如,在字典编码中,使用滑动窗口对待压缩数据进行扫描,扫描中的数据与已经扫描过的数据进行字典匹配,得到匹配数据信息,使用匹配信息对数据进行编码以达到压缩效果,但本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种数据处理的方法,其特征在于,所述方法包括:获取目标数据;对所述目标数据进行分块,得到一个或多个数据块;针对每个数据块,确定一个或多个数据单元集,并分别对所述一个或多个数据单元集进行压缩,得到每个数据单元集的压缩数据;根据所包含的数据单元集的压缩数据,得到每个数据块的压缩数据,并根据所述一个或多个数据块的压缩数据,得到所述目标数据的压缩数据。2.根据权利要求1所述的方法,其特征在于,所述分别对所述一个或多个数据单元集进行压缩,得到每个数据单元集的压缩数据,包括:对于每个数据单元集,根据所包含的数据单元的字节长度之和,确定一种或多种字节组合方式,并按照所述一种或多种字节组合方式,对所述数据单元集进行压缩,得到一个或多个候选压缩数据;从所述一个或多个候选压缩数据中,确定所述数据单元集的压缩数据。3.根据权利要求2所述的方法,其特征在于,所述根据所包含的数据单元的字节长度之和,确定一种或多种字节组合方式,包括:在当前数据单元集所包含的数据单元的字节长度之和等于预设字节长度的情况下,根据所述预设字节长度,确定一个或多种字节组合方式;在当前数据单元集所包含的数据单元的字节长度之和小于预设字节长度的情况下,根据当前数据单元所包含的数据单元的字节长度之和,确定一种或多种字节组合方式。4.根据权利要求3所述的方法,其特征在于,所述从所述一个或多个候选压缩数据中,确定所述数据单元集的压缩数据,包括:从所述一个或多个候选压缩数据中,确定字节长度最短的候选压缩数据为所述数据单元集的压缩数据。5.根据权利要求1

4任一项所述的方法,其特征在于,所述针对每个数据块,确定一个或多个数据单元集,包括:针对每个数据块,从所包含的数据单元中,依次确定字节长度之和等于预设字节长度的一个或多个数据单元,作为一个数据单元集;在剩余的数据单元的字节长度之和小于预设字节长度的情况下,将剩余的数据单元作为一个数据单元集。6.根据权利要求5所述的方法,其特征在于,所述对所述目标数据进行分块,得到一个或多个数据块,包括:按照预设字节长度或预设字节长度的倍数,对所述目标数据进行分块,得到一个或多个数据块;在剩余的数据的字节长度之和小于预设字节长度或预设字节长度的倍数的情况下,将剩余的数据作为一个数据块。7.根据权利要求2所述的方法,其特征在于,每个数据单元集的压缩数据携带有用于记录压缩前数据的字节长度的信息。8.根据权利要求1所述的方法,其特征在于,所述多个数据块之间...

【专利技术属性】
技术研发人员:李金虎王广官
申请(专利权)人:阿里云计算有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1