【技术实现步骤摘要】
一种数据处理的方法和装置
[0001]本专利技术涉及压缩
,特别是涉及一种数据处理的方法和装置。
技术介绍
[0002]随着计算机及互联网技术的发展,产生的数据量越来越多,庞大的数据量对数据存储和网络传输带来了很大的挑战,为节省存储空间或传输带宽,已经在计算机系统中广泛地使用了数据压缩技术。
[0003]在磁介质存储数据或网络传输数据时,通常使用基于硬件或软件的各种压缩技术,但现有的压缩技术均无法获得较高的压缩率和较快的压缩速度。
[0004]例如,在熵编码中,通过统计待压缩数据中的某些数据段或字符串出现概率,生成码字,概率高的数据使用最短的码字,用码字+少量数据的内容替换原始数据,一般码字+少量数据的长度小于原始数据的长度,从而达到压缩的效果,但由于需要先基于统计信息生成一定的码字,需要对整个待压缩数据进行一次以上遍历,影响了压缩算法的速度。
[0005]又如,在字典编码中,使用滑动窗口对待压缩数据进行扫描,扫描中的数据与已经扫描过的数据进行字典匹配,得到匹配数据信息,使用匹配信息对数据进行编 ...
【技术保护点】
【技术特征摘要】
1.一种数据处理的方法,其特征在于,所述方法包括:获取目标数据;对所述目标数据进行分块,得到一个或多个数据块;针对每个数据块,确定一个或多个数据单元集,并分别对所述一个或多个数据单元集进行压缩,得到每个数据单元集的压缩数据;根据所包含的数据单元集的压缩数据,得到每个数据块的压缩数据,并根据所述一个或多个数据块的压缩数据,得到所述目标数据的压缩数据。2.根据权利要求1所述的方法,其特征在于,所述分别对所述一个或多个数据单元集进行压缩,得到每个数据单元集的压缩数据,包括:对于每个数据单元集,根据所包含的数据单元的字节长度之和,确定一种或多种字节组合方式,并按照所述一种或多种字节组合方式,对所述数据单元集进行压缩,得到一个或多个候选压缩数据;从所述一个或多个候选压缩数据中,确定所述数据单元集的压缩数据。3.根据权利要求2所述的方法,其特征在于,所述根据所包含的数据单元的字节长度之和,确定一种或多种字节组合方式,包括:在当前数据单元集所包含的数据单元的字节长度之和等于预设字节长度的情况下,根据所述预设字节长度,确定一个或多种字节组合方式;在当前数据单元集所包含的数据单元的字节长度之和小于预设字节长度的情况下,根据当前数据单元所包含的数据单元的字节长度之和,确定一种或多种字节组合方式。4.根据权利要求3所述的方法,其特征在于,所述从所述一个或多个候选压缩数据中,确定所述数据单元集的压缩数据,包括:从所述一个或多个候选压缩数据中,确定字节长度最短的候选压缩数据为所述数据单元集的压缩数据。5.根据权利要求1
‑
4任一项所述的方法,其特征在于,所述针对每个数据块,确定一个或多个数据单元集,包括:针对每个数据块,从所包含的数据单元中,依次确定字节长度之和等于预设字节长度的一个或多个数据单元,作为一个数据单元集;在剩余的数据单元的字节长度之和小于预设字节长度的情况下,将剩余的数据单元作为一个数据单元集。6.根据权利要求5所述的方法,其特征在于,所述对所述目标数据进行分块,得到一个或多个数据块,包括:按照预设字节长度或预设字节长度的倍数,对所述目标数据进行分块,得到一个或多个数据块;在剩余的数据的字节长度之和小于预设字节长度或预设字节长度的倍数的情况下,将剩余的数据作为一个数据块。7.根据权利要求2所述的方法,其特征在于,每个数据单元集的压缩数据携带有用于记录压缩前数据的字节长度的信息。8.根据权利要求1所述的方法,其特征在于,所述多个数据块之间...
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。