LZ系列压缩算法编解码速度优化方法技术

技术编号：32818374 阅读：21 留言：0更新日期：2022-03-26 20:15

本发明专利技术涉及一种LZ系列压缩算法编解码速度优化方法，数据编码时，一次性匹配长度为计算机字长的数据切片，减少匹配重复数据段所需的CPU周期数；累积未匹配数据并批量复制到编码输出缓存区，减少数据复制时所需的CPU周期数和额外开销；数据解码时，根据历史数据重复复制得到当前数据，若待复制数据长度小于当前位置跟历史数据位置之间的距离，直接批量复制；若大于，则采用循环批量复制的方式，历史数据位置保持不变，当前位置随着每次循环而更新，每次循环批量复制的数据长度均不大于当前位置跟历史数据位置之间的距离，减少数据复制时所需的CPU周期数和额外开销。本发明专利技术有效减少LZ系列压缩算法编解码时间，不降低算法的压缩率。缩率。缩率。

全部详细技术资料下载

【技术实现步骤摘要】
LZ系列压缩算法编解码速度优化方法

[0001]本专利申请属于编解码
，更具体地说，是涉及一种LZ系列压缩算法编解码速度优化方法。

技术介绍

[0002]云计算时代离不开对海量数据的处理和传输，海量数据的传输往往需要占用超大的网络带宽，且一旦数据传输上出现问题，将严重影响云计算中心的整体性能。为提高海量数据的传输性能，往往需要在数据传输前进行数据压缩，通过有损/无损压缩算法来减少待传输的数据总量。一般来说，数字、文本、合成图像以及医疗图像等数据往往采用无损压缩，而自然图像、音频以及视频等数据则往往采用有损压缩。
[0003]作为最常用的无损压缩算法，LZ算法通过用历史数据的相关信息来表示当前数据的方式实现数据压缩。具体而言，LZ算法在每处理一个当前输入数据时，均会借助于字典信息找到之前处理过的、与当前输入数据的头部相匹配的数据段，并计算历史数据段与当前数据段之间数据匹配的长度，当匹配长度大于阈值时，采用（与当前匹配位置的距离，匹配长度）的二元组来替代当前输入数据，从而达到对输入数据压缩编码的效果。
[0004]根据实际编解码过程和字典实现方式的不同，LZ编码可以分为LZ77、LZ78等多个分支，并形成了LZO、LZMA以及LZ4等众多无损压缩软件。这些软件均基于LZ编码的基本思想，在各自实现上有所不同：如LZMA关注于压缩率的提高，具有最高的压缩比，但编解码时间最长；LZ4充分利用了cache缓存，采用16k大小、能完全载入L1 cache的哈希表来储存字典并简化检索，具有最快的编解码速度，但是...

【技术保护点】

【技术特征摘要】
1.一种LZ系列压缩算法编解码速度优化方法，包括对数据编码和数据解码两个过程的优化，其特征在于，在数据编码过程中，查找重复数据段时，通过一次性读取多个字节的数据切片进行匹配的方式提升重复数据段的匹配速度，具体为：在查找重复数据段时，不再是逐个字节匹配，而是一次性读取长度为计算机字长的数据切片进行匹配，只有数据切片匹配失败时，才对数据切片进行逐个字节匹配，以减少查找重复数据段所需的CPU周期数；输出未匹配数据时，通过累积未匹配数据并一次性批量输出的方式提升未匹配数据的输出速度，具体为：在输出未匹配数据时，不再是发现未匹配数据就立即输出，而是累积未匹配数据，直至发现下一个重复数据段后，才将累积的未匹配数据批量复制输出，减少复制所需的CPU周期数和额外开销。2.一种LZ系列压缩算法编解码速度优化方法，包括对数据编码和数据解码两个过程的优化，其特征在于，在数据解码过程中，通过采用直接批量复制和循环批量复制的方式，提升根据历史数据重复复制得到当前数据的速度，具体操作为：在根据历史数据重复复制得到当前数据时，不再是逐个字节复制，而是综合考虑历史数据位置与当前位置的距离以及待复制数据长度，若待复制数据长度小于当前位置跟历史数据位置之间的距离，则直接批量复制；若待复制数据长度大于当前位置跟历史数据位置之间的距离，则采用循环批量复制的方式，历史数据位置保持不变，当前位置随着每次循环而更新，每次循环批量...

【专利技术属性】
技术研发人员：李唯实，谢明，魏立峰，张铎，孙立明，刘云，
申请(专利权)人：麒麟软件有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人