数据压缩中数据分段方法及设备技术

技术编号:6242703 阅读:320 留言:0更新日期:2012-04-11 18:40
本发明专利技术提供了一种数据压缩中数据分段方法及设备。该方法包括根据待压缩的数据流中当前未分段数据流的长度,获取与所述当前未分段数据流的长度对应的分段规则,其中,随着未分段数据流的长度的增加,对应的分段规则得到满足的概率单调递增,且,第一长度对应的分段规则得到满足时,第二长度对应的分段规则一定也得到满足,第一长度和第二长度为未分段数据流的长度,且第一长度小于第二长度;采用所述分段规则对所述待压缩的数据流进行数据分段。本发明专利技术实施例可以有效控制数据分段的长度,提高字典使用效率。

【技术实现步骤摘要】

本专利技术涉及网络通信技术,尤其涉及一种数据压缩中数据分段方法及设备
技术介绍
数据压缩是在数据的存储和传输中被广泛应用的一种技术。对于传输的数据而言,由于存在大量的冗余数据,发送端的网络设备对数据进行压缩之后再传输,可以有效地减少网络上传输的数据量,并降低传输时延。相应地,在接收端的网络设备首先需要进行解压缩。目前数据传输的压缩技术可以分为两大类,一种是基于LZ(Lempel-Ziv)类算法的压缩技术,另一种称为冗余数据消除技术。其中,LZ压缩技术通常是发送端在数据块内部通过滑动窗口进行匹配,生成压缩字典并进行压缩,接收端生成相应的压缩字典并进行解压缩。冗余数据消除技术是利用数据传输过程中的存在大块的重复数据,由网络设备保存经过的大数据块,将其作为字典条目,在后续发送过程中,发现重复的数据块就使用字典中的短的编码索引进行替换。接收端根据收到的编码索引及所存储的字典条目将原始数据恢复出来。如果把网络中传输的数据看作字节流,那么网络设备需要对经过的字节流进行适当的分段,把这些数据分段作为字典条目,以实现压缩。数据分段的长度对字典的使用效率及压缩比有影响,过大会降低字典的使用效率,过本文档来自技高网...

【技术保护点】
1.一种数据压缩中数据分段方法,其特征在于,包括:根据待压缩的数据流中当前未分段数据流的长度,获取与所述当前未分段数据流的长度对应的分段规则,其中,随着未分段数据流的长度的增加,对应的分段规则得到满足的概率单调递增,且,第一长度对应的分段规则得到满足时,第二长度对应的分段规则一定也得到满足,第一长度和第二长度为未分段数据流的长度,且第一长度小于第二长度;采用所述分段规则对所述待压缩的数据流进行数据分段。

【技术特征摘要】
1.一种数据压缩中数据分段方法,其特征在于,包括:根据待压缩的数据流中当前未分段数据流的长度,获取与所述当前未分段数据流的长度对应的分段规则,其中,随着未分段数据流的长度的增加,对应的分段规则得到满足的概率单调递增,且,第一长度对应的分段规则得到满足时,第二长度对应的分段规则一定也得到满足,第一长度和第二长度为未分段数据流的长度,且第一长度小于第二长度;采用所述分段规则对所述待压缩的数据流进行数据分段。2.根据权利要求1所述的方法,其特征在于,所述采用所述分段规则对所述待压缩的数据流进行数据分段,包括:计算所述当前未分段数据流内的当前滑动窗内的数据内容的内容指纹;判断所述内容指纹是否符合所述对应的分段规则;当所述内容指纹符合所述对应的分段规则时,将所述当前滑动窗的第一端点作为分段点,所述第一端点为所述当前滑动窗的与滑动方向相同的端点。3.根据权利要求2所述的方法,其特征在于,所述获取与所述当前未分段数据流的长度对应的分段规则,包括:获取预先设置的未分段数据流的长度与分段规则的对应关系;查找所述对应关系获取与所述当前未分段数据流的长度对应的分段规则。4.根据权利要求2所述的方法,其特征在于,所述分段规则为如下关系式:RF(SK)MOD2[(Mk)]=cMOD2[(Mk)];]]>其中,SK为当前滑动窗内的数据内容,RF(SK)为当前滑动窗内的数据内容的内容指纹,c为预先设定的常量,M为预先设定的最大分段长度,k为未分段数据流的长度,MOD表示取模运算;[*]表示向下取整运算。5.根据权利要求2所述的方法,其特征在于,所述与所述当前未分段数据流的长度对应的分段规则,包括:内容指纹的低N位全为1;或者,内容指纹的低N位全为0;其中,SK为当前滑动窗内的数据内容,RF(SK)为当前滑动窗内的数据内容的内容指纹,且随着当前未分段数据流的长度的增加,N单调递减。6.一种数据压缩中数据分段设备,其特征在于,包括:获取模块,用于根据待...

【专利技术属性】
技术研发人员:李春强黄志钢李峰郑宇
申请(专利权)人:华为技术有限公司
类型:发明
国别省市:94[中国|深圳]

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1