System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 一种基于哈夫曼编码的快速编码方法技术_技高网

一种基于哈夫曼编码的快速编码方法技术

技术编号:40014188 阅读:11 留言:0更新日期:2024-01-16 15:44
本发明专利技术涉及数据编码技术领域,具体涉及一种基于哈夫曼编码的快速编码方法。方法包括:获取网页文本数据;基于网页文本数据中各类字符的频率得到待编码的网页文本数据对应的频率分布指标和频率差异值,进而确定每个频率差异值对应的优选程度;基于优选程度确定分段节点,基于分段节点对频率序列进行划分获得分段节点对应的数据段;根据各数据段中频率数据的分布情况,判断是否再次对各数据段进行划分,若是,则继续确定新的分段节点,基于新的分段节点对所对应的数据段进行划分获得各分段节点对应的数据段;基于各分段节点对应的数据段构建哈夫曼编码树,对网页文本数据进行编码存储。本发明专利技术提高了网页文本数据的编码效率。

【技术实现步骤摘要】

本专利技术涉及数据编码,具体涉及一种基于哈夫曼编码的快速编码方法


技术介绍

1、目前大量的电子信息数据替代了传统的纸质文本数据,随着信息数据的不断增加,有效的压缩方法对信息数据的压缩是非常有必要的。以网页文本数据为例,网页文本数据多种多样,存在大量的不同种类的字符,为了保证用户的使用体验,通常会对网页文本数据进行压缩,减小网页文本数据的大小,使用户的设备可以更好的加载页面内容。

2、传统的哈夫曼编码是一种较为快速的编码方法,通过遍历数据,获取字符的频率,不断将频率最小的两个字符频率相加,并将其放入频率序列中,不断遍历频率序列,直到频率序列中的所有数据相加完成截止。然而,在处理网络数据时,由于网页文本数据中存在大量的字符种类较多,且字符种类越多,在构建哈夫曼编码树时所需要的时间越长,进而使得网页文本数据的编码效率较低。


技术实现思路

1、为了解决现有方法在对网页文本数据进行编码处理时存在的编码效率较低的问题,本专利技术的目的在于提供一种基于哈夫曼编码的快速编码方法,所采用的技术方案具体如下:

2、本专利技术提供了一种基于哈夫曼编码的快速编码方法,该方法包括以下步骤:

3、获取待编码的网页文本数据;

4、基于待编码的网页文本数据中各类字符的频率构建频率序列;根据所述频率序列,分别得到待编码的网页文本数据对应的频率分布指标和频率差异值;根据所有频率差异值和所述频率分布指标,确定每个频率差异值对应的优选程度;

5、基于所述优选程度确定所述频率序列中的分段节点,基于所述分段节点对所述频率序列进行划分获得分段节点对应的各数据段;根据各数据段中频率数据的分布情况,判断是否再次对各数据段进行划分,若是,则继续确定新的分段节点,基于新的分段节点对所对应的数据段进行划分获得各分段节点对应的数据段;

6、基于各分段节点对应的数据段构建哈夫曼编码树,基于所述哈夫曼编码树对待编码的网页文本数据进行编码存储。

7、优选的,根据待编码的网页文本数据中各类字符的频率分布情况,得到待编码的网页文本数据对应的频率分布指标,包括:

8、将待编码的网页文本数据中所有种类的字符的平均频率与所有种类的字符的频率的中位数的差值,记为第一差值;

9、根据待编码的网页文本数据中所有种类的字符的频率的方差和所述第一差值,计算待编码的网页文本数据对应的频率分布指标。

10、优选的,采用如下公式计算待编码的网页文本数据对应的频率分布指标:

11、

12、其中,d表示待编码的网页文本数据对应的频率分布指标,表示待编码的网页文本数据中所有种类的字符的平均频率,表示待编码的网页文本数据中所有种类的字符的频率的中位数,表示待编码的网页文本数据中的字符种类总数,表示待编码的网页文本数据中第i类字符的频率,norm( )表示归一化函数,表示预设调整参数,大于0。

13、优选的,所述基于待编码的网页文本数据中各类字符的频率构建频率序列,包括:

14、将待编码的网页文本数据中各类字符的频率按照从小到大的顺序进行排序,获得频率序列。

15、优选的,根据所述频率序列,得到频率差异值,包括:

16、分别将所述频率序列中每两个相邻频率数据中后一个频率数据与前一个频率数据的差值,记为频率差异值。

17、优选的,所述根据所有频率差异值和所述频率分布指标,确定每个频率差异值对应的优选程度,包括:

18、对于第a个频率差异值:

19、将第a个频率差异值与所述频率分布指标的比值,作为第a个频率差异值对应的优选程度。

20、优选的,所述基于所述优选程度确定所述频率序列中的分段节点,基于所述分段节点对所述频率序列进行划分获得分段节点对应的各数据段,包括:

21、在优选程度最大时对应的频率差异值所对应的两个频率数据之间插入新的数据点,将所述新的数据点作为分段节点对所述频率序列进行划分获得分段节点对应的两个数据段。

22、优选的,所述根据各数据段中频率数据的分布情况,判断是否再次对各数据段进行划分,若是,则继续确定新的分段节点,基于新的分段节点对所对应的数据段进行划分获得各分段节点对应的数据段,包括:

23、对于第j个数据段:

24、根据第j个数据段中所有频率数据获得第j个数据段划分的必要性指标;

25、若第j个数据段划分的必要性指标小于或等于预设阈值,则不再对第j个数据段进行划分;若第j个数据段划分的必要性指标大于预设阈值,则获得第j个数据段对应的频率差异序列中每个频率差异值对应的优选程度;基于优选程度确定第j个数据段中新的分段节点,基于第j个数据段中新的分段节点对第j个数据段进行划分获得新的分段节点对应的各数据段;根据新的分段节点对应的各数据段中频率数据的分布情况,判断是否再次对新的分段节点对应的各数据段进行划分,以此类推,直到对应数据段划分的必要性指标小于或等于预设阈值,获得各分段节点对应的数据段。

26、优选的,根据第j个数据段中所有频率数据获得第j个数据段划分的必要性指标,包括:

27、将第j个数据段中所有频率数据代入熵的计算公式中获得对应的熵值;

28、将所述熵值的负相关归一化结果作为第j个数据段划分的必要性指标。

29、优选的,所述基于各分段节点对应的数据段构建哈夫曼编码树,基于所述哈夫曼编码树对待编码的网页文本数据进行编码存储,包括:

30、基于分段节点的获取顺序获得分段节点的等级,其中,最先获得的分段节点的等级最高;

31、从最低级分段节点开始,将每两个最低级分段节点之间的所有频率数据利用哈夫曼编码构造编码树的方法来构造局部哈夫曼树,继续对下一级分段节点之间的所有频率数据构造局部哈夫曼树,以此类推,直到将所有频率数据合并为一个节点,获得哈夫曼编码树;

32、根据哈夫曼编码树对待编码的网页文本数据进行编码存储。

33、本专利技术至少具有如下有益效果:

34、本专利技术考虑到传统的哈夫曼编码在构建哈夫曼编码树时,需要不断重复遍历所有字符的频率数据来构建哈夫曼编码树,消耗大量的时间,使得对网页文本数据进行编码时的编码效率较低,本专利技术通过分析待编码的网页文本数据中各类字符频率间的差异确定多个分段节点,进而根据分段节点构建哈夫曼编码树,可以大幅度减少在构建哈夫曼编码树时所遍历的数据字符频率数量,节省大量的构建哈夫曼编码树的时间,提高了待编码的网页文本数据的编码效率,从而提升用户浏览网页文本数据时的加载速度和用户的使用体验。

本文档来自技高网...

【技术保护点】

1.一种基于哈夫曼编码的快速编码方法,其特征在于,该方法包括以下步骤:

2.根据权利要求1所述的一种基于哈夫曼编码的快速编码方法,其特征在于,根据待编码的网页文本数据中各类字符的频率分布情况,得到待编码的网页文本数据对应的频率分布指标,包括:

3.根据权利要求2所述的一种基于哈夫曼编码的快速编码方法,其特征在于,采用如下公式计算待编码的网页文本数据对应的频率分布指标:

4.根据权利要求1所述的一种基于哈夫曼编码的快速编码方法,其特征在于,所述基于待编码的网页文本数据中各类字符的频率构建频率序列,包括:

5.根据权利要求1所述的一种基于哈夫曼编码的快速编码方法,其特征在于,根据所述频率序列,得到频率差异值,包括:

6.根据权利要求1所述的一种基于哈夫曼编码的快速编码方法,其特征在于,所述根据所有频率差异值和所述频率分布指标,确定每个频率差异值对应的优选程度,包括:

7.根据权利要求1所述的一种基于哈夫曼编码的快速编码方法,其特征在于,所述基于所述优选程度确定所述频率序列中的分段节点,基于所述分段节点对所述频率序列进行划分获得分段节点对应的各数据段,包括:

8.根据权利要求1所述的一种基于哈夫曼编码的快速编码方法,其特征在于,所述根据各数据段中频率数据的分布情况,判断是否再次对各数据段进行划分,若是,则继续确定新的分段节点,基于新的分段节点对所对应的数据段进行划分获得各分段节点对应的数据段,包括:

9.根据权利要求8所述的一种基于哈夫曼编码的快速编码方法,其特征在于,根据第j个数据段中所有频率数据获得第j个数据段划分的必要性指标,包括:

10.根据权利要求1所述的一种基于哈夫曼编码的快速编码方法,其特征在于,所述基于各分段节点对应的数据段构建哈夫曼编码树,基于所述哈夫曼编码树对待编码的网页文本数据进行编码存储,包括:

...

【技术特征摘要】

1.一种基于哈夫曼编码的快速编码方法,其特征在于,该方法包括以下步骤:

2.根据权利要求1所述的一种基于哈夫曼编码的快速编码方法,其特征在于,根据待编码的网页文本数据中各类字符的频率分布情况,得到待编码的网页文本数据对应的频率分布指标,包括:

3.根据权利要求2所述的一种基于哈夫曼编码的快速编码方法,其特征在于,采用如下公式计算待编码的网页文本数据对应的频率分布指标:

4.根据权利要求1所述的一种基于哈夫曼编码的快速编码方法,其特征在于,所述基于待编码的网页文本数据中各类字符的频率构建频率序列,包括:

5.根据权利要求1所述的一种基于哈夫曼编码的快速编码方法,其特征在于,根据所述频率序列,得到频率差异值,包括:

6.根据权利要求1所述的一种基于哈夫曼编码的快速编码方法,其特征在于,所述根据所有频率差异值和所述频率分布指标,确定每个频率差异值对应的优选程度...

【专利技术属性】
技术研发人员:秦何乐扬李晓磊
申请(专利权)人:深圳市丽台电子有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1