数据流编码的预测方法及预测装置制造方法及图纸

技术编号:13115005 阅读:25 留言:0更新日期:2016-04-06 07:30
本发明专利技术提供一种数据流编码的预测方法及预测装置。所述数据流编码的预测方法包括以下步骤:获取各种编码的测试样本;根据第一类型编码的测试样本形成出现频率表或根据第二类型编码的测试样本形成有穷状态自动机;获取待预测的数据流文本,并对所述待预测的数据流文本进行去噪处理,所述去噪处理的结果包括第一结果或第二结果;当去噪处理的结果为第一结果时,根据有穷状态自动机确定待预测的数据流文本的编码格式;当去噪处理的结果为第二结果时,计算待预测的数据流文本的出现频率数组;将待预测的数据流文本的出现频率数组与出现频率表进行比对以获得待预测的数据流文本的编码格式。本发明专利技术方法提高了预测的准确性和效率。

【技术实现步骤摘要】

本专利技术涉及互联网
,特别是涉及一种数据流编码的预测方法及数据流编码的预测装置。
技术介绍
在大数据分析挖掘的时代中,在获得大量数据源后,首先要检测出来它们是哪种数据流编码方便去解析和文本处理。目前主要是为特定的数据源指定好编码,而无法自动的解析。以错误的编码打开或一个文件会导致乱码,人们需要知道文本具体的编码信息。人们需要手动选择各种编码,直到能够正确显示文本为止,这是个痛苦的过程。数据流编码猜测工具能使人们从这种繁琐的过程中解脱出来。现在已经有了一些数据流编码猜测的工具,如IE和Mozilla都集成了这种功能。而IE,Mozilla等浏览器,它们提供一个自动选择编码的菜单,当遇到一个未指定编码的HTML文件时,便会自动调用这个工具,得出最可能的编码,然后正确显示网页。往往需要手动指定下,如果出错也不能再次自动更换。Mozilla在实现中可以统计一些(512个)常用字符的分布率,然后同理想分布率比较,得出可靠度,来确定可能的编码。但是,这种方法的一个缺陷是,它只对那些用两个字节编码的语言有效,如GB2312,Big5等,对于单字节的编码,如ISO-8859-2,就只能用其变通方式,双字符序列分布方法。而像UTF-8那样用不确定字节编码的,就没有办法用该种频率分析方法了,只能用编码模式的方法来确定。这样将带来了分析程序的复杂性,同时导致了效率的低下。一开始,程序不能够确定用哪种方式来猜测编码,必须逐一试用。如先用状态机探测,接下来用单字符序列分析,接着再双字符序列分析。当然,可能在状态机探测时,就能得出了可信的结果,但从平均效率来讲,这种方法还是很低效的。
技术实现思路
鉴于以上所述现有技术的缺点,本专利技术的目的在于提供一种数据流编码的预测方法及数据流编码的预测装置,用于解决现有技术中数据流的预测方法复杂且准确度低的问题。为实现上述目的及其他相关目的,本专利技术提供一种数据流编码的预测方法,所述数据流编码的预测方法包括以下步骤:获取各种编码的测试样本;根据第一类型编码的测试样本形成出现频率表或根据第二类型编码的测试样本形成有穷状态自动机;获取待预测的数据流文本,并对所述待预测的数据流文本进行去噪处理,所述去噪处理的结果包括第一结果或第二结果;当去噪处理的结果为第一结果时,根据有穷状态自动机确定待预测的数据流文本的编码格式;当去噪处理的结果为第二结果时,计算待预测的数据流文本的出现频率数组;将待预测的数据流文本的出现频率数组与出现频率表进行比对以获得待预测的数据流文本的编码格式。于本专利技术的一实施例中,所述根据第一类型编码的测试样本形成出现频率表步骤包括:对第一类型编码的测试样本进行去噪处理;根据去噪处理后的测试样本计算各编码的出现频率数组,以形成出现频率表。于本专利技术的一实施例中,所述计算待预测的数据流文本的出现频率数组的步骤包括:计算去噪处理后的数据流文本中每个字节出现的频率;将每个字节出现的频率记录进数组以形成出现频率数组。于本专利技术的一实施例中,所述将每个字节出现的频率记录进数组以形成出现频率数组的步骤包括:计算每个字节出现的频率与一百有效字节的比值以形成出现频率数组,所述有效字节为对待预测的数据流文本进行去噪处理后的字节数。于本专利技术的一实施例中,将待预测的数据流文本的出现频率数组与出现频率表进行比对以获得待预测的数据流文本的编码格式的步骤包括:计算待预测的数据流文本的出现频率数组与出现频率表之间组间差;将最小组间差所对应的编码格式作为待预测的数据流文本的编码格式。于本专利技术的一实施例中,将待预测的数据流文本的出现频率数组与出现频率表进行比对以获得待预测的数据流文本的编码格式的步骤包括:计算待预测的数据流文本的出现频率数组与出现频率表之间组间方差;将最小组间方差所对应的编码格式作为待预测的数据流文本的编码格式。本专利技术提供一种数据流编码的预测装置,所述数据流编码的预测装置包括:测试样本获取模块,用于获取各种编码的测试样本;测试样本处理模块,用于根据第一类型编码的测试样本形成出现频率表或根据第二类型编码的测试样本形成有穷状态自动机;数据流文本处理模块,用于获取待预测的数据流文本,并对所述待预测的数据流文本进行去噪处理,所述去噪处理的结果包括第一结果或第二结果;编码格式确定模块,用于当去噪处理的结果为第一结果时,根据有穷状态自动机确定待预测的数据流文本的编码格式;还用于当去噪处理的结果为第二结果时,计算待预测的数据流文本的出现频率数组;将待预测的数据流文本的出现频率数组与出现频率表进行比对以获得待预测的数据流文本的编码格式。于本专利技术的一实施例中,所述测试样本处理模块包括:第一去噪单元,用于对第一类型编码的测试样本进行去噪处理;出现频率表形成单元,用于根据去噪处理后的测试样本计算各编码的出现频率数组,以形成出现频率表;有穷状态自动机形成单元,用于根据第二类型编码的测试样本形成有穷状态自动机。于本专利技术的一实施例中,所述出现频率表形成单元包括:频率计算单元,用于计算去噪处理后的数据流文本中每个字节出现的频率;记录单元,用于将每个字节出现的频率记录进数组以形成出现频率数组。于本专利技术的一实施例中,所述编码格式确定模块包括:第一确定单元,用于当去噪处理的结果为第一结果时,根据有穷状态自动机确定待预测的数据流文本的编码格式;计算单元,用于计算待预测的数据流文本的出现频率数组与出现频率表之间组间差或者组间方差;第二确定单元,用于将最小组间差或最小组间方差所对应的编码格式作为待预测的数据流文本的编码格式。如上所述,本专利技术的数据流编码的预测方法及数据流编码的预测装置,具有以下有益效果:本专利技术的数据流编码的预测方法及数据流编码的预测装置,通过对编码类型进行区别,在去噪处理后,可以快速的确定预测的方式,从而极大的提高了预测的效率;并且,本专利技术可以实现对各种编码的预测,从而大大提高了预测的准确度。附图说明图1显示为本专利技术的数据流编码的预测方法于一实施例中的流程示意图。图2显示为本专利技术的数据流编码的预测装置于一实施例中的结构示意图。图3显示为本专利技术的数据流编码的预测装置于另一实施例中的结构示意图。元件标号说明2数据流编码的预测装置21测试样本获取模块22测试样本处理模块23数据流文本处理模块24编码格式确定模块221第一去噪单元222出现频率表形成单元223有穷状态自动机形成单元241第一确定单元242计算单元2本文档来自技高网
...

【技术保护点】
一种数据流编码的预测方法,其特征在于,所述数据流编码的预测方法包括以下步骤:获取各种编码的测试样本;根据第一类型编码的测试样本形成出现频率表或根据第二类型编码的测试样本形成有穷状态自动机;获取待预测的数据流文本,并对所述待预测的数据流文本进行去噪处理,所述去噪处理的结果包括第一结果或第二结果;当去噪处理的结果为第一结果时,根据有穷状态自动机确定待预测的数据流文本的编码格式;当去噪处理的结果为第二结果时,计算待预测的数据流文本的出现频率数组;将待预测的数据流文本的出现频率数组与出现频率表进行比对以获得待预测的数据流文本的编码格式。

【技术特征摘要】
1.一种数据流编码的预测方法,其特征在于,所述数据流编码的预测方法包括以下步
骤:
获取各种编码的测试样本;
根据第一类型编码的测试样本形成出现频率表或根据第二类型编码的测试样本形成
有穷状态自动机;
获取待预测的数据流文本,并对所述待预测的数据流文本进行去噪处理,所述去噪处
理的结果包括第一结果或第二结果;
当去噪处理的结果为第一结果时,根据有穷状态自动机确定待预测的数据流文本的编
码格式;
当去噪处理的结果为第二结果时,计算待预测的数据流文本的出现频率数组;
将待预测的数据流文本的出现频率数组与出现频率表进行比对以获得待预测的数据
流文本的编码格式。
2.根据权利要求1所述的数据流编码的预测方法,其特征在于,所述根据第一类型编码
的测试样本形成出现频率表步骤包括:
对第一类型编码的测试样本进行去噪处理;
根据去噪处理后的测试样本计算各编码的出现频率数组,以形成出现频率表。
3.根据权利要求1所述的数据流编码的预测方法,其特征在于,所述计算待预测的数据
流文本的出现频率数组的步骤包括:
计算去噪处理后的数据流文本中每个字节出现的频率;
将每个字节出现的频率记录进数组以形成出现频率数组。
4.根据权利要求3所述的数据流编码的预测方法,其特征在于,所述将每个字节出现的
频率记录进数组以形成出现频率数组的步骤包括:计算每个字节出现的频率与一百有效字
节的比值以形成出现频率数组,所述有效字节为对待预测的数据流文本进行去噪处理后的
字节数。
5.根据权利要求1所述的数据流编码的预测方法,其特征在于,将待预测的数据流文本
的出现频率数组与出现频率表进行比对以获得待预测的数据流文本的编码格式的步骤包
括:
计算待预测的数据流文本的出现频率数组与出现频率表之间组间差;
将最小组间差所对应的编码格式作为待预测的数据流文本的编码格式。
6.根据权利要求1所述的数据流编码的预测方法,其特征在于,将待预测的数据流文本
的出现频率数组与出现频率表进行比对以获得待预测的数据流文本的编码格式的步骤包
括...

【专利技术属性】
技术研发人员:李文斌
申请(专利权)人:上海斐讯数据通信技术有限公司
类型:发明
国别省市:上海;31

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1