【技术实现步骤摘要】
本专利技术涉及互联网
,特别是涉及一种数据流编码的预测方法及数据流编码的预测装置。
技术介绍
在大数据分析挖掘的时代中,在获得大量数据源后,首先要检测出来它们是哪种数据流编码方便去解析和文本处理。目前主要是为特定的数据源指定好编码,而无法自动的解析。以错误的编码打开或一个文件会导致乱码,人们需要知道文本具体的编码信息。人们需要手动选择各种编码,直到能够正确显示文本为止,这是个痛苦的过程。数据流编码猜测工具能使人们从这种繁琐的过程中解脱出来。现在已经有了一些数据流编码猜测的工具,如IE和Mozilla都集成了这种功能。而IE,Mozilla等浏览器,它们提供一个自动选择编码的菜单,当遇到一个未指定编码的HTML文件时,便会自动调用这个工具,得出最可能的编码,然后正确显示网页。往往需要手动指定下,如果出错也不能再次自动更换。Mozilla在实现中可以统计一些(512个)常用字符的分布率,然后同理想分布率比较,得出可靠度,来确定可能的编码。但是,这种方法的一个缺陷是,它只对那些用两个字节编码的语言有效,如GB2312,Big5等,对于单字节的编码,如ISO-8859-2,就只能用其变通方式,双字符序列分布方法。而像UTF-8那样用不确定字节编码的,就没有办法用该种频率分析方法了,只能用编码模式的方法来确定。这样将带来了分析程序的复杂性,同时导致了效率的低下。一开始,程序不能够确定用哪种方式来猜测编码,必须 ...
【技术保护点】
一种数据流编码的预测方法,其特征在于,所述数据流编码的预测方法包括以下步骤:获取各种编码的测试样本;根据第一类型编码的测试样本形成出现频率表或根据第二类型编码的测试样本形成有穷状态自动机;获取待预测的数据流文本,并对所述待预测的数据流文本进行去噪处理,所述去噪处理的结果包括第一结果或第二结果;当去噪处理的结果为第一结果时,根据有穷状态自动机确定待预测的数据流文本的编码格式;当去噪处理的结果为第二结果时,计算待预测的数据流文本的出现频率数组;将待预测的数据流文本的出现频率数组与出现频率表进行比对以获得待预测的数据流文本的编码格式。
【技术特征摘要】
1.一种数据流编码的预测方法,其特征在于,所述数据流编码的预测方法包括以下步
骤:
获取各种编码的测试样本;
根据第一类型编码的测试样本形成出现频率表或根据第二类型编码的测试样本形成
有穷状态自动机;
获取待预测的数据流文本,并对所述待预测的数据流文本进行去噪处理,所述去噪处
理的结果包括第一结果或第二结果;
当去噪处理的结果为第一结果时,根据有穷状态自动机确定待预测的数据流文本的编
码格式;
当去噪处理的结果为第二结果时,计算待预测的数据流文本的出现频率数组;
将待预测的数据流文本的出现频率数组与出现频率表进行比对以获得待预测的数据
流文本的编码格式。
2.根据权利要求1所述的数据流编码的预测方法,其特征在于,所述根据第一类型编码
的测试样本形成出现频率表步骤包括:
对第一类型编码的测试样本进行去噪处理;
根据去噪处理后的测试样本计算各编码的出现频率数组,以形成出现频率表。
3.根据权利要求1所述的数据流编码的预测方法,其特征在于,所述计算待预测的数据
流文本的出现频率数组的步骤包括:
计算去噪处理后的数据流文本中每个字节出现的频率;
将每个字节出现的频率记录进数组以形成出现频率数组。
4.根据权利要求3所述的数据流编码的预测方法,其特征在于,所述将每个字节出现的
频率记录进数组以形成出现频率数组的步骤包括:计算每个字节出现的频率与一百有效字
节的比值以形成出现频率数组,所述有效字节为对待预测的数据流文本进行去噪处理后的
字节数。
5.根据权利要求1所述的数据流编码的预测方法,其特征在于,将待预测的数据流文本
的出现频率数组与出现频率表进行比对以获得待预测的数据流文本的编码格式的步骤包
括:
计算待预测的数据流文本的出现频率数组与出现频率表之间组间差;
将最小组间差所对应的编码格式作为待预测的数据流文本的编码格式。
6.根据权利要求1所述的数据流编码的预测方法,其特征在于,将待预测的数据流文本
的出现频率数组与出现频率表进行比对以获得待预测的数据流文本的编码格式的步骤包
括...
【专利技术属性】
技术研发人员:李文斌,
申请(专利权)人:上海斐讯数据通信技术有限公司,
类型:发明
国别省市:上海;31
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。