文档内容的乱码识别方法、装置及电子设备制造方法及图纸

技术编号:23191323 阅读:17 留言:0更新日期:2020-01-24 16:25
本发明专利技术实施例提供的一种文档内容的乱码识别方法、装置及设备,通过解析待处理文档,得到待处理文档的文字解析结果,从待处理文档的文字解析结果中提取各个字体信息。根据各个字体信息,将与字体信息对应的字体库加载到待处理文档中的文本中并进行编码,获得编码后的文本数据。当编码后的文本数据中有生僻字时,基于编码后的文本数据中生僻字的字数和待处理文档中文字的字数,计算得到生僻字在待处理文档中的占有率。判断生僻字在目标文本中的占有率是否大于第一预设阈值,若大于,则识别出编码后的文本数据中包含乱码文本数据。实现了自动识别编码后的文本数据是否包含乱码文本数据,提高了文档内容的乱码识别的便捷性。

Method, device and electronic equipment of document content scrambling identification

【技术实现步骤摘要】
文档内容的乱码识别方法、装置及电子设备
本专利技术涉及文字处理
,特别是涉及一种文档内容的乱码识别方法、装置及电子设备。
技术介绍
乱码指的是文档内容在电子设备上不能显示为正确的字符,而显示为其他无意义的字符。在电子设备上显示文档的文本内容时,可以基于文档中的文本内容的字体信息,以及与字体信息匹配的字体库的信息,在电子设备中查找到与字体信息匹配的字体库,将该字体库加载到该文本内容,从而显示正确的文本内容。如果电子设备中缺少与字体信息匹配的字体库,就会用不匹配的字体库解析该文本内容,从而导致乱码。由于电子设备中存储的字体库是有限的,因此,经常会出现因无法加载与文档内容的字体信息相匹配的字体库而导致文档乱码的现象。在解决因字体库和文档内容的字体信息不匹配而导致的文档内容乱码时,需要用户肉眼观察识别是否存在乱码,以便根据识别结果,确定后续是否进行文档内容的乱码修复,这种由用户人工识别乱码的方式,具有较差的便捷性。
技术实现思路
本专利技术实施例的目的在于提供一种文档内容的乱码识别方法、装置及设备,以实现针对文档内容所出现的由字体库和文档内容的字体信息不匹配而导致的乱码现象,自动进行乱码识别,提高文档内容的乱码识别的便捷性。具体技术方案如下:第一方面,本专利技术实施例提供了一种文档内容的乱码识别方法,该方法包括:解析待处理文档,得到待处理文档的文字解析结果;提取待处理文档的文字解析结果中的各个字体信息;根据各个字体信息,将与字体信息对应的字体库加载到待处理文档中的文本中并进行编码,获得编码后的文本数据;当编码后的文本数据中有生僻字时,基于编码后的文本数据中生僻字的字数和待处理文档中文字的字数,计算得到生僻字在待处理文档中的占有率;判断生僻字在待处理文档中的占有率是否大于第一预设阈值;若大于,则识别出编码后的文本数据中包含乱码文本数据。第二方面,本专利技术实施例提供了一种文档内容的乱码识别装置,该装置包括:解析模块,用于解析待处理文档,得到待处理文档的文字解析结果;提取模块,用于提取待处理文档的文字解析结果中的各个字体信息;编码模块,用于根据各个字体信息,对待处理文档中的文本加载对应的字体库并进行编码,获得编码后的文本数据;识别模块,用于当编码后的文本数据中有生僻字时,基于编码后的文本数据中生僻字的字数和待处理文档中文字的字数,计算得到生僻字在待处理文档中的占有率;判断生僻字在待处理文档中的占有率是否大于第一预设阈值;若大于,则识别出编码后的文本数据中包含乱码文本数据。第三方面,本专利技术实施例提供了一种电子设备,包括处理器、通信接口、存储器和通信总线,其中,处理器,通信接口,存储器通过总线完成相互间的通信;存储器,用于存放计算机程序;处理器,用于执行存储器上所存放的程序,实现上述第一方面提供的文档内容的乱码识别方法的步骤。第四方面,本专利技术实施例提供了一种计算机可读存储介质,该存储介质内存储有计算机程序,该计算机程序被处理器执行时实现上述第一方面提供的文档内容的乱码识别方法的步骤。本专利技术实施例提供的一种文档内容的乱码识别方法、装置及设备,通过解析待处理文档,得到待处理文档的文字解析结果,从待处理文档的文字解析结果中提取各个字体信息。根据各个字体信息,对待处理文档中的文本加载对应的字体库并进行编码,获得编码后的文本数据。当编码后的文本数据中有生僻字时,基于编码后的文本数据中生僻字的字数和待处理文档中文字的字数,计算得到生僻字在待处理文档中的占有率。判断生僻字在目标文本中的占有率是否大于第一预设阈值,若大于,则识别出编码后的文本数据中包含乱码文本数据。将待处理文档中文字的字数作为无乱码的标准,当文本数据中的生僻字在待处理文档中的占有率大于第一预设阈值时,表明待处理文档中的生僻字的占有率达到形成乱码的水平。在此基础上,由于无乱码现象时待处理文档中文字的字数与编码后的文本数据的字数相同,因此,待处理文档中的生僻字的占有率达到形成乱码的水平,也就表明编码后的文本数据中包含乱码文本数据,从而实现了自动识别编码后的文本数据是否包含乱码文本数据,无需用户人工打开文档、对文档内容进行阅读和识别,提高了文档内容的乱码识别的便捷性。附图说明为了更清楚地说明本专利技术实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。图1为本专利技术一实施例的文档内容的乱码识别方法的流程示意图;图2为本专利技术另一实施例的文档内容的乱码识别方法的流程示意图;图3为本专利技术图2所示另一实施例中步骤S206中判断编码后的文本数据中是否存在生僻字的具体流程示意图;图4为本专利技术一实施例的文档内容的乱码识别装置的结构示意图;图5为本专利技术另一实施例的文档内容的乱码识别装置的结构示意图;图6为本专利技术一实施例的电子设备的结构示意图。具体实施方式下面将结合本专利技术实施例中的附图,对本专利技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。为了实现针对文档内容所出现的由字体库和内容不匹配而导致的乱码现象,能够自动进行乱码识别,本专利技术实施例提供了一种文档内容的乱码识别方法、装置及设备。下面首先对本专利技术一实施例的文档内容的乱码识别方法进行介绍。如图1所示,本专利技术一实施例的文档内容的乱码识别方法的流程,该方法可以包括以下步骤:S101,解析待处理文档,得到待处理文档的文字解析结果。在具体实施中,待处理文档可以是各种含有文本的文档。例如:待处理文档可以是doc、wps等格式的文字处理文档,ppt、dps等格式的演示文稿文档,xls、et等格式的表格文档,pdf格式的可移植文档。在具体实施中,可以使用文档解析软件解析待处理文档,得到待处理文档的文字解析结果。S102,提取待处理文档的文字解析结果中各个字体信息。在具体实施中,可以使用文档解析软件解析待处理文档,从文字解析结果中提取文档文字的字体信息。具体的,字体信息包含文档中各个文字的字体名称、字形信息和在文档中位置等信息。S103,根据各个字体信息,将与字体信息对应的字体库加载到待处理文档中的文本中并进行编码,获得编码后的文本数据。在具体实施中,可以根据已获得的字体名称,确定终端设备中保存的对应字体库,对具有相同字体信息的文本加载对应字体库;之后根据文本中各个文字的字形信息,使用对应字体库中的字形索引找到文本中各个文字的对应编码,最终获得编码后的文本数据。例如:从文档中提取出宋体和黑体的字体信息,根据宋体和黑体的名称从终端设备的字体库文件夹中寻找宋本文档来自技高网...

【技术保护点】
1.一种文档内容的乱码识别方法,其特征在于,所述方法包括:/n解析待处理文档,得到所述待处理文档的文字解析结果;/n提取所述待处理文档的文字解析结果中的各个字体信息;/n根据所述各个字体信息,将与所述字体信息对应的字体库加载到待处理文档中的文本中并进行编码,获得编码后的文本数据;/n当所述编码后的文本数据中有生僻字时,基于所述编码后的文本数据中生僻字的字数和所述待处理文档中文字的字数,计算得到所述生僻字在所述待处理文档中的占有率;/n判断所述生僻字在所述待处理文档中的占有率是否大于第一预设阈值;/n若大于,则识别出所述编码后的文本数据中包含乱码文本数据。/n

【技术特征摘要】
1.一种文档内容的乱码识别方法,其特征在于,所述方法包括:
解析待处理文档,得到所述待处理文档的文字解析结果;
提取所述待处理文档的文字解析结果中的各个字体信息;
根据所述各个字体信息,将与所述字体信息对应的字体库加载到待处理文档中的文本中并进行编码,获得编码后的文本数据;
当所述编码后的文本数据中有生僻字时,基于所述编码后的文本数据中生僻字的字数和所述待处理文档中文字的字数,计算得到所述生僻字在所述待处理文档中的占有率;
判断所述生僻字在所述待处理文档中的占有率是否大于第一预设阈值;
若大于,则识别出所述编码后的文本数据中包含乱码文本数据。


2.根据权利要求1所述的方法,其特征在于,在所述根据所述各个字体信息,将与所述字体信息对应的字体库加载到待处理文档中的文本中并进行编码,获得编码后的文本数据之前,所述方法还包括:
根据所述各个字体信息对所述待处理文档中所有文本进行分类,将各个字体信息对应的文本分别作为目标文本;
确定每个目标文本中的目标文字的字数;
所述根据所述各个字体信息,将与所述字体信息对应的字体库加载到待处理文档中的文本中并进行编码,获得编码后的文本数据,包括:
根据所述各个字体信息,对各个目标文本加载对应的字体库并进行编码,获得所述目标文本对应的编码后的文本数据;
所述当所述编码后的文本数据中有生僻字时,基于所述编码后的文本数据中生僻字的字数和所述待处理文档中文字的字数,计算得到所述生僻字在所述待处理文档中的占有率,包括:
判断所述编码后的文本数据中是否有生僻字;
若有生僻字,则根据每个目标文本中生僻字的字数和目标文字的字数,计算生僻字在所述目标文本中的占有率;
所述判断所述生僻字在所述目标文本中的占有率是否大于第一预设阈值,包括:
判断所述生僻字在所述目标文本中的占有率是否大于第一预设阈值;
所述若大于,则识别出所述编码后的文本数据中包含乱码文本数据,包括:
若所述生僻字在所述目标文本中的占有率大于第一预设阈值,则识别出所述编码后的文本数据中包含乱码文本数据。


3.根据权利要求2所述的方法,其特征在于,所述判断编码后的文本数据中是否有生僻字的步骤,包括:
从预存的字频表中获得每个目标文字的字频;
如果所述目标文字的字频低于预设生僻字的字频阈值,则确定该目标文字为生僻字。


4.根据权利要求2所述的方法,其特征在于,在判断出所述生僻字在所述目标文本中的占有率不大于第一预设阈值后,所述方法还包括:
判断所述生僻字在所述目标文本中的占有率是否小于第二预设阈值,所述第二预设阈值小于所述第一预设阈值;
若所述生僻字在所述目标文本中的占有率小于第二预设阈值,则识别出所述编码后的文本数据中没有乱码文本数据;
若不小于第二预设阈值,则向用户输出是否需要修复文档提示;
在接收到用户输入的需要修复文档指令...

【专利技术属性】
技术研发人员:冷志峰张作兵
申请(专利权)人:珠海金山办公软件有限公司北京金山办公软件股份有限公司广州金山移动科技有限公司
类型:发明
国别省市:广东;44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1