【技术实现步骤摘要】
文档内容的乱码识别方法、装置及电子设备
本专利技术涉及文字处理
,特别是涉及一种文档内容的乱码识别方法、装置及电子设备。
技术介绍
乱码指的是文档内容在电子设备上不能显示为正确的字符,而显示为其他无意义的字符。在电子设备上显示文档的文本内容时,可以基于文档中的文本内容的字体信息,以及与字体信息匹配的字体库的信息,在电子设备中查找到与字体信息匹配的字体库,将该字体库加载到该文本内容,从而显示正确的文本内容。如果电子设备中缺少与字体信息匹配的字体库,就会用不匹配的字体库解析该文本内容,从而导致乱码。由于电子设备中存储的字体库是有限的,因此,经常会出现因无法加载与文档内容的字体信息相匹配的字体库而导致文档乱码的现象。在解决因字体库和文档内容的字体信息不匹配而导致的文档内容乱码时,需要用户肉眼观察识别是否存在乱码,以便根据识别结果,确定后续是否进行文档内容的乱码修复,这种由用户人工识别乱码的方式,具有较差的便捷性。
技术实现思路
本专利技术实施例的目的在于提供一种文档内容的乱码识别方法、装置及设备,以实现针对文档内容所出现的由字体库和文档内容的字体信息不匹配而导致的乱码现象,自动进行乱码识别,提高文档内容的乱码识别的便捷性。具体技术方案如下:第一方面,本专利技术实施例提供了一种文档内容的乱码识别方法,该方法包括:解析待处理文档,得到待处理文档的文字解析结果;提取待处理文档的文字解析结果中的各个字体信息;根据各个字体信息,将与字体信息对应的字体库加载到待处理文档 ...
【技术保护点】
1.一种文档内容的乱码识别方法,其特征在于,所述方法包括:/n解析待处理文档,得到所述待处理文档的文字解析结果;/n提取所述待处理文档的文字解析结果中的各个字体信息;/n根据所述各个字体信息,将与所述字体信息对应的字体库加载到待处理文档中的文本中并进行编码,获得编码后的文本数据;/n当所述编码后的文本数据中有生僻字时,基于所述编码后的文本数据中生僻字的字数和所述待处理文档中文字的字数,计算得到所述生僻字在所述待处理文档中的占有率;/n判断所述生僻字在所述待处理文档中的占有率是否大于第一预设阈值;/n若大于,则识别出所述编码后的文本数据中包含乱码文本数据。/n
【技术特征摘要】
1.一种文档内容的乱码识别方法,其特征在于,所述方法包括:
解析待处理文档,得到所述待处理文档的文字解析结果;
提取所述待处理文档的文字解析结果中的各个字体信息;
根据所述各个字体信息,将与所述字体信息对应的字体库加载到待处理文档中的文本中并进行编码,获得编码后的文本数据;
当所述编码后的文本数据中有生僻字时,基于所述编码后的文本数据中生僻字的字数和所述待处理文档中文字的字数,计算得到所述生僻字在所述待处理文档中的占有率;
判断所述生僻字在所述待处理文档中的占有率是否大于第一预设阈值;
若大于,则识别出所述编码后的文本数据中包含乱码文本数据。
2.根据权利要求1所述的方法,其特征在于,在所述根据所述各个字体信息,将与所述字体信息对应的字体库加载到待处理文档中的文本中并进行编码,获得编码后的文本数据之前,所述方法还包括:
根据所述各个字体信息对所述待处理文档中所有文本进行分类,将各个字体信息对应的文本分别作为目标文本;
确定每个目标文本中的目标文字的字数;
所述根据所述各个字体信息,将与所述字体信息对应的字体库加载到待处理文档中的文本中并进行编码,获得编码后的文本数据,包括:
根据所述各个字体信息,对各个目标文本加载对应的字体库并进行编码,获得所述目标文本对应的编码后的文本数据;
所述当所述编码后的文本数据中有生僻字时,基于所述编码后的文本数据中生僻字的字数和所述待处理文档中文字的字数,计算得到所述生僻字在所述待处理文档中的占有率,包括:
判断所述编码后的文本数据中是否有生僻字;
若有生僻字,则根据每个目标文本中生僻字的字数和目标文字的字数,计算生僻字在所述目标文本中的占有率;
所述判断所述生僻字在所述目标文本中的占有率是否大于第一预设阈值,包括:
判断所述生僻字在所述目标文本中的占有率是否大于第一预设阈值;
所述若大于,则识别出所述编码后的文本数据中包含乱码文本数据,包括:
若所述生僻字在所述目标文本中的占有率大于第一预设阈值,则识别出所述编码后的文本数据中包含乱码文本数据。
3.根据权利要求2所述的方法,其特征在于,所述判断编码后的文本数据中是否有生僻字的步骤,包括:
从预存的字频表中获得每个目标文字的字频;
如果所述目标文字的字频低于预设生僻字的字频阈值,则确定该目标文字为生僻字。
4.根据权利要求2所述的方法,其特征在于,在判断出所述生僻字在所述目标文本中的占有率不大于第一预设阈值后,所述方法还包括:
判断所述生僻字在所述目标文本中的占有率是否小于第二预设阈值,所述第二预设阈值小于所述第一预设阈值;
若所述生僻字在所述目标文本中的占有率小于第二预设阈值,则识别出所述编码后的文本数据中没有乱码文本数据;
若不小于第二预设阈值,则向用户输出是否需要修复文档提示;
在接收到用户输入的需要修复文档指令...
【专利技术属性】
技术研发人员:冷志峰,张作兵,
申请(专利权)人:珠海金山办公软件有限公司,北京金山办公软件股份有限公司,广州金山移动科技有限公司,
类型:发明
国别省市:广东;44
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。