一种可移植文档格式PDF中的乱码识别方法和装置制造方法及图纸

技术编号:23288729 阅读:44 留言:0更新日期:2020-02-08 18:37
本发明专利技术实施例公开了一种可移植文档格式PDF中的乱码识别方法和装置,该方法包括:将待识别的PDF文档输入预先训练好的神经网络模型中,以通过该神经网络模型识别出待识别的PDF文档中的乱码,并输出标记有乱码的识别结果。通过该实施例方案,检测出了用户的PDF文档是否存在乱码,为后续的乱码修复做准备,提高了用户体验感。

A method and device for recognizing the garbled code in portable document format pdf

【技术实现步骤摘要】
一种可移植文档格式PDF中的乱码识别方法和装置
本专利技术实施例涉及文档处理技术,尤指一种可移植文档格式PDF中的乱码识别方法和装置。
技术介绍
在可移植文档格式PDF文档中,通常因为字体缺失、文字编码不正确等原因造成文档在打开的时候出现乱码,为用户带来很多困扰。
技术实现思路
为了解决上述技术问题,本专利技术实施例提供了一种PDF中的乱码识别方法和装置,能够检测出用户的PDF文档是否存在乱码,为后续的乱码修复做准备,提高用户体验感。为了达到本专利技术实施例目的,本专利技术实施例提供了一种PDF中的乱码识别方法,该方法可以包括:将待识别的PDF文档输入预先训练好的神经网络模型中,以通过该神经网络模型识别出待识别的PDF文档中的乱码,并输出标记有乱码的识别结果。可选地,该方法还可以包括:在将待识别的PDF文档输入预先训练好的神经网络模型之前,打开待识别的PDF文档,并将待识别的PDF文档转换为图片格式。可选地,该方法还可以包括:在将待识别的PDF文档输入预先训练好的神经网络模型之前,获取标记有乱本文档来自技高网...

【技术保护点】
1.一种可移植文档格式PDF中的乱码识别方法,其特征在于,所述方法包括:/n将待识别的PDF文档输入预先训练好的神经网络模型中,以通过所述神经网络模型识别出所述待识别的PDF文档中的乱码,并输出标记有乱码的识别结果。/n

【技术特征摘要】
1.一种可移植文档格式PDF中的乱码识别方法,其特征在于,所述方法包括:
将待识别的PDF文档输入预先训练好的神经网络模型中,以通过所述神经网络模型识别出所述待识别的PDF文档中的乱码,并输出标记有乱码的识别结果。


2.根据权利要求1所述的PDF中的乱码识别方法,其特征在于,所述方法还包括:在将所述待识别的PDF文档输入预先训练好的神经网络模型之前,打开所述待识别的PDF文档,并将所述待识别的PDF文档转换为图片格式。


3.根据权利要求1所述的PDF中的乱码识别方法,其特征在于,所述方法还包括:在将所述待识别的PDF文档输入预先训练好的神经网络模型之前,获取标记有乱码的PDF文档;将所述标记有乱码的PDF文档输入未经训练的神经网络模型中,以对所述未经训练的神经网络模型进行训练,使所述神经网络模型具有识别乱码的功能。


4.根据权利要求3所述的PDF中的乱码识别方法,其特征在于,所述方法还包括:在将所述标记有乱码的PDF文档输入未经训练的神经网络模型中之前,将预设页数的PDF文档的内容或者一页文档中预设比例的内容转换成图片,以将所述图片输入所述神经网络模型,并对所述神经网络模型进行训练。


5.根据权利要求2或4所述的PDF中的乱码识别方法,其特征在于,所述神经网络模型包括:TensorFlow。


6.一种可移植文档格式PDF中...

【专利技术属性】
技术研发人员:邓斌
申请(专利权)人:珠海金山办公软件有限公司北京金山办公软件股份有限公司广州金山移动科技有限公司
类型:发明
国别省市:广东;44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1