一种可移植文档格式PDF中的乱码识别方法和装置制造方法及图纸

技术编号：23288729 阅读：44 留言：0更新日期：2020-02-08 18:37

本发明专利技术实施例公开了一种可移植文档格式PDF中的乱码识别方法和装置，该方法包括：将待识别的PDF文档输入预先训练好的神经网络模型中，以通过该神经网络模型识别出待识别的PDF文档中的乱码，并输出标记有乱码的识别结果。通过该实施例方案，检测出了用户的PDF文档是否存在乱码，为后续的乱码修复做准备，提高了用户体验感。

A method and device for recognizing the garbled code in portable document format pdf

全部详细技术资料下载

【技术实现步骤摘要】
一种可移植文档格式PDF中的乱码识别方法和装置
本专利技术实施例涉及文档处理技术，尤指一种可移植文档格式PDF中的乱码识别方法和装置。
技术介绍
在可移植文档格式PDF文档中，通常因为字体缺失、文字编码不正确等原因造成文档在打开的时候出现乱码，为用户带来很多困扰。
技术实现思路
为了解决上述技术问题，本专利技术实施例提供了一种PDF中的乱码识别方法和装置，能够检测出用户的PDF文档是否存在乱码，为后续的乱码修复做准备，提高用户体验感。为了达到本专利技术实施例目的，本专利技术实施例提供了一种PDF中的乱码识别方法，该方法可以包括：将待识别的PDF文档输入预先训练好的神经网络模型中，以通过该神经网络模型识别出待识别的PDF文档中的乱码，并输出标记有乱码的识别结果。可选地，该方法还可以包括：在将待识别的PDF文档输入预先训练好的神经网络模型之前，打开待识别的PDF文档，并将待识别的PDF文档转换为图片格式。可选地，该方法还可以包括：在将待识别的PDF文档输入预先训练好的神经网络模...

【技术保护点】
1.一种可移植文档格式PDF中的乱码识别方法，其特征在于，所述方法包括：/n将待识别的PDF文档输入预先训练好的神经网络模型中，以通过所述神经网络模型识别出所述待识别的PDF文档中的乱码，并输出标记有乱码的识别结果。/n

【技术特征摘要】
1.一种可移植文档格式PDF中的乱码识别方法，其特征在于，所述方法包括：
将待识别的PDF文档输入预先训练好的神经网络模型中，以通过所述神经网络模型识别出所述待识别的PDF文档中的乱码，并输出标记有乱码的识别结果。

2.根据权利要求1所述的PDF中的乱码识别方法，其特征在于，所述方法还包括：在将所述待识别的PDF文档输入预先训练好的神经网络模型之前，打开所述待识别的PDF文档，并将所述待识别的PDF文档转换为图片格式。

3.根据权利要求1所述的PDF中的乱码识别方法，其特征在于，所述方法还包括：在将所述待识别的PDF文档输入预先训练好的神经网络模型之前，获取标记有乱码的PDF文档；将所述标记有乱码的PDF文档输入未经训练的神经网络模型中，以对所述未经训练的神经网络模型进行训练，使所述神经网络模型具有识别乱码的功能。

4.根据权利要求3所述的PDF中的乱码识别方法，其特征在于，所述方法还包括：在将所述标记有乱码的PDF文档输入未经训练的神经网络模型中之前，将预设页数的PDF文档的内容或者一页文档中预设比例的内容转换成图片，以将所述图片输入所述神经网络模型，并对所述神经网络模型进行训练。

5.根据权利要求2或4所述的PDF中的乱码识别方法，其特征在于，所述神经网络模型包括：TensorFlow。

6.一种可移植文档格式PDF中...

【专利技术属性】
技术研发人员：邓斌，
申请(专利权)人：珠海金山办公软件有限公司，北京金山办公软件股份有限公司，广州金山移动科技有限公司，
类型：发明
国别省市：广东;44

全部详细技术资料下载我是这个专利的主人