【技术实现步骤摘要】
一种可移植文档格式PDF中的乱码识别方法和装置
本专利技术实施例涉及文档处理技术,尤指一种可移植文档格式PDF中的乱码识别方法和装置。
技术介绍
在可移植文档格式PDF文档中,通常因为字体缺失、文字编码不正确等原因造成文档在打开的时候出现乱码,为用户带来很多困扰。
技术实现思路
为了解决上述技术问题,本专利技术实施例提供了一种PDF中的乱码识别方法和装置,能够检测出用户的PDF文档是否存在乱码,为后续的乱码修复做准备,提高用户体验感。为了达到本专利技术实施例目的,本专利技术实施例提供了一种PDF中的乱码识别方法,该方法可以包括:将待识别的PDF文档输入预先训练好的神经网络模型中,以通过该神经网络模型识别出待识别的PDF文档中的乱码,并输出标记有乱码的识别结果。可选地,该方法还可以包括:在将待识别的PDF文档输入预先训练好的神经网络模型之前,打开待识别的PDF文档,并将待识别的PDF文档转换为图片格式。可选地,该方法还可以包括:在将待识别的PDF文档输入预先训练好的神经网络模 ...
【技术保护点】
1.一种可移植文档格式PDF中的乱码识别方法,其特征在于,所述方法包括:/n将待识别的PDF文档输入预先训练好的神经网络模型中,以通过所述神经网络模型识别出所述待识别的PDF文档中的乱码,并输出标记有乱码的识别结果。/n
【技术特征摘要】
1.一种可移植文档格式PDF中的乱码识别方法,其特征在于,所述方法包括:
将待识别的PDF文档输入预先训练好的神经网络模型中,以通过所述神经网络模型识别出所述待识别的PDF文档中的乱码,并输出标记有乱码的识别结果。
2.根据权利要求1所述的PDF中的乱码识别方法,其特征在于,所述方法还包括:在将所述待识别的PDF文档输入预先训练好的神经网络模型之前,打开所述待识别的PDF文档,并将所述待识别的PDF文档转换为图片格式。
3.根据权利要求1所述的PDF中的乱码识别方法,其特征在于,所述方法还包括:在将所述待识别的PDF文档输入预先训练好的神经网络模型之前,获取标记有乱码的PDF文档;将所述标记有乱码的PDF文档输入未经训练的神经网络模型中,以对所述未经训练的神经网络模型进行训练,使所述神经网络模型具有识别乱码的功能。
4.根据权利要求3所述的PDF中的乱码识别方法,其特征在于,所述方法还包括:在将所述标记有乱码的PDF文档输入未经训练的神经网络模型中之前,将预设页数的PDF文档的内容或者一页文档中预设比例的内容转换成图片,以将所述图片输入所述神经网络模型,并对所述神经网络模型进行训练。
5.根据权利要求2或4所述的PDF中的乱码识别方法,其特征在于,所述神经网络模型包括:TensorFlow。
6.一种可移植文档格式PDF中...
【专利技术属性】
技术研发人员:邓斌,
申请(专利权)人:珠海金山办公软件有限公司,北京金山办公软件股份有限公司,广州金山移动科技有限公司,
类型:发明
国别省市:广东;44
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。