一种文件识别处理方法及存储介质技术

技术编号：37547644 阅读：13 留言：0更新日期：2023-05-12 16:23

一种文件识别处理方法，其特征在于，包括如下步骤，文件预处理：将用户输入文件转化为图片格式，对图片进行逐页识别；图片错误类型识别：在完成文件转图片转化后，利用训练好的卷积神经网络模型进行图片错误类型识别，错误类型图片处理：识别模型识别出图片错误类型，如果图片中有多种类型的结果，系统可对图片进行多类型的操作；对处理后的图片进行OCR识别：系统对图片进行识别处理后，可进行OCR识别，其中OCR模型选用PaddleOCR模型，OCR模型已经搭建,可无限次得进行识别。本发明专利技术能够根据需要部署的不同服务的资源需求以及性能表现，对不同服务的配置进行动态地分配，能够使得系统服务能够始终运行在最佳状态。务能够始终运行在最佳状态。务能够始终运行在最佳状态。

全部详细技术资料下载

【技术实现步骤摘要】
一种文件识别处理方法及存储介质

[0001]本专利技术涉及人工智能领域，尤其涉及一种多功能集成的OCR识别工具和提升识别率的方法及存储介质。

技术介绍

[0002]随着互联网技术的发展，云计算、大数据、分布式应用等技术为我们提供更敏捷的产品交付、更创新的业务模式和更优质的客户体验，但同时也给运维管理带来了全新的挑战。传统的资源控制方法，只能根据预设模型进行相关资源的配置控制，而不能够进行自动化调整，对人工操作的能力和设计要求较高。如果能够设计一种新的方法来提升针对系统应用的资源配置就好了。

技术实现思路

[0003]因此，需要提供一种能够对系统中的资源进行自动化配置的方法及存储介质。
[0004]为实现上述目的，专利技术人提供了一种文件识别处理方法，包括如下步骤，文件预处理：将用户输入文件转化为图片格式，对图片进行逐页识别；
[0005]图片错误类型识别：在完成文件转图片转化后，利用训练好的卷积神经网络模型进行图片错误类型识别，
[0006]错误类型图片处理：识别模型识别出图片错误类型，如果图片中有多种类型的结果，系统可对图片进行多类型的操作；
[0007]对处理后的图片进行OCR识别：系统对图片进行识别处理后，可进行OCR识别，其中OCR模型选用PaddleOCR模型，OCR模型已经搭建,可无限次得进行识别；
[0008]识别结果提升：OCR识别结果出来后进行自动矫正，OCR识别结果通过自动矫正库进行识别矫正。
[0009]在本申请的一些实施例中，还包...

【技术保护点】

【技术特征摘要】
1.一种文件识别处理方法，其特征在于，包括如下步骤，文件预处理：将用户输入文件转化为图片格式，对图片进行逐页识别；图片错误类型识别：在完成文件转图片转化后，利用训练好的卷积神经网络模型进行图片错误类型识别，错误类型图片处理：识别模型识别出图片错误类型，如果图片中有多种类型的结果，系统可对图片进行多类型的操作；对处理后的图片进行OCR识别：系统对图片进行识别处理后，可进行OCR识别，其中OCR模型选用PaddleOCR模型，OCR模型已经搭建,可无限次得进行识别；识别结果提升：OCR识别结果出来后进行自动矫正，OCR识别结果通过自动矫正库进行识别矫正。2.根据权利要求1所述的文件识别处理方法，其特征在于，还包括步骤，使用残差神经网络ResNet
‑
50、Inception
‑
v4；等模型进行对比训练，及后续处理。3.根据权利要求1所述的文件识别处理方法，其特征在于，对OCR的识别结果进行第二风险识别步骤，向用户反馈第二风险识别步骤的识别结果。4.根据权利要求3所述的文件识别处理方法，其特征在于，所述第二风险识别步骤的识别结果包括，非同一人担任相同职务、副职未设立风险、公司名称错误风险、权利事项未载明。5.根据权利要求1所述的文件识别处理方法，其特征在于，所述图片错误类型识别为多种错误类型的交叉识别。6.根据权利要求1所述的文件识别处理方法，其特征在于，所述错误类型包括：图片模糊错误类型、图片文字扭曲类型、图片中文字被盖章覆盖类型存在无效信息类型。7.根据权利要求6所述的文件识别处理方法，其特征在于，具体进行步骤，当识别为图片模糊错误类型时，对图片中文字进行清晰化和文字加粗...

【专利技术属性】
技术研发人员：沈强，罗建新，王传熙，
申请(专利权)人：福建正孚软件有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人