一种文件识别处理方法及存储介质技术

技术编号:37547644 阅读:13 留言:0更新日期:2023-05-12 16:23
一种文件识别处理方法,其特征在于,包括如下步骤,文件预处理:将用户输入文件转化为图片格式,对图片进行逐页识别;图片错误类型识别:在完成文件转图片转化后,利用训练好的卷积神经网络模型进行图片错误类型识别,错误类型图片处理:识别模型识别出图片错误类型,如果图片中有多种类型的结果,系统可对图片进行多类型的操作;对处理后的图片进行OCR识别:系统对图片进行识别处理后,可进行OCR识别,其中OCR模型选用PaddleOCR模型,OCR模型已经搭建,可无限次得进行识别。本发明专利技术能够根据需要部署的不同服务的资源需求以及性能表现,对不同服务的配置进行动态地分配,能够使得系统服务能够始终运行在最佳状态。务能够始终运行在最佳状态。务能够始终运行在最佳状态。

【技术实现步骤摘要】
一种文件识别处理方法及存储介质


[0001]本专利技术涉及人工智能领域,尤其涉及一种多功能集成的OCR识别工具和提升识别率的方法及存储介质。

技术介绍

[0002]随着互联网技术的发展,云计算、大数据、分布式应用等技术为我们提供更敏捷的产品交付、更创新的业务模式和更优质的客户体验,但同时也给运维管理带来了全新的挑战。传统的资源控制方法,只能根据预设模型进行相关资源的配置控制,而不能够进行自动化调整,对人工操作的能力和设计要求较高。如果能够设计一种新的方法来提升针对系统应用的资源配置就好了。

技术实现思路

[0003]因此,需要提供一种能够对系统中的资源进行自动化配置的方法及存储介质。
[0004]为实现上述目的,专利技术人提供了一种文件识别处理方法,包括如下步骤,文件预处理:将用户输入文件转化为图片格式,对图片进行逐页识别;
[0005]图片错误类型识别:在完成文件转图片转化后,利用训练好的卷积神经网络模型进行图片错误类型识别,
[0006]错误类型图片处理:识别模型识别出图片错误类型,如果图片中有多种类型的结果,系统可对图片进行多类型的操作;
[0007]对处理后的图片进行OCR识别:系统对图片进行识别处理后,可进行OCR识别,其中OCR模型选用PaddleOCR模型,OCR模型已经搭建,可无限次得进行识别;
[0008]识别结果提升:OCR识别结果出来后进行自动矫正,OCR识别结果通过自动矫正库进行识别矫正。
[0009]在本申请的一些实施例中,还包括步骤,使用残差神经网络ResNet

50、Inception

v4;等模型进行对比训练,及后续处理。
[0010]在本申请的一些实施例中,对OCR的识别结果进行第二风险识别步骤,向用户反馈第二风险识别步骤的识别结果。
[0011]在本申请的一些实施例中,所述第二风险识别步骤的识别结果包括,
[0012]非同一人担任相同职务、副职未设立风险、公司名称错误风险、权利事项未载明。
[0013]在本申请的一些实施例中,所述图片错误类型识别为多种错误类型的交叉识别。
[0014]在本申请的一些实施例中,所述错误类型包括:图片模糊错误类型、图片文字扭曲类型、图片中文字被盖章覆盖类型存在无效信息类型。
[0015]在本申请的一些实施例中,具体进行步骤,当识别为图片模糊错误类型时,对图片中文字进行清晰化和文字加粗处理;当识别为图片文字扭曲类型时,对图片中文字进行畸变矫正处理,当识别为图片中文字被盖章覆盖类型时,对图片中盖章进行消除再进行识别;当识别为图片中存在无效信息类型时,对图片中的无效信息进行消除。
[0016]一种文件识别处理存储介质,存储有计算机程序,所述计算机程序在被运行时执行包括如下步骤,
[0017]文件预处理:将用户输入文件转化为图片格式,对图片进行逐页识别;
[0018]图片错误类型识别:在完成文件转图片转化后,利用训练好的卷积神经网络模型进行图片错误类型识别,
[0019]错误类型图片处理:识别模型识别出图片错误类型,如果图片中有多种类型的结果,系统可对图片进行多类型的操作;
[0020]对处理后的图片进行OCR识别:系统对图片进行识别处理后,可进行OCR识别,其中OCR模型选用PaddleOCR模型,OCR模型已经搭建,可无限次得进行识别;
[0021]识别结果提升:OCR识别结果出来后进行自动矫正,OCR识别结果通过自动矫正库进行识别矫正。
[0022]在本申请的一些实施例中,所述计算机程序在被运行时执行:对OCR的识别结果进行第二风险识别步骤,向用户反馈第二风险识别步骤的识别结果,所述第二风险识别步骤的识别结果包括:
[0023]非同一人担任相同职务、副职未设立风险、公司名称错误风险、权利事项未载明。
[0024]在本申请的一些实施例中,所述计算机程序在被运行时执行:当识别为图片模糊错误类型时,对图片中文字进行清晰化和文字加粗处理;当识别为图片文字扭曲类型时,对图片中文字进行畸变矫正处理,当识别为图片中文字被盖章覆盖类型时,对图片中盖章进行消除再进行识别;当识别为图片中存在无效信息类型时,对图片中的无效信息进行消除。
[0025]通过上述方案,能够针对系统应用的过程中,根据需要部署的不同服务的资源需求以及性能表现,对不同服务的配置进行动态地分配,最终达到自动化配置资源给不同的系统服务的技术效果,能够使得系统服务能够始终运行在最佳状态。
[0026]上述
技术实现思路
相关记载仅是本申请技术方案的概述,为了让本领域普通技术人员能够更清楚地了解本申请的技术方案,进而可以依据说明书的文字及附图记载的内容予以实施,并且为了让本申请的上述目的及其它目的、特征和优点能够更易于理解,以下结合本申请的具体实施方式及附图进行说明。
附图说明
[0027]附图仅用于示出本申请具体实施方式以及其他相关内容的原理、实现方式、应用、特点以及效果等,并不能认为是对本申请的限制。
[0028]图1为具体实施方式所述的自动化资源配置方法流程图;
[0029]图2为具体实施方式所述的系统性能变化趋势分析方法示意图;
[0030]图3为具体实施方式所述的枚举服务部署情况流程图;
[0031]图4为具体实施方式所述的动态规划方法流程图;
[0032]图5为具体实施方式所述的自动化资源配置存储介质示意图。
具体实施方式
[0033]为详细说明技术方案的
技术实现思路
、构造特征、所实现目的及效果,以下结合具体实施例并配合附图详予说明。
[0034]在本文中提及“实施例”意味着,结合实施例描述的特定特征、结构或特性可以包含在本申请的至少一个实施例中。在说明书中各个位置出现的“实施例”一词并不一定指代相同的实施例,亦不特别限定其与其它实施例之间的独立性或关联性。原则上,在本申请中,只要不存在技术矛盾或冲突,各实施例中所提到的各项技术特征均可以以任意方式进行组合,以形成相应的可实施的技术方案。
[0035]除非另有定义,本文所使用的技术术语的含义与本申请所属
的技术人员通常理解的含义相同;本文中对相关术语的使用只是为了描述具体的实施例,而不是旨在限制本申请。
[0036]在本申请的描述中,用语“和/或”是一种用于描述对象之间逻辑关系的表述,表示可以存在三种关系,例如A和/或B,表示:存在A,存在B,以及同时存在A和B这三种情况。另外,本文中字符“/”一般表示前后关联对象是一种“或”的逻辑关系。
[0037]在本申请中,诸如“第一”和“第二”之类的用语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何实际的数量、主次或顺序等关系。
[0038]在没有更多限制的情况下,在本申请中,语句中所使用的“包括”、“包含”、“具有”或者其他类似的表述,意在涵盖非排他性的本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种文件识别处理方法,其特征在于,包括如下步骤,文件预处理:将用户输入文件转化为图片格式,对图片进行逐页识别;图片错误类型识别:在完成文件转图片转化后,利用训练好的卷积神经网络模型进行图片错误类型识别,错误类型图片处理:识别模型识别出图片错误类型,如果图片中有多种类型的结果,系统可对图片进行多类型的操作;对处理后的图片进行OCR识别:系统对图片进行识别处理后,可进行OCR识别,其中OCR模型选用PaddleOCR模型,OCR模型已经搭建,可无限次得进行识别;识别结果提升:OCR识别结果出来后进行自动矫正,OCR识别结果通过自动矫正库进行识别矫正。2.根据权利要求1所述的文件识别处理方法,其特征在于,还包括步骤,使用残差神经网络ResNet

50、Inception

v4;等模型进行对比训练,及后续处理。3.根据权利要求1所述的文件识别处理方法,其特征在于,对OCR的识别结果进行第二风险识别步骤,向用户反馈第二风险识别步骤的识别结果。4.根据权利要求3所述的文件识别处理方法,其特征在于,所述第二风险识别步骤的识别结果包括,非同一人担任相同职务、副职未设立风险、公司名称错误风险、权利事项未载明。5.根据权利要求1所述的文件识别处理方法,其特征在于,所述图片错误类型识别为多种错误类型的交叉识别。6.根据权利要求1所述的文件识别处理方法,其特征在于,所述错误类型包括:图片模糊错误类型、图片文字扭曲类型、图片中文字被盖章覆盖类型存在无效信息类型。7.根据权利要求6所述的文件识别处理方法,其特征在于,具体进行步骤,当识别为图片模糊错误类型时,对图片中文字进行清晰化和文字加粗...

【专利技术属性】
技术研发人员:沈强罗建新王传熙
申请(专利权)人:福建正孚软件有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1