一种文档质量分析方法、装置、计算机设备及存储介质制造方法及图纸

技术编号:33205642 阅读:11 留言:0更新日期:2022-04-24 00:51
本申请实施例属于人工智能中的图像处理技术领域,涉及一种文档质量分析方法、装置、计算机设备及存储介质。此外,本申请还涉及区块链技术,用户的待检测文档图像和待检测文档评分可存储于区块链中。本申请通过对待检测文档图像进行文本框检测操作获取边框文档图像,对该边框文档图像进行标准化,以符合CNN网络的输入格式,并进行评分,得到关键文档评分数据,最后根据所有的关键文档评分数据进行汇总计算,以表示该待检测文档图像的文档质量,减少了大图质量判断的时间,提高了流程的时间效率,进一步的,使用文本框检测做前置处理,更精确的定位了前景区域(文本小图),减少了背景内容的干扰,提高了文档图片质量判断的精度。提高了文档图片质量判断的精度。提高了文档图片质量判断的精度。

【技术实现步骤摘要】
一种文档质量分析方法、装置、计算机设备及存储介质


[0001]本申请涉及人工智能中的图像处理
,尤其涉及一种文档质量分析方法、装置、计算机设备及存储介质。

技术介绍

[0002]自动化的文档图像内容的识别和理解对于提高信息的转储和分析效率至关重要。尤其在保险业务中有数量非常可观的文档资料以图片的形式上传,准确的识别文档中的信息能够极大的减轻人工录入和核对的负担。在文档图像的内容理解过程常常因为上传图像的质量太差而不能准确的提取文档的信息,所以在文档进行信息提取前需要对质量差的文档图片进行拦截,及时的通知用户重新上传质量符合要求的图片,提高整体流程的流转效率。
[0003]现有一种文档质量分析方法,根据图像清晰对对整张图像进行质量判断,从而实现文档质量分析的目的。
[0004]然而,申请人发现,传统的文档质量分析方法由于文档图像的分辨率一般都非常大,直接对整张图片进行清晰度判断很难满足线上业务的即时性要求,由此可见,传统的文档质量分析方法存在质量判断时间过长,效率较低的问题。

技术实现思路

[0005]本申请实施例的目的在于提出一种文档质量分析方法、装置、计算机设备及存储介质,以解决传统的文档质量分析方法存在质量判断时间过长,效率较低的问题。
[0006]为了解决上述技术问题,本申请实施例提供一种文档质量分析方法,采用了如下所述的技术方案:
[0007]获取待检测文档图像;
[0008]对所述待检测文档图像进行文本框检测操作,得到边框文档图像;
[0009]根据预设图像尺寸对所述边框文档图像进行筛选操作,得到关键文档图像;
[0010]将所述关键文档图像输入至训练好的CNN网络进行评分操作,得到关键文档评分;
[0011]对所述关键文档评分进行汇总计算,得到与所述待检测文档图像相对应的待检测文档评分;
[0012]输出所述待检测文档评分。
[0013]为了解决上述技术问题,本申请实施例还提供一种文档质量分析装置,采用了如下所述的技术方案:
[0014]图像获取模块,用于获取待检测文档图像;
[0015]文本框检测模块,用于对所述待检测文档图像进行文本框检测操作,得到边框文档图像;
[0016]标准化模块,用于根据预设图像尺寸对所述边框文档图像进行筛选操作,得到关键文档图像;
[0017]评分模块,用于将所述关键文档图像输入至训练好的CNN网络进行评分操作,得到关键文档评分;
[0018]汇总模块,用于对所述关键文档评分进行汇总计算,得到与所述待检测文档图像相对应的待检测文档评分;
[0019]输出模块,用于输出所述待检测文档评分。
[0020]为了解决上述技术问题,本申请实施例还提供一种计算机设备,采用了如下所述的技术方案:
[0021]包括存储器和处理器,所述存储器中存储有计算机可读指令,所述处理器执行所述计算机可读指令时实现如上所述的文档质量分析方法的步骤。
[0022]为了解决上述技术问题,本申请实施例还提供一种计算机可读存储介质,采用了如下所述的技术方案:
[0023]所述计算机可读存储介质上存储有计算机可读指令,所述计算机可读指令被处理器执行时实现如上所述的文档质量分析方法的步骤。
[0024]与现有技术相比,本申请实施例主要有以下有益效果:
[0025]本申请提供了一种文档质量分析方法,包括:获取待检测文档图像;对所述待检测文档图像进行文本框检测操作,得到边框文档图像;根据预设图像尺寸对所述边框文档图像进行筛选操作,得到关键文档图像;将所述关键文档图像输入至训练好的CNN网络进行评分操作,得到关键文档评分;对所述关键文档评分进行汇总计算,得到与所述待检测文档图像相对应的待检测文档评分;输出所述待检测文档评分。本申请通过对待检测文档图像进行文本框检测操作获取边框文档图像,对该边框文档图像进行标准化,以符合CNN网络的输入格式,并进行评分,得到关键文档评分数据,最后根据所有的关键文档评分数据进行汇总计算,以表示该待检测文档图像的文档质量,减少了大图质量判断的时间,提高了流程的时间效率,进一步的,使用文本框检测做前置处理,更精确的定位了前景区域(文本小图),减少了背景内容的干扰,提高了文档图片质量判断的精度。
附图说明
[0026]为了更清楚地说明本申请中的方案,下面将对本申请实施例描述中所需要使用的附图作一个简单介绍,显而易见地,下面描述中的附图是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
[0027]图1是本申请可以应用于其中的示例性系统架构图;
[0028]图2是本申请实施例一提供的文档质量分析方法的实现流程图;
[0029]图3是图2中步骤S202的一种具体实施方式的流程图;
[0030]图4是本申请实施例一提供的Faster

RCNN网络的基本结构示意图;
[0031]图5是本申请实施例一提供的faster_rcnn_test.pt网络的结构示意图;
[0032]图6是本申请实施例一提供的获取边框文档图像的一种具体实施方式的流程图;
[0033]图7是本申请实施例一提供的ResNet18网络的结构示意图;
[0034]图8是本申请实施例一提供的获取训练好的CNN网络的一种具体实施方式的流程图;
[0035]图9是是图8中步骤S603的一种具体实施方式的流程图;
[0036]图10是本申请实施例二提供的文档质量分析装置的结构示意图;
[0037]图11是根据本申请的计算机设备的一个实施例的结构示意图。
具体实施方式
[0038]除非另有定义,本文所使用的所有的技术和科学术语与属于本申请的
的技术人员通常理解的含义相同;本文中在申请的说明书中所使用的术语只是为了描述具体的实施例的目的,不是旨在于限制本申请;本申请的说明书和权利要求书及上述附图说明中的术语“包括”和“具有”以及它们的任何变形,意图在于覆盖不排他的包含。本申请的说明书和权利要求书或上述附图中的术语“第一”、“第二”等是用于区别不同对象,而不是用于描述特定顺序。
[0039]在本文中提及“实施例”意味着,结合实施例描述的特定特征、结构或特性可以包含在本申请的至少一个实施例中。在说明书中的各个位置出现该短语并不一定均是指相同的实施例,也不是与其它实施例互斥的独立的或备选的实施例。本领域技术人员显式地和隐式地理解的是,本文所描述的实施例可以与其它实施例相结合。
[0040]为了使本
的人员更好地理解本申请方案,下面将结合附图,对本申请实施例中的技术方案进行清楚、完整地描述。
[0041]如图1所示,系统架构100可以包括终端设备101、102、103,网络104和服务器105。网络104用以在终端设备101、102、103和服务器105之间提供通信本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种文档质量分析方法,其特征在于,包括下述步骤:获取待检测文档图像;对所述待检测文档图像进行文本框检测操作,得到边框文档图像;根据预设图像尺寸对所述边框文档图像进行筛选操作,得到关键文档图像;将所述关键文档图像输入至训练好的CNN网络进行评分操作,得到关键文档评分;对所述关键文档评分进行汇总计算,得到与所述待检测文档图像相对应的待检测文档评分;输出所述待检测文档评分。2.根据权利要求1所述的文档质量分析方法,其特征在于,所述对所述待检测文档图像进行文本框检测操作,得到边框文档图像的步骤,具体包括下述步骤:根据Faster

RCNN网络对所述待检测文档图像进行所述文本框检测操作,得到所述边框文档图像。3.根据权利要求1所述的文档质量分析方法,其特征在于,在所述获取待检测文档图像的步骤之后,并且在所述对所述待检测文档图像进行文本框检测操作,得到边框文档图像的步骤之前,还包括下述步骤:对所述待检测文档图像进行自适应二值化操作,得到二值化文档图像;对所述二值化文档图像进行腐蚀膨胀操作,得到文档图像边线;根据所述文档图像边线对所述待检测文档图像进行分割操作,得到待检测文档子图像;所述对所述待检测文档图像进行文本框检测操作,得到边框文档图像的步骤,包括下述步骤:对所述待检测文档子图像进行所述文本框检测操作,得到所述边框文档图像。4.根据权利要求1所述的文档质量分析方法,其特征在于,所述CNN网络的backbone为ResNet18结构的二分类网络。5.根据权利要求1所述的文档质量分析方法,其特征在于,在所述将所述关键文档图像输入至训练好的CNN网络进行评分操作,得到关键文档评分的步骤之前,还包括下述步骤:读取数据库,在所述数据库中获取高质量正样本图像;对所述高质量正样本图像进行增广操作,得到低质量负样本图像;根据正负极负例算法对所述高质量正样本图像以及所述低质量负样本图像进行均衡分布操作,得到模型训练数据;根据所述模型训练数据对初始CNN网络进行模型训练操作,得到所述训练好的CNN网络。6.根据权利要求5所述的文档质量分析方法,其特征在于,所述根据正负极负例算法对所述高质量正样本图像以及所述低质量负样本图像进行均衡分布...

【专利技术属性】
技术研发人员:冷绵绵
申请(专利权)人:中国平安人寿保险股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1