System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 一种文档图像质量评分方法、装置、计算机设备及介质制造方法及图纸_技高网

一种文档图像质量评分方法、装置、计算机设备及介质制造方法及图纸

技术编号:40549509 阅读:5 留言:0更新日期:2024-03-05 19:08
本发明专利技术适用于保险技术领域,尤其涉及一种文档图像质量评分方法、装置、计算机设备及介质。本发明专利技术检测目标文档图像的文本行坐标,根据文本行坐标确定目标像素点并提取文本行图像,根据预设识别条件判断文本行图像的文本识别结果,确定目标文本行图像,将所有目标文本行图像的文本置信度的平均值确定为目标文档图像的质量得分,通过提取文本行图像降低了目标文档图像中非文字背景区域的干扰,通过文本识别结果筛选文本行图像,降低了目标文档图像中文字背景的影响,根据文本置信度计算质量得分,提高了质量得分的准确性,以根据质量得分约束客户上传图像的质量,避免无使用价值的图像占据系统资源,提升了金融保险领域中系统空间的有效利用率。

【技术实现步骤摘要】

本专利技术适用于保险,尤其涉及一种文档图像质量评分方法、装置、计算机设备及介质


技术介绍

1、大数据、人工智能等前沿技术的发展提升了各行各业的生产效率和商业发展,特别地,在金融保险领域中,保险公司需要在客户投保到理赔的各个环节中维护和存储大量的客户影像资料。现阶段可以通过文字识别和自然语言处理等人工智能技术,实现智能资料收集、智能资料录入、智能核保、智能理赔等一系列智能化解决方案。

2、但是,上述智能解决方案极大地依赖于用户上传的影像资料,影像资料的质量对后续的各个智能化动作具有决定性的影响。例如,在智能核保理赔项目中,从图像转成文本的模块需要处理体检报告、病历、出院证明、费用清单、医疗票据等各种类型的客户文档图像,这些图像来源于客户拍照上传、复印件拍照等途径,拍照时的失焦、抖动等操作会导致客户文档图像的质量很差,影响后续的智能化处理的准确性。

3、现有技术中的文档图像质量主要有两种评估方式:一种是主观图像质量评估方式,从人的主观感知评价文档图像的质量,但是这种方式需要耗费大量人力且时效慢;第二种是将文档图像输入至深度网络中进行图像特征和映射,输出文档图像的评分,但是文档图像中的背景区域会干扰对文档中有效文字的特征提取准确性,导致文档图像的评分准确性较低。

4、因此,在金融
中,如何降低文档图像中的背景干扰,提高文档图像质量评分的准确性成为亟待解决的问题。


技术实现思路

1、有鉴于此,本专利技术实施例提供了一种文档图像质量评分方法、装置、计算机设备及介质,以解决文档图像中背景区域的干扰导致文档图像的评分准确性较低的问题。

2、第一方面,本专利技术实施例提供一种文档图像质量评分方法,所述评分方法包括:

3、获取待进行评分的目标文档图像,对所述目标文档图像进行文本检测,得到所述目标文档图像的n个文本行坐标,n为大于0的整数;

4、针对任一文本行坐标,根据所述文本行坐标确定目标像素点,将所述目标像素点从所述目标文档图像中提取出来,得到文本行图像;

5、使用训练好的文本识别模型对所述文本行图像进行识别,得到所述文本行图像的文本识别结果和文本置信度;

6、根据预设识别条件对所述文本识别结果进行判断,当判定所述文本识别结果满足所述预设识别条件时,确定所述文本行图像为目标文本行图像;

7、遍历n个文本行坐标,得到m个目标文本行图像,0<m≤n,m为整数;

8、计算所述m个目标文本行图像的所述文本置信度的平均值,将所述平均值确定为所述目标文档图像的质量得分。

9、第二方面,本专利技术实施例提供一种文档图像质量评分装置,所述评分装置包括:

10、坐标确定模块,用于获取目标文档图像,对所述目标文档图像进行文本检测,得到所述目标文档图像的n个文本行坐标,n为大于0的整数;

11、图像提取模块,用于针对任一文本行坐标,根据所述文本行坐标确定目标像素点,将所述目标像素点从所述目标文档图像中提取出来,得到文本行图像;

12、图像识别模块,用于使用训练好的文本识别模型对所述文本行图像进行识别,得到所述文本行图像的文本识别结果和文本置信度;

13、识别结果判断模块,用于根据预设识别条件对所述文本识别结果进行判断,当判定所述文本识别结果满足所述预设识别条件时,确定所述文本行图像为目标文本行图像;

14、坐标遍历模块,用于遍历n个文本行坐标,得到m个目标文本行图像,0<m≤n,m为整数;

15、质量评分模块,用于计算所述m个目标文本行图像的所述文本置信度的平均值,将所述平均值确定为所述目标文档图像的质量得分。

16、第三方面,本专利技术实施例提供一种计算机设备,所述计算机设备包括处理器、存储器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现如第一方面所述的评分方法。

17、第四方面,本专利技术实施例提供一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序被处理器执行时实现如第一方面所述的评分方法。

18、本专利技术实施例与现有技术相比存在的有益效果是:通过获取待进行评分的目标文档图像,对目标文档图像进行文本检测,得到目标文档图像的n个文本行坐标,针对任一文本行坐标,根据文本行坐标确定目标像素点,将目标像素点从目标文档图像中提取出来,得到文本行图像,使用训练好的文本识别模型对文本行图像进行识别,得到文本行图像的文本识别结果和文本置信度,根据预设识别条件对文本识别结果进行判断,当判定文本识别结果满足预设识别条件时,确定文本行图像为目标文本行图像,遍历n个文本行坐标,得到m个目标文本行图像,计算m个目标文本行图像的文本置信度的平均值,将平均值确定为目标文档图像的质量得分,通过文本行坐标从目标文档图像中提取文本行图像,降低了目标文档图像中非文字背景区域的干扰;基于文本识别结果对文本行图像进行筛选,降低了目标文档图像中文字背景的影响,进而根据筛选出的目标文本行图像的文本置信度计算目标文档图像的质量得分,提高了质量得分的准确性,以约束客户上传高质量的图像,避免一堆无使用价值的图像占据系统资源,提升了金融保险领域中系统空间的有效利用率。

本文档来自技高网...

【技术保护点】

1.一种文档图像质量评分方法,其特征在于,所述评分方法包括:

2.根据权利要求1所述的评分方法,其特征在于,所述文本行坐标包括第一坐标和第二坐标;

3.根据权利要求2所述的评分方法,其特征在于,所述根据所述文本行坐标确定目标像素点,包括:

4.根据权利要求1所述的评分方法,其特征在于,所述文本识别结果包括文字数量,所述预设识别条件为文本识别结果中的文字数量大于预设数量阈值;

5.根据权利要求4所述的评分方法,其特征在于,所述计算所述M个目标文本行图像的所述文本置信度的平均值,将所述平均值确定为所述目标文档图像的质量得分,包括:

6.根据权利要求5所述的评分方法,其特征在于,所述将所述目标文本行图像对应的所述文字数量映射为数量权重包括:

7.根据权利要求1所述的评分方法,其特征在于,所述文本识别结果包括字体类型,所述预设识别条件为文本识别结果中的字体类型为预设字体类型;

8.一种文档图像质量评分装置,其特征在于,所述评分装置包括:

9.一种计算机设备,其特征在于,所述计算机设备包括处理器、存储器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现如权利要求1至7任一项所述的评分方法。

10.一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1至7任一项所述的评分方法。

...

【技术特征摘要】

1.一种文档图像质量评分方法,其特征在于,所述评分方法包括:

2.根据权利要求1所述的评分方法,其特征在于,所述文本行坐标包括第一坐标和第二坐标;

3.根据权利要求2所述的评分方法,其特征在于,所述根据所述文本行坐标确定目标像素点,包括:

4.根据权利要求1所述的评分方法,其特征在于,所述文本识别结果包括文字数量,所述预设识别条件为文本识别结果中的文字数量大于预设数量阈值;

5.根据权利要求4所述的评分方法,其特征在于,所述计算所述m个目标文本行图像的所述文本置信度的平均值,将所述平均值确定为所述目标文档图像的质量得分,包括:

6.根据权利要求5所述的评分方法,其特征在于,所述将所述...

【专利技术属性】
技术研发人员:何小臻
申请(专利权)人:中国平安人寿保险股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1