一种自动审核证明材料的方法和装置制造方法及图纸

技术编号:34857419 阅读:16 留言:0更新日期:2022-09-08 07:59
本发明专利技术提供了一种自动审核证明材料的方法和装置,能够自动分析判断用户上传的证明材料是否规范,极大提升整体审核效率,准确度高。本发明专利技术利用模板配置功能,配置不同证明材料的模板以及相似度阈值;根据相似度算法,根据用户上传的不同模板,计算用户上传证明材料与模板的相似度,并能预先过滤不符合要求的图片数据。本发明专利技术通过采集不同的模板训练数据利用工具标注不同模块的证明材料训练数据,然后训练改进adaboost算法,得出图片审核算法,并且利用人工复核模块得出的数据集再次作为训练样本,递归训练审核算法,提升算法精度。提升算法精度。提升算法精度。

【技术实现步骤摘要】
一种自动审核证明材料的方法和装置


[0001]本专利技术属于数据处理
,涉及计算机软件、数据库和数据建模,具体涉及一种自动审核证明材料的方法和装置。

技术介绍

[0002]随着软件技术的大规模应用,目前大规模数据的上传、录入、存储都离不开软件系统的支持。对于任何一个需要用户上传证明材料的系统来说,往往都需要通过后台人工审核用户上传的证明材料是否符合系统的要求,但随着系统业务量的逐渐增加,需要耗费大量的人力去审核证明材料,而且可能由于工作强度过大导致审核错误,这就会造成系统整体效率的日益低下,甚至可能导致社会关键环节的运转迟滞。
[0003]往往用户上传的证明材料都会包含政府部门加盖的印章信息比如购房证明、学历证书、学位证书、户口本、驾照、社保缴费信息、劳动合同、出生证明、体检报告等等证明材料,并且大多数系统要求用户将证明材料拍照后上传到系统,但目前尚缺乏准确有效的材料自动审核方案。基于证明材料的特有属性,本专利技术提出一种自动审核证明材料的方法和装置。

技术实现思路

[0004]为解决上述问题,本专利技术利用数据库和数据建模技术,构建了一种自动审核证明材料的方法和装置。
[0005]为达到上述目的,本专利技术的技术方案如下:
[0006]一种自动审核证明材料的方法,包括如下步骤:
[0007]步骤1:配置上传系统需要审核的证明材料模板,具体包括:
[0008]步骤1.1,收集当前业务系统需要审核的证明材料类别;
[0009]步骤1.2,针对步骤1.1收集的证明材料,挑选出符合条件的证明材料,并以此制作证明材料模板;
[0010]步骤1.3,标记步骤1.2制作的证明材料模板是否需要加盖印章以及证明材料类别,并对不同的类型设置不同的编码值;
[0011]步骤2:存储用户上传的证明材料和证明材料类型对应的码值;
[0012]步骤3:计算用户上传证明材料与步骤1配置的模板材料相似度;包括:
[0013]步骤3.1,通过步骤2上传的证明材料类型,根据用户上传的证明材料码值筛选出进行相似度计算的模板;
[0014]步骤3.2,通过相似度匹配算法计算出当前用户证明材料与模板的相似度,包括如下过程:首先裁剪用户上传材料中的图片,令其与模板中图片的图片大小一致;并将裁剪后的图片进行灰度化处理;计算图片的直方图数据,统计相同像素点的概率分布,根据相关性计算公式,计算两个图片直方图的相似度;
[0015]步骤4:过滤步骤3中相似度低的证明材料,判断步骤3计算得到的相似度是否超过
设定的阈值,没有则直接判定当前证明材料不符合要求,直接返回结果信息;如果等于或超过设定的阈值则进入步骤5;
[0016]步骤5:自动审核步骤4过滤的证明材料;通过预先训练的改进adaboost算法识别步骤4中超过阈值的证明材料并提取材料中的印章信息,包括:
[0017]步骤5.1,利用互联网以及系统本身采集的证明材料,人工标注改进adaboost算法需要的训练数据;
[0018]步骤5.2,利用人工标注的训练数据集,进行改进adaboost训练,并得出训练后的分类器作为图片审核算法;
[0019]步骤5.3,针对步骤4的证明材料,采用图片审核算法给出具体的识别结果,即当前证明材料是否包含印章信息,包含直接进入步骤6复核,不包含则直接则返回结果信息;
[0020]步骤6:快速核验步骤5审核算法审核的包含印章的证明材料图是否有错误,工复核通过的,则直接通过图片审核结果模块返回结果信息给具体的业务系统;当复核不通过的,将结果通知具体的业务系统;
[0021]Step7:通过复核层中的图片审核结果模块将结果回传至业务系统,从而完成证明材料的审核,提升审核效率。
[0022]进一步的,所述步骤2中通过http api方式存储用户上传的证明材料。
[0023]进一步的,所述步骤5中改进adaboost算法的具体过程如下:
[0024]1、给定训练样本集合S={(x1,y1),...,(x
m
,y
m
)},弱分离器空间H,其中x
i
∈X,为样本向量,y=
±
1,为类别标签,m为样本总数;初始化样本概率分布,D1(i)=1/m,i=1,...,m;
[0025]2、循环迭代T次:
[0026](1)弱分类器空间H中的h:
[0027]a.把样本空间X划分为n等分,即X1,X2,...,X
n
[0028]b.训练样本的概率分布为D
t
,计算
[0029][0030]c.弱分类器在上述划分时的输出
[0031][0032]其中为一动态的正常数;
[0033]d.计算归一化因子
[0034][0035](2)在弱分类器空间中选择一个h
t
,使得Z最小化
[0036][0037][0038](3)更新每个训练样本的权重使其满足概率分布的归一性
[0039][0040]其中Z
t
为归一化因子,使得
[0041]3、最终的强分类器H为
[0042][0043]其中b为给定阈值,默认值为0。
[0044]进一步的,所述步骤6中将审核不通过的图片数据反馈至训练数据集作为下次模型训练的训练样本。
[0045]本专利技术还提供了一种自动审核证明材料的装置,用于实现上述自动审核证明材料的方法,包括:配置层、接入层、过滤层、审核层、复核层;
[0046]配置层包括模板上传模块、模板配置模块,模板上传模块用于上传模板,模板配置模块用于根据不同的模板配置不同的编码值用于区分模板类型,并且配置相似度阈值;
[0047]接入层包括图片接入接口模块,用于通过http api的方式存储用户上传的证明材料,并且告知当前证明材料类型;
[0048]过滤层包括图片相似度计算模板、图片过滤模块,图片相似度计算模板用于计算用户上传证明材料与配置层配置的模板材料相似度;过滤模块用于过滤相似度低的证明材料,将相似度较高的证明材料送入审核层;
[0049]审核层包括图片审核算法模块,用于通过预先训练的改进adaboost算法识别过滤模块过滤出的超过阈值的证明材料并提取材料中的印章信息;
[0050]复核层包括图片人工复核模块、图片审核结果模块;人工复核模块用于复核审核层审核的包含印章的证明材料图是否有错误,并由图片审核结果模块输出结果;审核不通过的图片数据还反馈至审核层作为下次模型训练的训练样本。
[0051]本专利技术的有益效果为:
[0052]1.本专利技术能够自动分析判断用户上传的证明材料是否规范,极大提升整体审核效率,准确度高。
[0053]2.本专利技术利用模板配置功能,配置不同证明材料的模板以及相似度阈值;根据相似度算法,根据用户上传的不同模板,计算用户上传证明材料与模板的相似度,本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种自动审核证明材料的方法,其特征在于,包括如下步骤:步骤1:配置上传系统需要审核的证明材料模板,具体包括:步骤1.1,收集当前业务系统需要审核的证明材料类别;步骤1.2,针对步骤1.1收集的证明材料,挑选出符合条件的证明材料,并以此制作证明材料模板;步骤1.3,标记步骤1.2制作的证明材料模板是否需要加盖印章以及证明材料类别,并对不同的类型设置不同的编码值;步骤2:存储用户上传的证明材料和证明材料类型对应的码值;步骤3:计算用户上传证明材料与步骤1配置的模板材料相似度;包括:步骤3.1,通过步骤2上传的证明材料类型,根据用户上传的证明材料码值筛选出进行相似度计算的模板;步骤3.2,通过相似度匹配算法计算出当前用户证明材料与模板的相似度,包括如下过程:首先裁剪用户上传材料中的图片,令其与模板中图片的图片大小一致;并将裁剪后的图片进行灰度化处理;计算图片的直方图数据,统计相同像素点的概率分布,根据相关性计算公式,计算两个图片直方图的相似度;步骤4:过滤步骤3中相似度低的证明材料,判断步骤3计算得到的相似度是否超过设定的阈值,没有则直接判定当前证明材料不符合要求,直接返回结果信息;如果等于或超过设定的阈值则进入步骤5;步骤5:自动审核步骤4过滤的证明材料;通过预先训练的改进adaboost算法识别步骤4中超过阈值的证明材料并提取材料中的印章信息,包括:步骤5.1,利用互联网以及系统本身采集的证明材料,人工标注改进adaboost算法需要的训练数据;步骤5.2,利用人工标注的训练数据集,进行改进adaboost训练,并得出训练后的分类器作为图片审核算法;步骤5.3,针对步骤4的证明材料,采用图片审核算法给出具体的识别结果,即当前证明材料是否包含印章信息,包含直接进入步骤6复核,不包含则直接则返回结果信息;步骤6:快速核验步骤5审核算法审核的包含印章的证明材料图是否有错误,工复核通过的,则直接通过图片审核结果模块返回结果信息给具体的业务系统;当复核不通过的,将结果通知具体的业务系统;Step7:通过复核层中的图片审核结果模块将结果回传至业务系统,从而完成证明材料的审核,提升审核效率。2.根据权利要求1所述的自动审核证明材料的方法,其特征在于,所述步骤2中通过http api方式存储用户上传的证明材料。3.根据权利要求1所述的自动审核证明材料的方法,其特征在于,所述步骤5中改进adaboo...

【专利技术属性】
技术研发人员:陈健周云松叶俊齐宁王培才韩宇
申请(专利权)人:江苏省联合征信有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1