一种带印章的表格协议书图像自动审核方法技术

技术编号:29157518 阅读:16 留言:0更新日期:2021-07-06 22:57
本发明专利技术公开了一种带印章的表格协议书图像自动审核方法,包括以下步骤:S1:判定原始图像是否含有印章且位置正确,如满足继续进行文字识别;S2:根据预先设置的文本检测算法SegLink确定文本框位置,然后使用预先设置的文字识别算法CRNN识别文本内容;S3:对能够检测到关键字的图像再根据文本框的角度进行微调,至表格横向框线处于水平位置,然后识别表格所有单元格内容,判断是否完备;S4:对于不满足以上任意一个条件的图像判为内容不完备,并不通过审核;S5:比对识别出的单元格内容和预设值是否相同,若相同,通过卷积神经网络识别,作极坐标变换,再比对其预设内容是否一致,若一致,则判断为通过审核,本发明专利技术解决现有的人工审核低效、费时的问题。

【技术实现步骤摘要】
一种带印章的表格协议书图像自动审核方法
本专利技术涉及文字识别和图像识别
,具体涉及一种带印章的表格协议书图像自动审核方法。
技术介绍
在企业征信信息授权的过程中,协议书是十分重要的且具备法律效力的契约性文书,在现有的征信体系下,在国有综合征信平台上进行企业注册需要按照模板填写并提交加盖公司印章的协议书,由相关部门负责人核实企业名称、企业法人、联系电话、公司印章等信息,同一省份不同地级市下属的企业数量庞大,因此协议书审核的工作量相应变大,继续使用人工方式会出现效率低下且审核时间过长等问题,结合文字识别和印章识别技术,直接根据图像完成协议书内容审核,极大程度缩短了时间开销以及减少了人力成本。
技术实现思路
为解决上述问题,本专利技术公开了一种带印章的表格协议书图像自动审核方法,所述方法包括以下步骤:S1:根据预设的印章颜色、形状和位置判定原始图像是否含有印章且位置正确,如满足条件则,继续对协议书进行文字识别;S2:根据预先设置的文本检测算法SegLink确定文本框位置,然后使用预先设置的文字识别算法CRNN识别文本内容,根据文本内容是否包含协议书中数据项的标题输出结果,对于未识别到关键字的结果,考虑到图像采集方式不同造成识别结果不理想,本方法采用多次重复识别确保识别效果最佳,根据文本内容是否包含定义的内容关键字,如果其不包含预定义的内容关键字,可能是因为图像位置不正,则对图像进行不超过三次的90度旋转,直到能够识别到关键字;S3:对能够检测到关键字的图像再根据文本框的角度进行微调,至表格横向框线处于水平位置,然后识别表格所有单元格内容,根据预设规则识别表格必填项的名称和内容,判断是否完备;S4:对于不满足以上任意一个条件的图像判为内容不完备,并不通过审核;S5:对内容完备的表格进行正确性检查,包括比对识别出的单元格内容和预设值是否相同,若相同,则通过yolov3卷积神经网络识别并截取印章,作极坐标变换,再通过预设的文字识别模型获取印章内容,比对其预设内容是否一致,若一致,则判断为通过审核。作为本专利技术的一种改进,所述S1中首先对整张图像进行颜色检测,筛选出不含印章的图像,对于满足情况的图像,对图像截半后进行二次颜色检测,判断印章是否在指定区域,然后根据红色或蓝色对应的印章类型最终确定进入下一步审核的图像。作为本专利技术的一种改进,所述S1中颜色检测将图由RGB模型改为HSV模型,其中H表示色调,S表示饱度,V表示亮度,相比于常用的RGB,HSV模型更符合人描述和解释颜色的方式,根据红色和蓝色的取值范围,确定图像中是否包含红色和蓝色的区域。作为本专利技术的一种改进,所述红色取值范围为H(156-180)、S(43-255)、V(46-255),蓝色的取值范围为H(0-10)、S(43-255)、V(46-255),像素点阈值为100。作为本专利技术的一种改进,所述S1中所述协议书印章颜色为红色或蓝色,包括圆形红色的公司印章以及方形蓝色的法人印章,另外根据协议书模板,重要信息包括基本信息以及印章集中在上半部分,下半部分为协议条款,不属于需要检测的范围,所以截取图像上半部分,根据预设的印章颜色、形状和位置判定原始图像是否含有印章且位置正确。作为本专利技术的一种改进,协议书图像采集方式为拍照或扫描录入,在进行最终文字识别之前根据检测算法SegLink输出的文本框角度,利用旋转算法进行对图像进行调整。作为本专利技术的一种改进,超过100个像素点则表示图像中包含有红色或蓝色的区域。本专利技术的有益效果是:本专利技术提供的带印章的表格协议书图像的自动审核方法,结合文字识别和印章识别技术,实现表格内容完备性检测(是否包含印章,表格内容是否填写完整),识别表格文字内容以及印章文字内容,然后根据规则完成协议书审核,在短时间内审核十万级的图像,解决现有的人工审核低效、费时的实际问题。附图说明图1为本专利技术所述的审核方法流程图。图2为运用yolov3卷积神经网络识别网络结构示意图。图3为运用文字识别网络结构示意图。图4为协议书模板图像示例图。图5为文字识别神经网络的输出数据的示意图。图6为印章识别神经网络的训练流程示意图。图7为印章识别神经网络的输出数据示意图。图8为极坐标变换后圆形印章示意图。具体实施方式下面结合附图1-8和具体实施方式,进一步阐明本专利技术,应理解下述具体实施方式仅用于说明本专利技术而不用于限制本专利技术的范围。实施例:如图1所示,所述方法包括以下步骤:S1:根据预设的印章颜色、形状和位置判定原始图像是否含有印章且位置正确,如满足条件则,继续对协议书进行文字识别;S2:根据预先设置的文本检测算法SegLink确定文本框位置,然后使用预先设置的文字识别算法CRNN识别文本内容,根据文本内容是否包含定义的内容关键字,如果其不包含预定义的内容关键字,则对图像进行不超过三次的90度旋转,直到能够识别到关键字;S3:对能够检测到关键字的图像再根据文本框的角度进行微调,至表格横向框线处于水平位置,然后识别表格所有单元格内容,根据预设规则识别表格必填项的名称和内容,判断是否完备;S4:对于不满足以上任意一个条件的图像判为内容不完备,并不通过审核;S5:对内容完备的表格进行正确性检查,包括比对识别出的单元格内容和预设值是否相同,若相同,则通过yolov3卷积神经网络识别并截取印章,作极坐标变换,再通过预设的文字识别模型获取印章内容,比对其预设内容是否一致,若一致,则判断为通过审核。如图4所示,示例性的示出了原始图像(协议书模板图像)的一个具体实例,其中包括的信息有:协议书标题、授权企业名称、统一社会信用代码、法定代表人姓名、法定代表人联系电话、企业印章签章处、日期等企业信息,根据现有的技术完全可以替代人工审核方式,应用本方法实现自动审核。其中,公司印章形状规定为红色或蓝色圆形,根据协议书模板,重要信息包括基本信息以及印章集中在上半部分,下半部分为协议条款,不属于需要检测的范围,所以截取图像上半部分,然后根据预设的印章颜色、形状和位置判定原始图像是否含有印章且位置正确。由于协议书图片为人工拍摄上传,必然存在文本框多方向性的问题,所以采用一种可以检测任意角度文本的检测算法SegLink,将原来的四个参数(x,y,w,h),参数x,y,w,h分别指中心点横坐标、中心点纵坐标、矩形宽度、矩形高度,指定一个目标的位置替换为五个参数(x,y,w,h,θ),这个θ表示文本框的旋转角度,具体网络结构如图2所示,以VGG16作为骨干网络,将其中的全连接层(fc6,fc7)替换成卷积层(conv6,conv7),后面再加上4个卷积层(conv8,conv9,conv10,conv11),目的是提取更深的特征,然后将conv4_3,conv7,conv8_2,conv9_2,conv10_2,conv11这6个层的featuremap(特征图)拿出来做卷积得本文档来自技高网...

【技术保护点】
1.一种带印章的表格协议书图像自动审核方法,其特征在于,所述方法包括以下步骤:/nS1:根据预设的印章颜色、形状和位置判定原始图像是否含有印章且位置正确,如满足条件则,继续对协议书进行文字识别;/nS2:根据预先设置的文本检测算法SegLink确定文本框位置,然后使用预先设置的文字识别算法CRNN识别文本内容,根据文本内容是否包含定义的内容关键字,如果其不包含预定义的内容关键字,则对图像进行不超过三次的90度旋转,直到能够识别到关键字;/nS3:对能够检测到关键字的图像再根据文本框的角度进行微调,至表格横向框线处于水平位置,然后识别表格所有单元格内容,根据预设规则识别表格必填项的名称和内容,判断是否完备;/nS4:对于不满足以上任意一个条件的图像判为内容不完备,并不通过审核;/nS5:对内容完备的表格进行正确性检查,包括比对识别出的单元格内容和预设值是否相同,若相同,则通过yolov3卷积神经网络识别并截取印章,作极坐标变换,再通过预设的文字识别模型获取印章内容,比对其预设内容是否一致,若一致,则判断为通过审核。/n

【技术特征摘要】
1.一种带印章的表格协议书图像自动审核方法,其特征在于,所述方法包括以下步骤:
S1:根据预设的印章颜色、形状和位置判定原始图像是否含有印章且位置正确,如满足条件则,继续对协议书进行文字识别;
S2:根据预先设置的文本检测算法SegLink确定文本框位置,然后使用预先设置的文字识别算法CRNN识别文本内容,根据文本内容是否包含定义的内容关键字,如果其不包含预定义的内容关键字,则对图像进行不超过三次的90度旋转,直到能够识别到关键字;
S3:对能够检测到关键字的图像再根据文本框的角度进行微调,至表格横向框线处于水平位置,然后识别表格所有单元格内容,根据预设规则识别表格必填项的名称和内容,判断是否完备;
S4:对于不满足以上任意一个条件的图像判为内容不完备,并不通过审核;
S5:对内容完备的表格进行正确性检查,包括比对识别出的单元格内容和预设值是否相同,若相同,则通过yolov3卷积神经网络识别并截取印章,作极坐标变换,再通过预设的文字识别模型获取印章内容,比对其预设内容是否一致,若一致,则判断为通过审核。


2.根据权利要求1所述的带有印章的表格协议书图像自动审核方法,其特征在于,所述S1中首先对整张图像进行颜色检测,筛选出不含印章的图像,对于颜色检测通过的图像,对图像截半后进行二次颜色检测,判断印...

【专利技术属性】
技术研发人员:曹菁李育韩宇张秋彤瞿兴晨熊一定陈康
申请(专利权)人:江苏省联合征信有限公司
类型:发明
国别省市:江苏;32

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1