一种小作坊证照资质自动审核方法技术

技术编号:38756387 阅读:11 留言:0更新日期:2023-09-10 09:41
本申请提供了一种小作坊证照资质自动审核方法,所述方法包括:步骤S1、基于由卷积神经网络模型经训练后获得的分类检测器筛选小作坊图片;步骤S2、进行数据预处理,包括图像二值化处理、图像倾斜检测校正以及图像去噪声处理;步骤S3、进行文字识别,获得识别后的文字及其坐标;步骤S4、由对审批公文和相应的证照建立的词频词典及由常见形近字构建的错别字词典构建纠错模块,通过所述纠错模块进行文字纠错;步骤S5、对纠错后的文字进行自动审核,包括提取出其中的关键信息,用于与用户输入的信息进行比对,计算两个信息的相似度,当所有相似度的乘积大于预设值时通过自动审核。本申请实现了小作坊证照资质的自动审核,提高审核效率及准确性。及准确性。及准确性。

【技术实现步骤摘要】
一种小作坊证照资质自动审核方法


[0001]本申请属于数据处理
,特别涉及一种小作坊证照资质自动审核方法。

技术介绍

[0002]生鲜电商企业为了审核用户的资质,需要商户注册时需要用户上传自己的证照作为资质证明。其中涉及到一些小作坊证照的审核。小作坊证照由于发证区域和食品品种范围等的不同,使得每张证照都有较大的不同。受限于用户的拍照上传,用户在拍摄证照时会因为当时的光照、证照的摆放位置和手机自身的拍照质量等因素,导致很多低质量的数据。因此,这些证照的真实需要审核人员在线审核,随着业务量增加,就会需要更多的人力资源来审核证照。
[0003]现有的审核方式主要为人工审核和OCR识别审核,人工审核的缺点是检测速度慢,而OCR识别审核是通过OCR技术识别出图像区域和文字,缺点是识别精度受图像质量影响大,审核准确率低。

技术实现思路

[0004]为了解决上述技术问题至少之一,本申请提供了一种小作坊证照资质自动审核方法,主要包括:
[0005]步骤S1、基于由卷积神经网络模型经训练后获得的分类检测器筛选小作坊图片;
[0006]步骤S2、对筛选的小作坊图片进行数据预处理,所述数据预处理包括图像二值化处理、图像倾斜检测校正以及图像去噪声处理;
[0007]步骤S3、对预处理后的图片进行文字识别,获得识别后的文字及其坐标;
[0008]步骤S4、由对审批公文和相应的证照建立的词频词典及由常见形近字构建的错别字词典构建纠错模块,通过所述纠错模块进行文字纠错;
[0009]步骤S5、对纠错后的文字进行自动审核,包括提取出其中的关键信息,用于与用户输入的信息进行比对,计算两个信息的相似度,当所有相似度的乘积大于预设值时通过自动审核。
[0010]优选的是,步骤S1中,对卷积神经网络模型进行训练包括:
[0011]收集小作坊图片及非小作坊图片作为原始数据进行特征标注;
[0012]将进行特征标注的原始数据划分为训练集、测试集以及验证集;
[0013]对所述照片进行灰度化处理;
[0014]利用训练集的数据对初始构建的神经网络模型进行训练,并通过所述测试集数据进行测试,以及通过所述验证集来调整模型的结构和超参数,直至模型收敛,获得所述分类检测器。
[0015]优选的是,步骤S2中,所述图像二值化处理包括:
[0016]对图像进行拆分,形成多个256*256的子图像;
[0017]将拆分后的子图像组成列表,对数据列表中的子图像均进行数据放缩处理;
[0018]使用U

Net卷积神经网络对放缩后的子图像进行数据处理,包括通过U

Net卷积神经网络的编码部分对图像各个层次的特征进行提取,以及通过U

Net卷积神经网络的解码部分对各个层次的图像特征进行整合处理,输出256*256向量;
[0019]经过阈值判断组装成新的图像,对照原始图像的尺寸,进行裁剪。
[0020]优选的是,步骤S2中,所述图像倾斜检测校正包括:
[0021]随机截取3个文字区域;
[0022]对截取的文字区域进行合法性判断,排除由空白区域或者全黑的背景区域形成的无效区域;
[0023]对合法的文字区域依次进行倾斜检测,使用霍夫变换得到文字图像的倾斜角度;
[0024]对得到的文字区域的倾斜角度计算平均值,按照平均值对应的倾斜角度对图像进行倾斜校正。
[0025]优选的是,所述随机截取的每个文字区域的尺寸设置为图像宽度的八分之一及图像高度的十分之一。
[0026]优选的是,所述对截取的文字区域进行合法性判断包括:
[0027]使用水平投影得到这些截取的文字区域的投影区域;
[0028]对所述投影区域计算其水平直方图,计算出直方图中波峰与波峰之间的宽度均值和波峰个数,并与阈值进行比较,如果在阈值范围内,则将对应区间定义为文字区域区间,如果所述投影区域中没有文字区域区间或者文字区域区间大于图像高度的三分之二,则判定其为无效区域。
[0029]优选的是,步骤S3中,所述文字识别包括:通过训练后的DBNet算法检测出图像里文字所在的区域;以及通过CRNN算法来进行文字识别。
[0030]优选的是,步骤S4中,进行文字纠错包括:
[0031]对于出错词语,根据词频词典及错别字词典获得多个替换词语;
[0032]分别计算替换词语在词频词典中的第一先验概率以及替换词语中单个字在错别字词典中的第二先验概率;
[0033]计算由所述第一先验概率及所述第二先验概率加权计算的词语识别评分;
[0034]将所述词语识别评分最大值对应的替换词语替换出错词语。
[0035]优选的是,步骤S4进一步包括触发人工后续校验,记录相应的图片和文字,用于后续人工更新形近字词典。
[0036]优选的是,步骤S5中,所述计算两个信息的相似度包括通过以下公式计算:
[0037]Similar=e
(Word_length

d)/z
/e
word_length/z
[0038]其中,d为对纠错后的文字所提取的关键信息与用户输入的信息之间的编辑距离,z为放缩值,word_length是纠错后的文字长度。
[0039]本申请通过总结小作坊证照的特征,根据图像的特征进行分类,建立专有的数据集。并使用图像二值化以及去除图像噪声等方式对数据进行预处理,之后使用卷积神经网络对图像文字进行检测和识别。在对识别后的文字进行纠错处理后,比对识别后的文字和用户信息进行阈值判断,超过阈值则自动审核成功,反之需要人工审核。
附图说明
[0040]图1是本申请小作坊证照资质自动审核方法的一优选实施例的流程图。
具体实施方式
[0041]为使本申请实施的目的、技术方案和优点更加清楚,下面将结合本申请实施方式中的附图,对本申请实施方式中的技术方案进行更加详细的描述。在附图中,自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。所描述的实施方式是本申请一部分实施方式,而不是全部的实施方式。下面通过参考附图描述的实施方式是示例性的,旨在用于解释本申请,而不能理解为对本申请的限制。基于本申请中的实施方式,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施方式,都属于本申请保护的范围。下面结合附图对本申请的实施方式进行详细说明。
[0042]本申请提供了一种小作坊证照资质自动审核方法,如图1所示,主要包括:步骤S1、基于由卷积神经网络模型经训练后获得的分类检测器筛选小作坊图片;步骤S2、对筛选的小作坊图片进行数据预处理,所述数据预处理包括图像二值化处理、图像倾斜检测校正以及图像去噪声处理;步骤S3、对预处理后的图片进行文字识别,获得识别后的文字及其坐标;步骤S4、由对审批公文和相应的证照建立的词频词典及由常见形近本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种小作坊证照资质自动审核方法,其特征在于,包括:步骤S1、基于由卷积神经网络模型经训练后获得的分类检测器筛选小作坊图片;步骤S2、对筛选的小作坊图片进行数据预处理,所述数据预处理包括图像二值化处理、图像倾斜检测校正以及图像去噪声处理;步骤S3、对预处理后的图片进行文字识别,获得识别后的文字及其坐标;步骤S4、由对审批公文和相应的证照建立的词频词典及由常见形近字构建的错别字词典构建纠错模块,通过所述纠错模块进行文字纠错;步骤S5、对纠错后的文字进行自动审核,包括提取出其中的关键信息,用于与用户输入的信息进行比对,计算两个信息的相似度,当所有相似度的乘积大于预设值时通过自动审核。2.如权利要求1所述的小作坊证照资质自动审核方法,其特征在于,步骤S1中,对卷积神经网络模型进行训练包括:收集小作坊图片及非小作坊图片作为原始数据进行特征标注;将进行特征标注的原始数据划分为训练集、测试集以及验证集;对所述照片进行灰度化处理;利用训练集的数据对初始构建的神经网络模型进行训练,并通过所述测试集数据进行测试,以及通过所述验证集来调整模型的结构和超参数,直至模型收敛,获得所述分类检测器。3.如权利要求1所述的小作坊证照资质自动审核方法,其特征在于,步骤S2中,所述图像二值化处理包括:对图像进行拆分,形成多个256*256的子图像;将拆分后的子图像组成列表,对数据列表中的子图像均进行数据放缩处理;使用U

Net卷积神经网络对放缩后的子图像进行数据处理,包括通过U

Net卷积神经网络的编码部分对图像各个层次的特征进行提取,以及通过U

Net卷积神经网络的解码部分对各个层次的图像特征进行整合处理,输出256*256向量;经过阈值判断组装成新的图像,对照原始图像的尺寸,进行裁剪。4.如权利要求1所述的小作坊证照资质自动审核方法,其特征在于,步骤S2中,所述图像倾斜检测校正包括:随机截取3个文字区域;对截取的文字区域进行合法性判断,排除由空白区域或者全黑的背景区域形成的无效区域;对合法的文字区域依次进...

【专利技术属性】
技术研发人员:余英伟王则杰
申请(专利权)人:北京云杉信息技术有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1