一种基于图像的营业执照信息提取方法、计算机设备和可读存储介质技术

技术编号:35683399 阅读:23 留言:0更新日期:2022-11-23 14:27
一种基于图像的营业执照信息提取方法、计算机设备和可读存储介质,属于营业执照信息提取技术领域,解决对营业执照信息进行提取的准确性不高和适用性低的问题。本发明专利技术的方法包括:获取营业执照图像,去掉所述营业执照图像中的红色公章;建立汉字位置识别模型,将所述去掉红色公章的营业执照图像输入所述汉字位置识别模型,获取汉字位置信息;根据所述汉字位置信息,获取相应的文字信息;建立文本分类模型,将所述文字信息输入所述文本分类模型,获取所述文字信息的属性,完成营业执照信息的初步提取;对所述初步提取的营业执照信息进行后处理,完成营业执照信息的提取。本发明专利技术适用于对营业执照的信息提取。于对营业执照的信息提取。于对营业执照的信息提取。

【技术实现步骤摘要】
一种基于图像的营业执照信息提取方法、计算机设备和可读存储介质


[0001]本申请涉及营业执照信息提取
,尤其涉及基于图像的营业执照信息提取。

技术介绍

[0002]营业执照信息填写是一个较为常见的业务场景,需要对于营业执照信息进行识别和填写。
[0003]由于文字输入量工作较大,通过拍照识别自动填写逐渐成为一种有效的辅助手段并在未来有望替代人工填写,从而不可避免的会出现信息提取的准确性不高的问题,营业执照版式的多样性为识别技术带来了巨大挑战,具体如下:
[0004]首先,不同类型的营业执照,如有限公司与合伙企业存在版式差异;第二,不同时期颁发的营业执照存在版本差异,如十年前的和当年的;第三,不同地区的营业执照存在版式差异,例如内蒙古自治区的营业执照同时印有汉字和蒙文;第四,存在营业执照套打导致标题(如成立日期)与内容(如2022年1月2日)严重串行或倾斜;第五,由于管理软件或人为疏忽,导致颁发的营业执照存在错版(如类型和法定代表人实际内容发生了互换)。
[0005]已有的营业执照识别方法主要基于模式识别和文字识别。程序流程是输入一张营业执照图像后,通过定制开发的模式识别算法,识别出该营业执照属于哪个具体版式(不同单位类型、不同年份、不同地区的版式均可能存在不相同)。识别图像所属版式后,根据该版式各项要素的相对位置,通过文字识别算法按位置进行信息提取。如果模式识别失败,则识别流程中止。
[0006]该方法存以下主要缺点:
[0007]由于营业执照大多长期有效,现存有效营业执照的版式众多,而对于模式识别算法,识别目标越多,算法越复杂,准确率也越差,实际应用中必须做出适当的取舍,比如只支持主流的版式,忽略对小众版式的识别;
[0008]由于使用相对位置获取信息,对于串行、倾斜、错版没有识别能力。

技术实现思路

[0009]本专利技术目的是为了解决现有对营业执照信息进行提取的准确性不高和适用性低的问题,提供了一种基于图像的营业执照信息提取方法、计算机设备和可读存储介质。
[0010]本专利技术是通过以下技术方案实现的,本专利技术一方面,提供一种基于图像的营业执照信息提取方法,所述方法包括:
[0011]步骤1、获取营业执照图像,去掉所述营业执照图像中的红色公章;
[0012]步骤2、建立汉字位置识别模型,将所述去掉红色公章的营业执照图像输入所述汉字位置识别模型,获取汉字位置信息;
[0013]步骤3、根据所述汉字位置信息,获取相应的文字信息;
[0014]步骤4、建立文本分类模型,将所述文字信息输入所述文本分类模型,获取所述文字信息的属性,完成营业执照信息的初步提取;
[0015]步骤5、对所述初步提取的营业执照信息进行后处理,完成营业执照信息的提取。
[0016]进一步地,步骤1,所述去掉所述营业执照图像中的红色公章,具体包括:
[0017]步骤1.1、根据所述营业执照图像,获取红色通道、蓝色通道与绿色通道的数值;
[0018]步骤1.2、设置阈值,获取红色通道与蓝色通道的数值之差大于所述阈值的点阵图像像素集合为第一像素集合,获取红色通道与绿色通道的数值之差大于所述阈值的点阵图像像素集合为第二像素集合;
[0019]步骤1.3、根据所述第一像素集合和所述第二像素集合的交集,获取交集像素集合;
[0020]步骤1.4、获取红色通道的数值大于全部通道数值平均值的一半的第三像素集合;
[0021]步骤1.5、根据所述交集像素集合和所述第三像素集合,获取红色像素集合;
[0022]步骤1.6、分别获取红色通道的平均值、蓝色通道的平均值与绿色通道的平均值;
[0023]步骤1.7、将所述红色通道的平均值、蓝色通道的平均值与绿色通道的平均值所代表的颜色,加入均值为0,方差为1的高斯白噪声,获取第四像素集合;
[0024]步骤1.8、用所述第四像素集合替代所述红色像素集合。
[0025]进一步地,步骤2中,所述建立汉字位置识别模型,具体包括:
[0026]步骤2.1、获取所述去掉红色公章的营业执照图像,利用标注工具以矩形对汉字进行标注;
[0027]步骤2.2、利用YOLOv5算法,通过标注数据进行迁移学习,建立汉字位置识别模型。
[0028]进一步地,步骤2中,所述汉字位置信息包括坐标形式的汉字位置信息。
[0029]进一步地,步骤3,具体包括:
[0030]根据所述汉字位置信息,使用开源项目Tesseract OCR,获取相应的文字信息。
[0031]进一步地,步骤4中,所述建立文本分类模型,具体包括:
[0032]步骤4.1、建立数据集,具体包括:设置所述数据集中文字信息相应的属性,采集所述属性的样本数据;
[0033]步骤4.2、对所述数据集进行预处理;
[0034]步骤4.3、对所述数据集中的文字信息进行one

hot编码,获取编码后的数据集;
[0035]步骤4.4、利用所述编码后的数据集,通过人工神经网络训练分类器,输入为所述编码后的样本数据,标签为该编码后的样本数据对应的属性;
[0036]步骤4.5、将所述训练后的分类器作为所述文本分类模型。
[0037]进一步地,所述预处理包括:
[0038]将同一类型的属性及样本数据进行合并;
[0039]对样本数据进行清洗,删除垃圾数据,具体包括:统一社会信用代码使用正则表达式;单位名称过滤掉头尾含有数字或字母以及长度小于6的垃圾数据;地址过滤掉长度小于7以及开头含有数字的垃圾数据;法人名称过滤掉含有数字或字母的垃圾数据;
[0040]删除数据集中重复的样本数据;
[0041]对数据集中的数据进行上采样;
[0042]对样本数据引入噪声信息,并将所述引入噪声信息的样本数据补充到数据集中。
[0043]进一步地,步骤5中,所述后处理,具体包括:
[0044]对于同一个属性识别出超过一个信息的,根据文本分类模型的分类得分,取分值最高的信息为该属性的信息;
[0045]对于包含噪声信息的文字信息,删除所述噪声信息,并将所述删除噪声信息的文字信息重新输入文本分类模型,根据文本分类模型的分类得分,取分值最高的信息为该属性的信息;
[0046]对于存在多个文字信息的属性,将所述多个文字信息按从上到下,从左到右出现的先后顺序输出。
[0047]第二方面,本专利技术提供一种计算机设备,包括存储器和处理器,所述存储器中存储有计算机程序,当所述处理器运行所述存储器存储的计算机程序时执行如上文所述的一种基于图像的营业执照信息提取方法。
[0048]第三方面,本专利技术提供一种计算机可读存储介质,所述计算机可读存储介质中存储有多条计算机指令,所述多条计算机指令用于使计算机执行如上文所述的一种基于图像的营业执照信息提取方法。
[0049]本专利技术的有益效果本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于图像的营业执照信息提取方法,其特征在于,所述方法包括:步骤1、获取营业执照图像,去掉所述营业执照图像中的红色公章;步骤2、建立汉字位置识别模型,将所述去掉红色公章的营业执照图像输入所述汉字位置识别模型,获取汉字位置信息;步骤3、根据所述汉字位置信息,获取相应的文字信息;步骤4、建立文本分类模型,将所述文字信息输入所述文本分类模型,获取所述文字信息的属性,完成营业执照信息的初步提取;步骤5、对所述初步提取的营业执照信息进行后处理,完成营业执照信息的提取。2.根据权利要求1所述的一种基于图像的营业执照信息提取方法,其特征在于,步骤1,所述去掉所述营业执照图像中的红色公章,具体包括:步骤1.1、根据所述营业执照图像,获取红色通道、蓝色通道与绿色通道的数值;步骤1.2、设置阈值,获取红色通道与蓝色通道的数值之差大于所述阈值的点阵图像像素集合为第一像素集合,获取红色通道与绿色通道的数值之差大于所述阈值的点阵图像像素集合为第二像素集合;步骤1.3、根据所述第一像素集合和所述第二像素集合的交集,获取交集像素集合;步骤1.4、获取红色通道的数值大于全部通道数值平均值的一半的第三像素集合;步骤1.5、根据所述交集像素集合和所述第三像素集合,获取红色像素集合;步骤1.6、分别获取红色通道的平均值、蓝色通道的平均值与绿色通道的平均值;步骤1.7、将所述红色通道的平均值、蓝色通道的平均值与绿色通道的平均值所代表的颜色,加入均值为0,方差为1的高斯白噪声,获取第四像素集合;步骤1.8、用所述第四像素集合替代所述红色像素集合。3.根据权利要求1所述的一种基于图像的营业执照信息提取方法,其特征在于,步骤2中,所述建立汉字位置识别模型,具体包括:步骤2.1、获取所述去掉红色公章的营业执照图像,利用标注工具以矩形对汉字进行标注;步骤2.2、利用YOLOv5算法,通过标注数据进行迁移学习,建立汉字位置识别模型。4.根据权利要求1所述的一种基于图像的营业执照信息提取方法,其特征在于,步骤2中,所述汉字位置信息包括坐标形式的汉字位置信息。5.根据权利要求1所述的一种基于图像的营业执照信息提取方法,其特征在于,步骤3,具体包括:根据所述汉字位置信息,使用...

【专利技术属性】
技术研发人员:蔡巍陈立伟范立财刘凌灼
申请(专利权)人:北大荒信息有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1