一种基于图像的营业执照信息提取方法、计算机设备和可读存储介质技术

技术编号:35683399 阅读:47 留言:0更新日期:2022-11-23 14:27
一种基于图像的营业执照信息提取方法、计算机设备和可读存储介质,属于营业执照信息提取技术领域,解决对营业执照信息进行提取的准确性不高和适用性低的问题。本发明专利技术的方法包括:获取营业执照图像,去掉所述营业执照图像中的红色公章;建立汉字位置识别模型,将所述去掉红色公章的营业执照图像输入所述汉字位置识别模型,获取汉字位置信息;根据所述汉字位置信息,获取相应的文字信息;建立文本分类模型,将所述文字信息输入所述文本分类模型,获取所述文字信息的属性,完成营业执照信息的初步提取;对所述初步提取的营业执照信息进行后处理,完成营业执照信息的提取。本发明专利技术适用于对营业执照的信息提取。于对营业执照的信息提取。于对营业执照的信息提取。

【技术实现步骤摘要】
一种基于图像的营业执照信息提取方法、计算机设备和可读存储介质


[0001]本申请涉及营业执照信息提取
,尤其涉及基于图像的营业执照信息提取。

技术介绍

[0002]营业执照信息填写是一个较为常见的业务场景,需要对于营业执照信息进行识别和填写。
[0003]由于文字输入量工作较大,通过拍照识别自动填写逐渐成为一种有效的辅助手段并在未来有望替代人工填写,从而不可避免的会出现信息提取的准确性不高的问题,营业执照版式的多样性为识别技术带来了巨大挑战,具体如下:
[0004]首先,不同类型的营业执照,如有限公司与合伙企业存在版式差异;第二,不同时期颁发的营业执照存在版本差异,如十年前的和当年的;第三,不同地区的营业执照存在版式差异,例如内蒙古自治区的营业执照同时印有汉字和蒙文;第四,存在营业执照套打导致标题(如成立日期)与内容(如2022年1月2日)严重串行或倾斜;第五,由于管理软件或人为疏忽,导致颁发的营业执照存在错版(如类型和法定代表人实际内容发生了互换)。
[0005]已有的营业执照识别方法主要基于模式识别和文字识别。本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种基于图像的营业执照信息提取方法,其特征在于,所述方法包括:步骤1、获取营业执照图像,去掉所述营业执照图像中的红色公章;步骤2、建立汉字位置识别模型,将所述去掉红色公章的营业执照图像输入所述汉字位置识别模型,获取汉字位置信息;步骤3、根据所述汉字位置信息,获取相应的文字信息;步骤4、建立文本分类模型,将所述文字信息输入所述文本分类模型,获取所述文字信息的属性,完成营业执照信息的初步提取;步骤5、对所述初步提取的营业执照信息进行后处理,完成营业执照信息的提取。2.根据权利要求1所述的一种基于图像的营业执照信息提取方法,其特征在于,步骤1,所述去掉所述营业执照图像中的红色公章,具体包括:步骤1.1、根据所述营业执照图像,获取红色通道、蓝色通道与绿色通道的数值;步骤1.2、设置阈值,获取红色通道与蓝色通道的数值之差大于所述阈值的点阵图像像素集合为第一像素集合,获取红色通道与绿色通道的数值之差大于所述阈值的点阵图像像素集合为第二像素集合;步骤1.3、根据所述第一像素集合和所述第二像素集合的交集,获取交集像素集合;步骤1.4、获取红色通道的数值大于全部通道数值平均值的一半的第三像素集合;步骤1.5、根据所述交集像素集合和所述第三像素集合,获取红色像素集合;步骤1.6、分别获取红色通道的平均值、蓝色通道的平均值与绿色通道的平均值;步骤1.7、将所述红色通道的平均值、蓝色通道的平均值与绿色通道的平均值所代表的颜色,加入均值为0,方差为1的高斯白噪声,获取第四像素集合;步骤1.8、用所述第四像素集合替代所述红色像素集合。3.根据权利要求1所述的一种基于图像的营业执照信息提取方法,其特征在于,步骤2中,所述建立汉字位置识别模型,具体包括:步骤2.1、获取所述去掉红色公章的营业执照图像,利用标注工具以矩形对汉字进行标注;步骤2.2、利用YOLOv5算法,通过标注数据进行迁移学习,建立汉字位置识别模型。4.根据权利要求1所述的一种基于图像的营业执照信息提取方法,其特征在于,步骤2中,所述汉字位置信息包括坐标形式的汉字位置信息。5.根据权利要求1所述的一种基于图像的营业执照信息提取方法,其特征在于,步骤3,具体包括:根据所述汉字位置信息,使用...

【专利技术属性】
技术研发人员:蔡巍陈立伟范立财刘凌灼
申请(专利权)人:北大荒信息有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1