当前位置: 首页 > 专利查询>东南大学专利>正文

一种提取含有二维码的营业执照信息的方法及装置制造方法及图纸

技术编号:21225111 阅读:27 留言:0更新日期:2019-05-29 05:51
本发明专利技术公开了一种提取含有二维码的营业执照信息的方法及装置。其中,方法包括:对获取的含有二维码的营业执照图像进行预处理,并基于深度学习的目标检测网络训练预处理后的图像集,获得二维码定位模型;对待检测含二维码的营业执照图像进行二维码定位;获得并扫描二维码图像,提取所述二维码包含的企业信用信息网站统一资源定位符;根据所述统一资源定位符对应的网页页面信息,抓取所述营业执照的基本信息。装置包括样本处理模块、二维码定位模块、二维码识别模块及网页信息抓取模块。本发明专利技术提高了二维码定位的准确度,克服了图片背景复杂导致二维码定位不准确的问题,实现100%准确率提取营业执照信息,提高了办公效率。

A Method and Device for Extracting Business License Information Containing Two-Dimensional Code

The invention discloses a method and a device for extracting business license information containing two-dimensional codes. Among them, the methods include: preprocessing the acquired business license image with two-dimensional codes, training the pre-processed image set based on the in-depth learning target detection network, and obtaining the two-dimensional code positioning model; positioning the two-dimensional code for the detected business license image with two-dimensional codes; obtaining and scanning the two-dimensional code image, and extracting the enterprise credit information network contained in the two-dimensional code. Station Unified Resource Locator; according to the web page information corresponding to the Unified Resource Locator, grasp the basic information of the business license. The device includes sample processing module, two-dimensional code positioning module, two-dimensional code recognition module and web page information capture module. The invention improves the accuracy of two-dimensional code positioning, overcomes the problem of inaccurate two-dimensional code positioning caused by complex picture background, achieves 100% accuracy to extract business license information, and improves office efficiency.

【技术实现步骤摘要】
一种提取含有二维码的营业执照信息的方法及装置
本专利技术涉及一种二维码信息提取方法及装置,属于深度学习、计算机视觉领域,尤其涉及一种提取含有二维码的营业执照信息的方法及装置。
技术介绍
营业执照是工商行政管理机关发给工商企业、个体经营者的准许从事某项生产经营活动的凭证。为防止不法商铺伪造营业执照或在营业执照有效期到期之后不及时申请新的营业执照,国家公务人员需要定期检查备案工商企业、个体经营者的营业执照信息,包括统一社会信用代码,注册号,名称,类型,经营者,组成形式,注册日期,经营场所,经营范围,登记状态等。传统营业执照的信息采集都是通过移动终端设备拍摄营业执照图像,再由专人对这些图像上的营业执照信息进行人工核实、备案,费时费力。光学字符识别(OpticalCharacterRecognition,OCR)技术也被用来提取营业执照图片上的文字信息。然而,该技术所试用的对象是背景单一、字体固定的扫描文本图片,而营业执照图片的获取途径一般都是由相机拍摄,光照,角度以及营业执照本身的防伪花纹都会降低字符识别的准确率。从2014年开始,工商行政管理局颁发了含有防伪二维码的新版营业执照。扫描该二维码即可进入国家企业信用信息公示系统,上面就显示了该营业执照的详细信息,包括注册号,名称,类型,注册日期,核准日期等等。市民可以通过扫描该二维码得到该商户的具体信息以判断该商户的经营是否合法,而国家公务人员则可以通过扫描二维码得到营业执照信息以定期更新备案。普通的二维码解码设备都要求二维码占输入图片面积的80%以上,且二维码要足够清晰才能够确保二维码能被识别解码。但是,商户的营业执照往往挂在墙上或者放置在展示柜中,近距离的扫描会造成极大的不方便。一般来说,二维码都打印在营业执照的左下角并且只占了营业执照的很小一部分面积,如果将移动终端拍摄的营业执照图像直接输入二维码解码设备往往会导致二维码解码失败。所以将移动终端拍摄的营业执照图像上的二维码准确的定位并截取出来,这对后续二维码识别解码至关重要。一方面,传统的二维码定位方式是基于连通域的定位,即通过将输入图片灰度化,二值化,闭运算后,将连通域面积最大的部分截取出来。这种二维码定位方法对于图片背景、光照非常敏感。另一方面,营业执照上的国徽或密集的文字在闭运算后也能生成大面积的连通域,这就会导致最后定位的结果不是二维码,使定位精度降低。人们更希望扫描之后能看到清晰明了的实用文字信息,国家公务人员也更希望扫描之后可以得到可编辑的文字信息,这样更新备案商户信息的时候会更加省时省力。
技术实现思路
专利技术目的:本专利技术提供一种提取营业执照信息的方法,通过基于深度学习的目标检测网络对移动终端拍摄的营业执照图象上的二维码进行定位、截取、解码,提高信息提取的准确度和效率。本专利技术的另一目的是提供一种基于上述方法的装置。技术方案:本专利技术所述的一种提取含有二维码的营业执照信息的方法,包括步骤:(1.1)获取预处理后含有二维码的营业执照图像作为样本,通过图片预处理扩充样本数量;进一步地,所述图片预处理包括:对批量获取的营业执照图像分别进行镜像翻转,旋转,添加高斯噪声;(1.2)读取所述含有二维码的营业执照图像;(1.3)在所述营业执照图像中标记出二维码所在区域并标注为“qr”类别;(1.4)将二维码所在区域在所述图像中所处的位置信息及标注类别信息存入可读取文件中,每一张图像对应一个文件;(1.5)将所述可读取文件以7:3的比例分为训练集和测试集,训练集和测试集之间无交集;(2)根据基于深度学习的检测方法训练所述数据集,获得二维码定位模型;优选地,所述基于深度学习的检测方法包括基于TensorFlow框架的超快速基于候选区域的卷积神经网络(FasterRegion-BasedConvolutionalNeuralNetwork,FasterR-CNN);(3)根据所述二维码定位模型对待检测含二维码的营业执照图像进行二维码定位,获得二维码图像;(4)扫描所述二维码图像,提取所述二维码包含的企业信用信息网站统一资源定位符;进一步地,所述扫描二维码图像包括利用开源软件包扫描所提取的二维码图像;(5)根据所述统一资源定位符对应的网页页面信息,抓取所述营业执照的基本信息:(5.1)访问所述统一资源定位符,获取所述对应的网页页面信息;(5.2)对所述网页页面信息进行JSON解析,抓取出所述网页页面信息中营业执照的基本信息。本专利技术所述的一种提取含有二维码的营业执照信息的装置,其特征在于,包括:样本处理模块,用于获取含有二维码的营业执照图像作为样本,通过图片预处理扩充样本数量,制作数据集。进一步地,所述样本处理模块包括:样本扩充模块,用于对批量获取的营业执照图像分别进行镜像翻转,旋转,添加高斯噪声,增加样本数量。数据集制作模块,用于读取所述含有二维码的营业执照图像。在所述营业执照图像中标记出二维码所在区域并标注为“qr”类别。将二维码所在区域在所述图像中所处的位置信息及标注类别信息存入可读取文件中,每一张图像对应一个文件。将所述可读取文件以7:3的比例分为训练集和测试集,训练集和测试集之间无交集。二维码定位模块,用于根据基于深度学习的检测方法训练所述数据集,获得二维码定位模型,采用所述二维码定位模型对待检测含二维码的营业执照图像进行二维码定位,获得二维码图像。进一步地,所述基于深度学习的检测方法包括基于TensorFlow框架的超快速基于候选区域的卷积神经网络。二维码识别模块,用于扫描所述二维码图像,提取所述二维码包含的企业信用信息网站统一资源定位符。网页信息抓取模块,用于根据所述统一资源定位符对应的网页页面信息,抓取所述营业执照的基本信息。进一步地,所述网页信息抓取模块包括:获取网页信息模块,用于访问所述统一资源定位符,获取所述对应的网页页面信息;解析模块,用于对所述网页页面信息进行JSON(JavaScriptObjectNotation,JavaScript对象表示法)解析,抓取出所述网页页面信息中营业执照的基本信息。有益效果:本专利技术具有以下优点:1、运用训练好的基于深度卷积神经网络的二维码定位模型定位营业执照上二维码的位置,受背景,光照,拍摄角度等干扰程度极小,且速度更快,精度更高;2、通过扫描二维码访问对应的统一资源定位符并在相对应的网页上抓取营业执照信息,较之传统的光学字符识别技术,该方法提取信息速度更快,且不受图片背景、营业执照上的防伪花纹、字体扭曲等影响,在准确定位二维码位置并解码出统一资源定位符后,通过解析网页,构建字典遍历即可完全准确地提取出营业执照信息;3、直接将输入的营业执照图片输出为营业执照的文字信息,简单快捷,提升了信息提取效率,解放了人力物力,并且方便了人员后续对信息的备案登记。附图说明图1为本专利技术实施例方法流程图;图2为本专利技术实施例制作数据集的流程图;图3为本专利技术实施例二维码定位模型输出的效果图;图4为本专利技术实施例网页营业执照信息抓取的流程图;图5为本专利技术装置框图;图6为本专利技术样本处理模块的框图;图7为本专利技术网页信息抓取模块的框图。具体实施方式下面结合附图和实施例对本专利技术的技术方案作进一步的说明。本实施例提供了一种提取含有二维码的营业执照信息的方法,解决了传统营业执照信息提取方法费时本文档来自技高网
...

【技术保护点】
1.一种提取含有二维码的营业执照信息的方法,其特征在于,包括步骤:(1)获取含有二维码的营业执照图像作为样本,通过图片预处理扩充样本数量,制作数据集;(2)根据基于深度学习的检测方法训练所述数据集,获得二维码定位模型;(3)根据所述二维码定位模型对待检测含二维码的营业执照图像进行二维码定位,获得二维码图像;(4)扫描所述二维码图像,提取所述二维码包含的企业信用信息网站统一资源定位符;(5)根据所述统一资源定位符对应的网页页面信息,抓取所述营业执照的基本信息。

【技术特征摘要】
1.一种提取含有二维码的营业执照信息的方法,其特征在于,包括步骤:(1)获取含有二维码的营业执照图像作为样本,通过图片预处理扩充样本数量,制作数据集;(2)根据基于深度学习的检测方法训练所述数据集,获得二维码定位模型;(3)根据所述二维码定位模型对待检测含二维码的营业执照图像进行二维码定位,获得二维码图像;(4)扫描所述二维码图像,提取所述二维码包含的企业信用信息网站统一资源定位符;(5)根据所述统一资源定位符对应的网页页面信息,抓取所述营业执照的基本信息。2.根据权利要求1所述的方法,其特征在于:步骤(1)中,所述图片预处理包括:对营业执照图像分别进行镜像翻转,旋转,添加高斯噪声。3.根据权利要求1所述的方法,其特征在于,步骤(1)中,所述制作数据集包括:(1.1)读取所述预处理后含有二维码的营业执照图像;(1.2)在所述营业执照图像中标记出二维码所在区域并标注为“qr”类别;(1.3)将二维码所在区域在所述图像中所处的位置信息及标注的类别信息存入可读取文件中,每一张图像对应一个文件;(1.4)将所述可读取文件以7:3的比例分为训练集和测试集,训练集和测试集之间无交集。4.根据权利要求1所述的方法,其特征在于,步骤(2)中,所述基于深度学习的检测方法包括:基于TensorFlow框架的超快速基于候选区域的卷积神经网络。5.根据权利要求1所述的方法,其特征在于,步骤(4)中,所述扫描的二维码图像包括:利用开源软件包扫描所提取的二维码图像。6.根据权利要求1所述的方法,其特征在于,所述步骤(5)包括:(5.1)访问所述统一资源定位符,获取所述对应的网页页面信息;(5.2)对所述网页页面信息进行JSON解析,抓取出所述网页页面信息...

【专利技术属性】
技术研发人员:俞菲潘迪张旭帆曹钊铭周宇徐琴珍杨绿溪
申请(专利权)人:东南大学
类型:发明
国别省市:江苏,32

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1