The invention discloses a method and a device for extracting business license information containing two-dimensional codes. Among them, the methods include: preprocessing the acquired business license image with two-dimensional codes, training the pre-processed image set based on the in-depth learning target detection network, and obtaining the two-dimensional code positioning model; positioning the two-dimensional code for the detected business license image with two-dimensional codes; obtaining and scanning the two-dimensional code image, and extracting the enterprise credit information network contained in the two-dimensional code. Station Unified Resource Locator; according to the web page information corresponding to the Unified Resource Locator, grasp the basic information of the business license. The device includes sample processing module, two-dimensional code positioning module, two-dimensional code recognition module and web page information capture module. The invention improves the accuracy of two-dimensional code positioning, overcomes the problem of inaccurate two-dimensional code positioning caused by complex picture background, achieves 100% accuracy to extract business license information, and improves office efficiency.
【技术实现步骤摘要】
一种提取含有二维码的营业执照信息的方法及装置
本专利技术涉及一种二维码信息提取方法及装置,属于深度学习、计算机视觉领域,尤其涉及一种提取含有二维码的营业执照信息的方法及装置。
技术介绍
营业执照是工商行政管理机关发给工商企业、个体经营者的准许从事某项生产经营活动的凭证。为防止不法商铺伪造营业执照或在营业执照有效期到期之后不及时申请新的营业执照,国家公务人员需要定期检查备案工商企业、个体经营者的营业执照信息,包括统一社会信用代码,注册号,名称,类型,经营者,组成形式,注册日期,经营场所,经营范围,登记状态等。传统营业执照的信息采集都是通过移动终端设备拍摄营业执照图像,再由专人对这些图像上的营业执照信息进行人工核实、备案,费时费力。光学字符识别(OpticalCharacterRecognition,OCR)技术也被用来提取营业执照图片上的文字信息。然而,该技术所试用的对象是背景单一、字体固定的扫描文本图片,而营业执照图片的获取途径一般都是由相机拍摄,光照,角度以及营业执照本身的防伪花纹都会降低字符识别的准确率。从2014年开始,工商行政管理局颁发了含有防伪二维码的新版营业执照。扫描该二维码即可进入国家企业信用信息公示系统,上面就显示了该营业执照的详细信息,包括注册号,名称,类型,注册日期,核准日期等等。市民可以通过扫描该二维码得到该商户的具体信息以判断该商户的经营是否合法,而国家公务人员则可以通过扫描二维码得到营业执照信息以定期更新备案。普通的二维码解码设备都要求二维码占输入图片面积的80%以上,且二维码要足够清晰才能够确保二维码能被识别解码。但是,商户的营 ...
【技术保护点】
1.一种提取含有二维码的营业执照信息的方法,其特征在于,包括步骤:(1)获取含有二维码的营业执照图像作为样本,通过图片预处理扩充样本数量,制作数据集;(2)根据基于深度学习的检测方法训练所述数据集,获得二维码定位模型;(3)根据所述二维码定位模型对待检测含二维码的营业执照图像进行二维码定位,获得二维码图像;(4)扫描所述二维码图像,提取所述二维码包含的企业信用信息网站统一资源定位符;(5)根据所述统一资源定位符对应的网页页面信息,抓取所述营业执照的基本信息。
【技术特征摘要】
1.一种提取含有二维码的营业执照信息的方法,其特征在于,包括步骤:(1)获取含有二维码的营业执照图像作为样本,通过图片预处理扩充样本数量,制作数据集;(2)根据基于深度学习的检测方法训练所述数据集,获得二维码定位模型;(3)根据所述二维码定位模型对待检测含二维码的营业执照图像进行二维码定位,获得二维码图像;(4)扫描所述二维码图像,提取所述二维码包含的企业信用信息网站统一资源定位符;(5)根据所述统一资源定位符对应的网页页面信息,抓取所述营业执照的基本信息。2.根据权利要求1所述的方法,其特征在于:步骤(1)中,所述图片预处理包括:对营业执照图像分别进行镜像翻转,旋转,添加高斯噪声。3.根据权利要求1所述的方法,其特征在于,步骤(1)中,所述制作数据集包括:(1.1)读取所述预处理后含有二维码的营业执照图像;(1.2)在所述营业执照图像中标记出二维码所在区域并标注为“qr”类别;(1.3)将二维码所在区域在所述图像中所处的位置信息及标注的类别信息存入可读取文件中,每一张图像对应一个文件;(1.4)将所述可读取文件以7:3的比例分为训练集和测试集,训练集和测试集之间无交集。4.根据权利要求1所述的方法,其特征在于,步骤(2)中,所述基于深度学习的检测方法包括:基于TensorFlow框架的超快速基于候选区域的卷积神经网络。5.根据权利要求1所述的方法,其特征在于,步骤(4)中,所述扫描的二维码图像包括:利用开源软件包扫描所提取的二维码图像。6.根据权利要求1所述的方法,其特征在于,所述步骤(5)包括:(5.1)访问所述统一资源定位符,获取所述对应的网页页面信息;(5.2)对所述网页页面信息进行JSON解析,抓取出所述网页页面信息...
【专利技术属性】
技术研发人员:俞菲,潘迪,张旭帆,曹钊铭,周宇,徐琴珍,杨绿溪,
申请(专利权)人:东南大学,
类型:发明
国别省市:江苏,32
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。