营业执照识别方法和装置制造方法及图纸

技术编号:18668644 阅读:17 留言:0更新日期:2018-08-14 20:44
本发明专利技术涉及一种营业执照识别方法和装置。所述方法包括:获取包含营业执照完整信息的图片;从所述图片中提取所述营业执照的文本候选区域;从所述文本候选区域筛选得到文本关键信息区域;对所述文本关键信息区域进行光学字符识别得到识别结果;对所述识别结果进行语义修复得到修正后的识别结果。上述营业执照识别方法和装置,通过获取包含营业执照完整信息的图片,从图片中提取文本候选区域,再从文本候选区域中筛选出文本关键信息区域,对文本关键信息区域进行光学字符识别得到识别结果,对识别结果进行修复得到修正后的识别结果,只需获取营业执照完整图片,不需要多次操作,简化了操作,节省了时间,且识别结果更加准确。

Business license recognition method and device

The invention relates to a method and device for identifying business license. The method comprises: acquiring a picture containing the complete information of a business license; extracting a text candidate region of the business license from the picture; screening out a text key information region from the text candidate region; performing optical character recognition on the text key information region to obtain the recognition result; and recognizing the recognition knot. The result is corrected by semantic restoration. The business license recognition method and device can extract the text candidate region from the picture by obtaining the picture containing the complete information of the business license, and then select the text key information region from the text candidate region, and carry on the optical character recognition to the text key information region to obtain the recognition result, and repair the recognition result. The corrected recognition results only need to obtain the complete picture of the business license without multiple operations, which simplifies the operation, saves time and makes the recognition results more accurate.

【技术实现步骤摘要】
营业执照识别方法和装置
本专利技术涉及数据处理领域,特别是涉及一种营业执照识别方法和装置。
技术介绍
营业执照是工商行政管理机关发给工商企业、个体经营者的准许从事某项生产经营活动的凭证。在某些场景下需要对营业执照里面的关键信息进行识别,例如统一社会信用代码、公司名称和二维码等。传统的识别营业执照的方法是通过移动终端中的拍摄框分别扫描营业执照中的统一社会信用代码区域、公司名称区域、二维码区域等识别里面的信息,需要多次扫描不同的区域,操作繁琐,耗时长。
技术实现思路
基于此,有必要针对传统的营业执照识别操作繁琐,耗时长的问题,提供一种营业执照识别方法和装置,能简化操作,节省时间。一种营业执照识别方法,包括:获取包含营业执照完整信息的图片;从所述图片中提取所述营业执照的文本候选区域;从所述文本候选区域筛选得到文本关键信息区域;对所述文本关键信息区域进行光学字符识别得到识别结果;对所述识别结果进行语义修复得到修正后的识别结果。一种营业执照识别装置,包括:图片获取模块,用于获取包含营业执照完整信息的图片;文本提取模块,用于从所述图片中提取所述营业执照的文本候选区域;关键信息区域获取模块,用于从所述文本候选区域筛选得到文本关键信息区域;文本识别模块,用于对所述文本关键信息区域进行光学字符识别得到识别结果;修正模块,用于对所述识别结果进行语义修复得到修正后的识别结果。上述营业执照识别方法和装置,通过获取包含营业执照完整信息的图片,从图片中提取文本候选区域,再从文本候选区域中筛选出文本关键信息区域,对文本关键信息区域进行光学字符识别得到识别结果,对识别结果进行修复得到修正后的识别结果,只需获取营业执照完整图片,不需要多次操作,即可实现对营业执照进行识别,简化了操作,节省了时间,且识别结果更加准确。附图说明图1为一个实施例中营业执照识别方法的应用环境示意图;图2为一个实施例中服务器的内部结构示意图;图3为一个实施例中营业执照识别方法的流程图;图4为一个实施例中营业执照图片识别出的文本区域示意图;图5为一个实施例中营业执照图片识别出的文本候选区域示意图;图6为图5的文本候区域筛选得到的文本关键信息区域示意图;图7为一个实施例中对所述文本关键信息区域进行光学字符识别得到识别结果的具体流程图;图8为一个实施例中过切分的示意图;图9为一个实施例中识别“中”字符的示意图;图10为一个实施例中营业执照识别装置的结构框图。具体实施方式为了使本专利技术的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本专利技术进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本专利技术,并不用于限定本专利技术。图1为一个实施例中营业执照识别方法的应用环境示意图。如图1所示,该应用环境包括终端110和服务器120。终端110与服务器120通过网络进行数据通信。终端110获取营业执照图片,将营业执照图片上传到服务器120。服务器120对营业执照图片提取文本候选区域,并筛选得到文本关键信息区域,对关键信息区域进行光学字符识别得到识别结果,对识别结果进行语义修复得到修正后的识别结果。终端110可为智能手机、个人计算机、平板电脑等。终端110可自带图像采集装置采集营业执照图片,也可接收其他设备传输的营业执照图片。图2为一个实施例中服务器(或云端等)的内部结构示意图。如图2所示,该服务器包括通过系统总线连接的处理器、非易失性存储介质、内存储器和网络接口。其中,该服务器的非易失性存储介质存储有操作系统、数据库和营业执照识别装置,数据库中存储有营业执照模版、光学字符识别模型等,该营业执照识别装置用于实现适用于服务器的一种营业执照识别方法。该服务器的处理器用于提供计算和控制能力,支撑整个服务器的运行。该服务器的内存储器为非易失性存储介质中的营业执照识别装置的运行提供环境,该内存储器中可储存有计算机可读指令,该计算机可读指令被所述处理器执行时,可使得所述处理器执行一种营业执照识别方法。该服务器的网络接口用于据以与外部的终端通过网络连接通信,比如接收终端发送的营业执照识别请求以及向终端返回识别结果等。服务器可以用独立的服务器或者是多个服务器组成的服务器集群来实现。本领域技术人员可以理解,图2中示出的结构,仅仅是与本申请方案相关的部分结构的框图,并不构成对本申请方案所应用于其上的服务器的限定,具体的服务器可以包括比图中所示更多或更少的部件,或者组合某些部件,或者具有不同的部件布置。图3为一个实施例中营业执照识别方法的流程图。如图3所示,一种营业执照识别方法,运行于图1和图2中的服务器上,包括:步骤302,获取包含营业执照完整信息的图片。具体地,可通过摄像头等设备拍摄营业执照,获取营业执照图片,图片格式可为BMP(Bitmap,位图)、JPG(JointPhotographicExpertsGROUP)、TIFF(TagImageFileFormat,标签图像文件格式)、GIF(GraphicsInterchangeFormat,图像交换格式)、PCX(PCPaintbrushExchange,图像软件格式)、TGA(TaggedGraphics,图像显卡文件格式)、EXIF(ExchangeableImageFile,可交换图像文件)等。服务器获取终端上传的包含营业执照完整信息的图片。步骤304,从所述图片中提取所述营业执照的文本候选区域。本实施例中,可对图片进行梯度、二值化、图形学操作处理得到营业执照的文本候选区域。对图片进行梯度处理是将图片看成二维离散函数,图片梯度是对这个二维离散函数求导。图片梯度计算公式可采用如下公式:G(x,y)=dx(i,j)+dy(i,j)dx(i,j)=I(i+1,j)-I(i,j)dy(i,j)=I(i,j+1)-I(i,j)其中,I是图片像素的值,(i,j)为像素的坐标。对图片进行二值化处理是指将图片上的像素点的灰度值设置为0或255。对图片进行图形学操作是指使用数学算法将二维或三维图形转化为计算机显示器的栅格形式。可采用开源库opencv对图片进行梯度、二值化、图形学操作处理得到营业执照的文本候选区域。文本候选区域是指包含营业执照中包含文本信息的各个区域。图4为一个实施例中营业执照图片识别出的文本区域示意图。如图4所示,对营业执照图片进行梯度、二值化、图形学操作处理得到营业执照的文本候选区域,图中白色部分。步骤306,从所述文本候选区域筛选得到文本关键信息区域。本实施例中,对文本候选区域可采用文本行的特性进行筛选或通过预设营业执照模版进行匹配得到文本关键信息区域。文本关键信息区域是指营业执照的统一社会信用代码区域、公司名称区域、二维码区域、有效期区域、经济范围区域、住所区域等。图5为一个实施例中营业执照图片识别出的文本候选区域示意图。如图5所示,从营业执照图片中识别出的文本候选区域可包括营业执照文本行、副本、统一社会信用代码、11110105797556850G、名称、abc有限公司北京分公司、类型、分公司、住所、北京市朝阳区XXX大厦XXX层、法定代表人、XXX、注册资本、成立日期、2006年12月30日、营业期限、2006年12月30日、至2035年09月01日、经营范围、从事鞋类、服装、运动配饰、运动设备等运动产品及本文档来自技高网...

【技术保护点】
1.一种营业执照识别方法,包括:获取包含营业执照完整信息的图片;从所述图片中提取所述营业执照的文本候选区域;从所述文本候选区域筛选得到文本关键信息区域;对所述文本关键信息区域进行光学字符识别得到识别结果;对所述识别结果进行语义修复得到修正后的识别结果。

【技术特征摘要】
1.一种营业执照识别方法,包括:获取包含营业执照完整信息的图片;从所述图片中提取所述营业执照的文本候选区域;从所述文本候选区域筛选得到文本关键信息区域;对所述文本关键信息区域进行光学字符识别得到识别结果;对所述识别结果进行语义修复得到修正后的识别结果。2.根据权利要求1所述的方法,其特征在于,所述从所述图片中提取所述营业执照的文本候选区域,包括:对所述图片进行梯度、二值化和图形学操作处理得到所述营业执照的文本候选区域。3.根据权利要求1所述的方法,其特征在于,所述从所述文本候选区域筛选得到文本关键信息区域,包括:获取基准文本行,采用文本行的特性和所述基准文本行从所述文本候选区域得到文本关键信息区域,所述文本行的特性包括长度、宽度和位置。4.根据权利要求1所述的方法,其特征在于,所述从所述文本候选区域筛选得到文本关键信息区域,包括:将所述文本候选区域与预设的营业执照模版进行匹配,得到文本关键信息区域。5.根据权利要求1所述的方法,其特征在于,所述对所述文本关键信息区域进行光学字符识别得到识别结果,包括:对所述文本关键信息区域的文本行进行过切分,得到所述文本行中各个单字符;将所述文本行中各个单字符进行光学字符识别得到所述单字符的识别结果及对应的置信度;将各个单字符的识别结果按照在所述文本行中所处的位置组成字符串,得到所述文本行的初始识别结果,以及获取所述文本行中单字符的识别结果对应的最小置信度,将所述最小置信度作为所述文本行的置信度;若所述文本行的置信度大于置信度阈值,则所述文本行的初始识别结果作为所述文本行的识别结果。6.根据权利要求1所述的方法,其特征在于,所述对所述文本关键信息区域进行光学字符识别得到识别结果,包括:采用时间递归神经网络模型对所述文本关键信息区域中文本行进行不切分的光学字符识别得到所述文本行的识别结果。7.根据权利要求1至6中任一项所述的方法,其特征在于,所述对所述识别结果进行语义修复得到修正后的识别结果,包括:对所述识别结果中的号码进行校验,以及对所述识别结...

【专利技术属性】
技术研发人员:张睿欣郭晓威
申请(专利权)人:腾讯科技上海有限公司
类型:发明
国别省市:上海,31

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1