The invention relates to a method and device for identifying business license. The method comprises: acquiring a picture containing the complete information of a business license; extracting a text candidate region of the business license from the picture; screening out a text key information region from the text candidate region; performing optical character recognition on the text key information region to obtain the recognition result; and recognizing the recognition knot. The result is corrected by semantic restoration. The business license recognition method and device can extract the text candidate region from the picture by obtaining the picture containing the complete information of the business license, and then select the text key information region from the text candidate region, and carry on the optical character recognition to the text key information region to obtain the recognition result, and repair the recognition result. The corrected recognition results only need to obtain the complete picture of the business license without multiple operations, which simplifies the operation, saves time and makes the recognition results more accurate.
【技术实现步骤摘要】
营业执照识别方法和装置
本专利技术涉及数据处理领域,特别是涉及一种营业执照识别方法和装置。
技术介绍
营业执照是工商行政管理机关发给工商企业、个体经营者的准许从事某项生产经营活动的凭证。在某些场景下需要对营业执照里面的关键信息进行识别,例如统一社会信用代码、公司名称和二维码等。传统的识别营业执照的方法是通过移动终端中的拍摄框分别扫描营业执照中的统一社会信用代码区域、公司名称区域、二维码区域等识别里面的信息,需要多次扫描不同的区域,操作繁琐,耗时长。
技术实现思路
基于此,有必要针对传统的营业执照识别操作繁琐,耗时长的问题,提供一种营业执照识别方法和装置,能简化操作,节省时间。一种营业执照识别方法,包括:获取包含营业执照完整信息的图片;从所述图片中提取所述营业执照的文本候选区域;从所述文本候选区域筛选得到文本关键信息区域;对所述文本关键信息区域进行光学字符识别得到识别结果;对所述识别结果进行语义修复得到修正后的识别结果。一种营业执照识别装置,包括:图片获取模块,用于获取包含营业执照完整信息的图片;文本提取模块,用于从所述图片中提取所述营业执照的文本候选区域;关键信息区域获取模块,用于从所述文本候选区域筛选得到文本关键信息区域;文本识别模块,用于对所述文本关键信息区域进行光学字符识别得到识别结果;修正模块,用于对所述识别结果进行语义修复得到修正后的识别结果。上述营业执照识别方法和装置,通过获取包含营业执照完整信息的图片,从图片中提取文本候选区域,再从文本候选区域中筛选出文本关键信息区域,对文本关键信息区域进行光学字符识别得到识别结果,对识别结果进行修复得到修正后的 ...
【技术保护点】
1.一种营业执照识别方法,包括:获取包含营业执照完整信息的图片;从所述图片中提取所述营业执照的文本候选区域;从所述文本候选区域筛选得到文本关键信息区域;对所述文本关键信息区域进行光学字符识别得到识别结果;对所述识别结果进行语义修复得到修正后的识别结果。
【技术特征摘要】
1.一种营业执照识别方法,包括:获取包含营业执照完整信息的图片;从所述图片中提取所述营业执照的文本候选区域;从所述文本候选区域筛选得到文本关键信息区域;对所述文本关键信息区域进行光学字符识别得到识别结果;对所述识别结果进行语义修复得到修正后的识别结果。2.根据权利要求1所述的方法,其特征在于,所述从所述图片中提取所述营业执照的文本候选区域,包括:对所述图片进行梯度、二值化和图形学操作处理得到所述营业执照的文本候选区域。3.根据权利要求1所述的方法,其特征在于,所述从所述文本候选区域筛选得到文本关键信息区域,包括:获取基准文本行,采用文本行的特性和所述基准文本行从所述文本候选区域得到文本关键信息区域,所述文本行的特性包括长度、宽度和位置。4.根据权利要求1所述的方法,其特征在于,所述从所述文本候选区域筛选得到文本关键信息区域,包括:将所述文本候选区域与预设的营业执照模版进行匹配,得到文本关键信息区域。5.根据权利要求1所述的方法,其特征在于,所述对所述文本关键信息区域进行光学字符识别得到识别结果,包括:对所述文本关键信息区域的文本行进行过切分,得到所述文本行中各个单字符;将所述文本行中各个单字符进行光学字符识别得到所述单字符的识别结果及对应的置信度;将各个单字符的识别结果按照在所述文本行中所处的位置组成字符串,得到所述文本行的初始识别结果,以及获取所述文本行中单字符的识别结果对应的最小置信度,将所述最小置信度作为所述文本行的置信度;若所述文本行的置信度大于置信度阈值,则所述文本行的初始识别结果作为所述文本行的识别结果。6.根据权利要求1所述的方法,其特征在于,所述对所述文本关键信息区域进行光学字符识别得到识别结果,包括:采用时间递归神经网络模型对所述文本关键信息区域中文本行进行不切分的光学字符识别得到所述文本行的识别结果。7.根据权利要求1至6中任一项所述的方法,其特征在于,所述对所述识别结果进行语义修复得到修正后的识别结果,包括:对所述识别结果中的号码进行校验,以及对所述识别结...
【专利技术属性】
技术研发人员:张睿欣,郭晓威,
申请(专利权)人:腾讯科技上海有限公司,
类型:发明
国别省市:上海,31
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。