用于图像识别的方法、装置、设备和计算机可读存储介质制造方法及图纸

技术编号:18576496 阅读:37 留言:0更新日期:2018-08-01 11:33
本公开的实施例涉及用于图像识别的方法、装置、计算设备以及计算机可读存储介质。该方法包括:识别第一图像中的字符;响应于确定识别出的字符与模板图像的至少一个参考定位区域中的字符相匹配,从第一图像中确定与至少一个参考定位区域相对应的至少一个第一区域;利用至少一个参考定位区域和至少一个第一区域,基于第一图像确定与模板图像相匹配的第二图像;以及从第二图像中确定与模板图像中的参考识别区域相对应的第二区域中的字符。本公开的实施例能够在原始图像质量较差的情况下实现图像识别。另外,还可以根据不同的模板图像来确定不同的信息,例如,可以获得不同字段之间的关系。

Method, device, device and computer readable storage medium for image recognition

Embodiments of the disclosure relate to methods, devices, computing devices, and computer-readable storage media for image recognition. The method includes: identifying the characters in the first image; in response to determining the identified characters to match the characters in at least one reference location area of the template image, at least one first area corresponding to at least one reference location area is determined from the first image; at least one reference location area and at least a reference location area is used. A first region determines the second image matching the template image based on the first image, and the characters in the second region corresponding to the reference recognition area in the template image from the second image. The embodiment of this disclosure can realize image recognition in the case of poor original image quality. In addition, different information can be determined according to different template images, for example, the relationship between different fields can be obtained.

【技术实现步骤摘要】
用于图像识别的方法、装置、设备和计算机可读存储介质
本公开的实施例总体涉及图像处理领域,并且更具体地涉及用于图像识别的方法、装置、计算设备和计算机可读存储介质。
技术介绍
当前存在各种文字识别工具,将图像中的文字识别出来,按行输出。然而,当前的文字识别工具的前置条件较多,例如,要求较高的图像质量,对准图像进行拍摄。然而,在图像存在严重畸变的情况下,这些文字识别工具可能无法获得较好的文字识别结果。另外,这些文字识别工具对于图像中的结构化数据的识别也是困难的。例如,这些文字识别工具通常无法获得结构化数据的字段之间的关系。例如,如果针对某一类发票进行识别,金额项和金额数值的关系在文字识别时被破坏,用户无法直接从金额里提取需要的数值,这对于数据的上层处理带来了巨大的障碍。
技术实现思路
根据本公开的示例实施例,提供了一种用于图像识别的方法和装置。根据本公开的第一方面,提供了一种用于图像识别的方法。所述方法包括:识别第一图像中的字符;响应于确定识别出的所述字符与模板图像的至少一个参考定位区域中的字符相匹配,从所述第一图像中确定与所述至少一个参考定位区域相对应的至少一个第一区域;利用所述至少一个参考定位区域和所述至少一个第一区域,基于所述第一图像确定与所述模板图像相匹配的第二图像;以及从所述第二图像中确定与所述模板图像中的参考识别区域相对应的第二区域中的字符。根据本公开的第二方面,提供了一种用于图像识别的装置。所述装置包括:字符识别模块,被配置为识别第一图像中的字符;区域确定模块,被配置为响应于确定识别出的所述字符与模板图像的至少一个参考定位区域中的字符相匹配,从所述第一图像中确定与所述至少一个参考定位区域相对应的至少一个第一区域;图像确定模块,被配置为利用所述至少一个参考定位区域和所述至少一个第一区域,基于所述第一图像确定与所述模板图像相匹配的第二图像;以及字符确定模块,被配置为从所述第二图像中确定与所述模板图像中的参考识别区域相对应的第二区域中的字符。根据本公开的第三方面,提供了一种计算设备。所述计算设备包括:一个或多个处理器;以及存储装置,用于存储一个或多个程序,当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现根据本公开的第一方面所述的方法。根据本公开的第四方面,提供了一种计算机可读存储介质,其上存储有计算机程序,所述程序被处理器执行时实现根据本公开的第一方面所述的方法。应当理解,
技术实现思路
部分中所描述的内容并非旨在限定本公开的实施例的关键或重要特征,亦非用于限制本公开的范围。本公开的其它特征将通过以下的描述变得容易理解。附图说明结合附图并参考以下详细说明,本公开各实施例的上述和其他特征、优点及方面将变得更加明显。在附图中,相同或相似的附图标记表示相同或相似的元素,其中:图1示出了本公开的多个实施例能够在其中实现的示例环境的示意图;图2示出了根据本公开的一些实施例的图像识别方法的流程图;图3示出了根据本公开的一些实施例的原始图像的示意图;图4示出了根据本公开的一些实施例的模板图像的示意图;图5示出了根据本公开的一些实施例的包括定位区域的原始图像的示意图;图6A示出了根据本公开的一些实施例的经变换的原始图像的示意图;图6B示出了根据本公开的一些实施例的经变换的原始图像的另一示意图;图7示出了根据本公开的实施例的图像识别装置的示意框图;以及图8示出了能够实施本公开的多个实施例的计算设备的框图。具体实施方式下面将参照附图更详细地描述本公开的实施例。虽然附图中显示了本公开的某些实施例,然而应当理解的是,本公开可以通过各种形式来实现,而且不应该被解释为限于这里阐述的实施例,相反提供这些实施例是为了更加透彻和完整地理解本公开。应当理解的是,本公开的附图及实施例仅用于示例性作用,并非用于限制本公开的保护范围。在本公开的实施例的描述中,术语“包括”及其类似用语应当理解为开放性包含,即“包括但不限于”。术语“基于”应当理解为“至少部分地基于”。术语“一个实施例”或“该实施例”应当理解为“至少一个实施例”。术语“第一”、“第二”等等可以指代不同的或相同的对象。下文还可能包括其他明确的和隐含的定义。如上所述,当前的图像识别工具的前置条件较多,例如,要求较高的图像质量,对准图像进行拍摄。另外,这些文字识别工具通常仅能逐行识别文字,而无法获得结构化数据的不同字段之间的关系。本公开的实施例提供了一种用于图像识别的方案。根据本公开的实施例,将识别出的原始图像的字符与模板图像的至少一个参考定位区域中的字符进行匹配。然后,利用匹配之后的区域之间的对应性,对原始图像进行变换。将变换后的图像与模板图像中的参考识别区域进行匹配,以识别所匹配的区域内的字符。以这种方式,可以降低对图像质量的要求,也不需要原始图像中存在特定的图形。图1示出了本公开的多个实施例能够在其中实现的示例环境100的示意图。在该示例环境100中,计算设备104接收待识别的原始图像102,原始图像102可以是由各种图像捕获设备获取的图像,例如,相机、移动电话、扫描仪等。计算设备104从数据库108获取模板图像110,模板图像110可以具有与原始图像102相同的类型,例如,发票、提货单、医疗票据等。模板图像110可以包括参考定位区域和参考识别区域。参考定位区域可以包括字符,以用于将模板图像110与原始图像102进行匹配。参考识别区域表示待识别的区域,其可以包括固定字段区域和/或固定表格区域。应当理解,数据库108也可以集成在计算设备104中,并且模块图像110可以由用户根据实际需求进行自定义。例如,用户可以将自定义的模板图像提供给计算设备104。作为另一示例,用户可以在图像上框选参考定位区域和参考识别区域,以自定义模板图像110。计算设备104可以将原始图像102转换为与模板图像110相匹配的目标图像106。计算设备104可以从目标图像106确定与参考识别区域相对应的识别区域,并确定识别区域内的字符,以提供识别结果112。用户还可以进一步提供另外的图像对模板图像110进行测试。针对另外的图像应用本文所述的图像识别方法来获得识别结果112。如果用户对识别结果112不满意,则可以对模板图像110进行进一步的修改。图2示出了根据本公开的一些实施例的图像识别方法200的流程图。图像识别方法200例如可以由图1所示的计算设备104实施。在框202,识别原始图像102中的字符。为了方便描述,以下将原始图像102称为第一图像。图3示出了根据本公开的一些实施例的第一图像300的示意图。为了简单起见,图3仅示出了旋转畸变,然而应当理解,第一图像300可以具有各种其他类型的畸变,例如,不平整、不清晰、缺少部分内容等等。在一些实施例中,可以使用光学字符识别(OCR)方法来对第一图像300进行识别。例如,可以使用基于卷积神经网络(CNN)的字符识别方法来对第一图像300进行识别。应当理解,可以通过多种方案来对原始图像102中的字符进行识别,而不局限于上述提到的具体方法。上述提到的识别方法仅仅是示例性的,而无意对本公开的实施例进行任何限制。在框204,确定识别出的字符与模板图像的参考定位区域中的字符是否匹配。图4示出了根据本公开的一些实施例的模板图像400的示意图。如图4本文档来自技高网
...

【技术保护点】
1.一种用于图像识别的方法,包括:识别第一图像中的字符;响应于确定识别出的所述字符与模板图像的至少一个参考定位区域中的字符相匹配,从所述第一图像中确定与所述至少一个参考定位区域相对应的至少一个第一区域;利用所述至少一个参考定位区域和所述至少一个第一区域,基于所述第一图像确定与所述模板图像相匹配的第二图像;以及从所述第二图像中确定与所述模板图像中的参考识别区域相对应的第二区域中的字符。

【技术特征摘要】
1.一种用于图像识别的方法,包括:识别第一图像中的字符;响应于确定识别出的所述字符与模板图像的至少一个参考定位区域中的字符相匹配,从所述第一图像中确定与所述至少一个参考定位区域相对应的至少一个第一区域;利用所述至少一个参考定位区域和所述至少一个第一区域,基于所述第一图像确定与所述模板图像相匹配的第二图像;以及从所述第二图像中确定与所述模板图像中的参考识别区域相对应的第二区域中的字符。2.根据权利要求1所述的方法,其中确定识别出的所述字符与模板图像的至少一个参考定位区域中的字符相匹配包括:响应于识别出的所述字符包括所述至少一个参考定位区域中的字符的至少一部分,确定识别出的所述字符与所述至少一个参考定位区域中的字符相匹配。3.根据权利要求1所述的方法,其中从所述第一图像中确定与所述至少一个参考定位区域相对应的所述至少一个第一区域包括:从所述第一图像中确定与所述至少一个参考定位区域相对应的多个候选区域;以及从所述多个候选区域中去除异常的候选区域,以得到所述至少一个第一区域。4.根据权利要求1所述的方法,其中所述至少一个第一区域包括多个第一区域,所述至少一个参考区域包括多个参考定位区域,并且基于所述第一图像确定与所述模板图像相匹配的第二图像包括:利用所述多个第一区域和所述多个参考定位区域,对所述第一图像进行透视变换,以得到所述第二图像。5.根据权利要求4所述的方法,其中对所述第一图像进行透视变换包括:基于所述多个第一区域和所述多个参考定位区域,计算透视投影矩阵;以及对所述第一图像应用所述透视投影矩阵,以得到所述第二图像。6.根据权利要求1所述的方法,其中基于所述第一图像确定与所述模板图像相匹配的第二图像包括:基于所述参考定位区域和所述第一区域,将所述第一图像变换为第三图像;响应于确定所述第三图像与所述模板图像不匹配,从所述第三图像中确定与所述参考定位区域相对应的第三区域;以及基于所述参考定位区域和所述第三区域,从所述第三图像确定与所述模板图像相匹配的第二图像。7.根据权利要求1所述的方法,还包括:响应于所述参考识别区域的至少一部分是表格,从所述第二区域中的字符确定多个字符序列;基于所述多个字符序列之间的位置关系,使所述多个字符序列之间彼此匹配。8.一种用于图像识别的装置,包括:字符识别模块,被配置为识别第一图像中的字符;区域确定模块,被配置为响应于确定识别出的所述字符与模板图像的至少一个参考定位区域中的字符相匹配,从所述第一图像中确定与所述至少一个参考定位区域相对应的至少一个第一...

【专利技术属性】
技术研发人员:向宇波袁运筹王天天陈帆李琦陈涛涛张红光刘建夏娄双双
申请(专利权)人:北京百度网讯科技有限公司
类型:发明
国别省市:北京,11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1