确定字符序列的方法、装置和电子设备制造方法及图纸

技术编号:29975699 阅读:16 留言:0更新日期:2021-09-08 09:59
本公开提供了用于确定字符序列的方法、装置、电子设备和计算机可读存储介质,涉及人工智能技术领域,具体为计算机视觉和深度学习技术领域,可应用于智慧城市、智慧金融场景下。具体实现方案为:确定原始图像的图像特征数据;基于图像特征数据确定第一字符特征数据,第一字符特征数据至少包括原始图像中包括的多个字符的相应字符特征数据;基于第一字符特征数据,确定由多个字符组成的目标字符序列;从目标字符序列中获取第二字符特征数据,第二字符特征数据包含字符特征信息和字符序列特征信息;以及基于图像特征数据和第二字符特征数据,确定多个字符的更新的目标字符序列。本公开提升了字符序列识别结果的正确率,改善了用户体验。户体验。户体验。

【技术实现步骤摘要】
确定字符序列的方法、装置和电子设备


[0001]本公开涉及人工智能
,具体为计算机视觉和深度学习
,可应用于智慧城市、智慧金融场景下,例如涉及用于确定字符序列的方法、装置、电子设备、计算机可读存储介质和计算机程序产品。

技术介绍

[0002]在工业、服务业等智能化的趋势下,自然场景下的文字检测识别技术(例如,光学字符识别技术,Optical Character Recognition,简称“OCR”)已经被广泛的应用于社会各个行业,如金融、教育、医疗等领域。文档录入、发票识别、车牌识别、证件识别等文字检测识别的具体应用,提高了各行各业的工作效率、简化了用户的操作流程。虽然一些高性能的文字检测识别方法在通用场景下的识别率已经达到90%以上,但对于有遮挡、光照不均匀、有艺术字符等的情况,目前的识别技术通常会存在识别错误、漏识别等问题。

技术实现思路

[0003]本公开提供了一种用于确定字符序列的方法、装置、电子设备、计算机可读存储介质和计算机程序产品。
[0004]根据本公开的第一方面,提供了一种用于确定字符序列的方法。该方法可以包括确定原始图像的图像特征数据。进而,可以基于图像特征数据确定第一字符特征数据,该第一字符特征数据至少包括原始图像中包括的多个字符的相应字符特征数据。该方法还可以包括基于第一字符特征数据,确定由多个字符组成的目标字符序列。进而,可以从目标字符序列中获取第二字符特征数据,第二字符特征数据包含字符特征信息和字符序列特征信息。此外,该方法可以进一步包括基于图像特征数据和第二字符特征数据,确定多个字符的更新的目标字符序列。
[0005]在本公开的第二方面中,提供了一种用于确定字符序列的装置,包括:图像特征数据确定模块,被配置为确定原始图像的图像特征数据;第一字符特征数据确定模块,被配置为基于所述图像特征数据确定第一字符特征数据,所述第一字符特征数据至少包括所述原始图像中包括的多个字符的相应字符特征数据;目标字符序列确定模块,被配置为基于所述第一字符特征数据,确定由所述多个字符组成的目标字符序列;第二字符特征数据获取模块,被配置为从所述目标字符序列中获取第二字符特征数据,所述第二字符特征数据包含字符特征信息和字符序列特征信息;以及目标字符序列更新模块,被配置为基于所述图像特征数据和所述第二字符特征数据,确定所述多个字符的更新的目标字符序列。
[0006]在本公开的第三方面中,提供了一种电子设备,包括一个或多个处理器;以及存储装置,用于存储一个或多个程序,当一个或多个程序被一个或多个处理器执行,使得一个或多个处理器实现根据本公开的第一方面的方法。
[0007]在本公开的第四方面中,提供了一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现根据本公开的第一方面的方法。
[0008]在本公开的第五方面中,提供了一种计算机程序产品,计算机程序在被处理器执行时实现根据本公开的第一方面的方法。
[0009]应当理解,本部分所描述的内容并非旨在标识本公开的实施例的关键或重要特征,也不用于限制本公开的范围。本公开的其它特征将通过以下的说明书而变得容易理解。
附图说明
[0010]附图用于更好地理解本方案,不构成对本公开的限定。其中:
[0011]图1示出了本公开的多个实施例能够在其中实现的示例环境的示意图;
[0012]图2示出了根据本公开的实施例的用于模型训练的详细示例环境的示意图;
[0013]图3示出了根据本公开的实施例的用于确定字符序列的过程的流程图;
[0014]图4A示出了根据本公开的实施例的经卷积神经网络处理的图像特征数据的示意图;
[0015]图4B示出了根据本公开的实施例的经注意图模型确定的注意力掩码信息的示意图;
[0016]图5示出了根据本公开的实施例的用于确定字符序列的装置的框图;以及
[0017]图6示出了能够实施本公开的多个实施例的计算设备的框图。
具体实施方式
[0018]以下结合附图对本公开的示范性实施例做出说明,其中包括本公开实施例的各种细节以助于理解,应当将它们认为仅仅是示范性的。因此,本领域普通技术人员应当认识到,可以对这里描述的实施例做出各种改变和修改,而不会背离本公开的范围和精神。同样,为了清楚和简明,以下的描述中省略了对公知功能和结构的描述。
[0019]在本公开的实施例的描述中,术语“包括”及其类似用语应当理解为开放性包含,即“包括但不限于”。术语“基于”应当理解为“至少部分地基于”。术语“一个实施例”或“该实施例”应当理解为“至少一个实施例”。术语“第一”、“第二”等等可以指代不同的或相同的对象。下文还可能包括其他明确的和隐含的定义。
[0020]应理解,当用户通过在诸如手机或计算机等的计算设备上设置的文本识别模型或应用来识别某个原始图像中的字符序列时,传统的文本识别模型通常会基于诸如CRNN(Convolutional Recurrent Neural Network,卷积循环神经网络)、ASTER(Attentional Scene Text Recognition with Flexible Rectification,具有灵活修正的注意力场景文本识别)等技术、或者借助语言模型的先验信息来优化识别得到的字符序列的结果。然而,如上所述,对于诸如有遮挡、光照不均匀、有艺术字符等的情况,上述传统的文本识别技术的识别结果均不令人满意。尤其是,上述传统的文本识别技术仅是基于获取的视觉信息以及少量的语言模型先验信息来确定经识别的字符序列,由于虑及的有效信息过少,字符序列的识别结果经常不能令人满意。
[0021]如上文提及的,需要一种改进的字符序列识别方案,其能够在对没有提供足够视觉信息的原始图片进行字符序列识别时提供较高的识别正确率。
[0022]根据本公开的实施例,提出了一种用于确定字符序列的方案。在该方案中,可以预先训练一个字符识别模型,并通过该字符识别模型确定原始图像的识别结果,即目标字符
序列。具体地,可以利用预先确定的训练数据集来训练字符识别模型,该训练数据集可以包含作为模型的输入的参考字符特征数据以及作为模型的输出的对应的经标注的参考字符分类信息。应理解,在从原始图像中提取视觉信息的过程中,可以确定原始图像的图像特征数据。
[0023]与此同时,在确定了目标字符序列之后,可以对该目标字符序列进行编码,从而获得包含字符特征信息以及字符序列特征信息(即,表示各字符间的组合关系的信息)的字符特征数据。基于上述图像特征数据和字符特征数据,可以确定一个准确率不低于上述经识别的目标字符序列的识别结果,从而实现了识别结果的优化。
[0024]以此方式,实现了对图像中的文本的识别过程,并可以基于来自图像的视觉信息以及来自字符间的组合关系的语义信息来自动地对识别的字符序列进行优化更新,从而提升了字符序列识别结果的正确率,改善了用户体验。
[0025]在本公开中,为了有效地利用本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种用于确定字符序列的方法,包括:确定原始图像的图像特征数据;基于所述图像特征数据确定第一字符特征数据,所述第一字符特征数据至少包括所述原始图像中包括的多个字符的相应字符特征数据;基于所述第一字符特征数据,确定由所述多个字符组成的目标字符序列;从所述目标字符序列中获取第二字符特征数据,所述第二字符特征数据包含字符特征信息和字符序列特征信息;以及基于所述图像特征数据和所述第二字符特征数据,确定所述多个字符的更新的目标字符序列。2.根据权利要求1所述的方法,其中所述第一字符特征数据包括冗余的字符特征数据,并且其中确定所述目标字符序列包括:基于所述第一字符特征数据获取冗余分类信息,以确定包含冗余字符的字符序列;以及响应于所述包含冗余字符的字符序列中的字符组合命中备选字符序列的概率大于阈值概率,将所述备选字符序列确定为所述目标字符序列。3.根据权利要求1所述的方法,其中确定所述更新的目标字符序列包括:通过将所述图像特征数据和所述第二字符特征数据输入注意图模型,确定所述多个字符的注意力掩码信息;基于所述图像特征数据和所述注意力掩码信息,确定所述第三字符特征数据;以及基于所述第三字符特征数据,确定所述多个字符的分类信息,以确定所述更新的目标字符序列。4.根据权利要求1所述的方法,其中确定所述图像特征数据包括:通过利用第一网络对所述原始图像进行处理,确定所述原始图像的特征图,作为所述图像特征数据。5.根据权利要求4所述的方法,其中所述第一网络是卷积神经网络。6.根据权利要求3所述的方法,其中确定所述第三字符特征数据包括:利用所述注意力掩码信息对所述图像特征数据进行掩码处理,以确定分别对应于所述多个字符的多个特征向量,作为所述第三字符特征数据。7.根据权利要求6所述的方法,其中确定所述多个字符的分类信息包括:利用神经网络中的第二网络基于所述多个特征向量确定所述多个字符的分类信息。8.根据权利要求7所述的方法,其中所述第二网络是全连接网络。9.根据权利要求3所述的方法,其中确定所述多个字符的分类信息包括:将所述第三字符特征数据应用于字符识别模型以确定所述多个字符的分类信息,所述字符识别模型是将被设置的参考字符特征数据作为输入以及对应的经标注的参考字符分类信息作为输出来训练得到的。10.根据权利要求3所述的方法,其中所述注意图模型是将参考字符特征数据、参考图像特征数据作为输入以及将对应的经标注的参考注意力掩码信息作为输出来训练得到的。11.根据权利要求1所述的方法,其中从所述目标字符序列中获取所述第二字符特征数据包括:
通过对每个字符进行编码,确定所述字符特征信息;以及基于每个字符与所述目标字符序列中的其他字符的组合关系,确定所述字符序列特征信息。12.一种用于确定字符序列的装置,包括:图像特征数据确定模块,被配置为确定原始图像的图像特征数据;第一字符特征数据确定模块,被配置为基于所述图像特征数据确定第一字符特征数据,所述第一字符特征数据至少包括所述原始图像中包括的多个字符的相应字符特征数据;目标字符序列确定模块,被配置为基于所述第一字符特征数据,确定由所述多个字符组成的目标字符序列;第二字符特征数据获取模块,被配置为从所述目标字符序列中获取第二字符特征数据,所述第二字符特征...

【专利技术属性】
技术研发人员:吕鹏原李景泉章成全姚锟韩钧宇刘经拓丁二锐吴甜王海峰
申请(专利权)人:北京百度网讯科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1