文本确定方法、装置、电子设备和计算机可读存储介质制造方法及图纸

技术编号:29975769 阅读:56 留言:0更新日期:2021-09-08 10:00
本公开提供了文本确定方法、装置、电子设备和计算机可读存储介质,涉及人工智能技术领域,具体为计算机视觉和深度学习技术领域,可应用于智慧城市、智慧金融场景下。具体实现方案为:确定原始图像的图像特征数据;基于图像特征数据,确定原始图像中包括的多个字符的字符特征数据;基于字符特征数据,确定多个字符的分类信息;以及通过基于多个字符的分类信息确定由多个字符组成的备选文本,确定对应于备选文本的目标文本。以此方式,本公开的技术方案可以在对没有提供足够视觉信息的原始图片进行文本识别时提供较高的识别正确率。进行文本识别时提供较高的识别正确率。进行文本识别时提供较高的识别正确率。

【技术实现步骤摘要】
文本确定方法、装置、电子设备和计算机可读存储介质


[0001]本公开涉及人工智能
,具体为计算机视觉和深度学习
,可应用于智慧城市、智慧金融场景下,例如涉及文本确定方法、装置、电子设备、计算机可读存储介质和计算机程序产品。

技术介绍

[0002]在工业、服务业等智能化的趋势下,自然场景下的文字检测识别技术(例如,光学字符识别技术,Optical Character Recognition,简称“OCR”)已经被广泛的应用于社会各个行业,如金融、教育、医疗等领域。文档录入、发票识别、车牌识别、证件识别等文字检测识别的具体应用,提高了各行各业的工作效率、简化了用户的操作流程。虽然一些高性能的文字检测识别方法在通用场景下的识别率已经达到90%以上,但对于有遮挡、光照不均匀、有艺术字符等的情况,目前的识别技术通常会存在识别错误、漏识别等问题。

技术实现思路

[0003]本公开提供了一种文本确定方法、装置、电子设备、计算机可读存储介质和计算机程序产品。
[0004]根据本公开的第一方面,提供了一种文本确定方法。该方法可以包括确定原始图像的图像特征数据。进而,可以基于图像特征数据,确定原始图像中包括的多个字符的字符特征数据。该方法还可以包括基于字符特征数据,确定多个字符的分类信息。此外,该方法可以进一步包括通过基于多个字符的分类信息确定由多个字符组成的备选文本,确定对应于备选文本的目标文本。
[0005]在本公开的第二方面中,提供了一种文本确定装置,包括:图像特征数据确定模块,被配置为确定原始图像的图像特征数据;字符特征数据确定模块,被配置为基于图像特征数据确定原始图像中包括的多个字符的字符特征数据;分类信息确定模块,被配置为基于字符特征数据确定多个字符的分类信息;以及目标文本确定模块,被配置为通过基于多个字符的分类信息确定由多个字符组成的备选文本来确定对应于备选文本的目标文本。
[0006]在本公开的第三方面中,提供了一种电子设备,包括一个或多个处理器;以及存储装置,用于存储一个或多个程序,当一个或多个程序被一个或多个处理器执行,使得一个或多个处理器实现根据本公开的第一方面的方法。
[0007]在本公开的第四方面中,提供了一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现根据本公开的第一方面的方法。
[0008]在本公开的第五方面中,提供了一种计算机程序产品,计算机程序在被处理器执行时实现根据本公开的第一方面的方法。
[0009]应当理解,本部分所描述的内容并非旨在标识本公开的实施例的关键或重要特征,也不用于限制本公开的范围。本公开的其它特征将通过以下的说明书而变得容易理解。
附图说明
[0010]附图用于更好地理解本方案,不构成对本公开的限定。其中:
[0011]图1示出了本公开的多个实施例能够在其中实现的示例环境的示意图;
[0012]图2示出了根据本公开的实施例的详细示例环境的示意图;
[0013]图3示出了根据本公开的实施例的文本确定的过程的流程图;
[0014]图4示出了根据本公开的实施例的经卷积神经网络处理的图像特征数据的示意图;
[0015]图5示出了根据本公开的实施例的文本确定装置的框图;以及
[0016]图6示出了能够实施本公开的多个实施例的计算设备的框图。
具体实施方式
[0017]以下结合附图对本公开的示范性实施例做出说明,其中包括本公开实施例的各种细节以助于理解,应当将它们认为仅仅是示范性的。因此,本领域普通技术人员应当认识到,可以对这里描述的实施例做出各种改变和修改,而不会背离本公开的范围和精神。同样,为了清楚和简明,以下的描述中省略了对公知功能和结构的描述。
[0018]在本公开的实施例的描述中,术语“包括”及其类似用语应当理解为开放性包含,即“包括但不限于”。术语“基于”应当理解为“至少部分地基于”。术语“一个实施例”或“该实施例”应当理解为“至少一个实施例”。术语“第一”、“第二”等等可以指代不同的或相同的对象。下文还可能包括其他明确的和隐含的定义。
[0019]应理解,当用户通过在诸如手机或计算机等的计算设备上设置的文本识别模型或应用来识别某个原始图像中的文本信息时,传统的文本识别模型通常会基于诸如CRNN,ASTER等技术、或者借助语言模型的先验信息来优化文本识别的效果。然而,如上所述,对于诸如有遮挡、光照不均匀、有艺术字符等的情况,上述传统的文本识别技术的识别结果均不令人满意。
[0020]如上文提及的,需要一种改进的文本识别方案,其能够在对没有提供足够视觉信息的原始图片进行文本识别时提供较高的识别正确率。
[0021]根据本公开的实施例,提出了一种文本确定方案。在该方案中,可以在预先训练一个字符识别模型的同时,附加地训练一个语义纠错模型,从而对识别出的字符序列进行语义纠错。以此方式,实现了对图像中的文本的识别过程,并可以自动地对识别的文本进行语义纠错,从而提升了文本识别的正确率,改善了用户体验。
[0022]以下将参照附图来具体描述本公开的实施例。图1示出了本公开的多个实施例能够在其中实现的示例环境100的示意图。如图1所示,示例环境100中包含待识别的原始图像110、计算设备120和经计算设备120确定的目标文本130。
[0023]在一些实施例中,待识别的原始图像110可以是用户通过诸如手机、平台电脑、个人计算机等计算设备输入或采集的一帧或多帧图片。备选地或附加地,原始图像110还可以是从一段视频文件中提取或截取的图像。作为示例,用户可以通过安装在手机上的图像识别应用输入待识别的原始图像110。
[0024]在一些实施例中,计算设备120可以包括但不限于个人计算机、服务器计算机、手持或膝上型设备、移动设备(诸如移动电话、个人数字助理PDA、媒体播放器等)、消费电子产
品、小型计算机、大型计算机、云计算资源等。
[0025]如图1所示,计算设备120中布置有字符识别模型140和语义纠错模型150。应理解,字符识别模型140和语义纠错模型150均是经过训练得到的人工智能网络模型。在计算设备120接收到用户输入的原始图像110之后,字符识别模型140可以对原始图像110进行图片特征编码操作、进而确定原始图像110中包含的每个字符的字符特征、最终基于字符特征来识别这些字符特征。
[0026]当识别出原始图像110中的这些字符特征后,由于需要虑及由于各种外因或内因导致的误识别或漏识别的情况,故还需要对这些识别得到的字符的序列进行语义纠错操作。因此,语义纠错模型150被配置为对上述识别得到的字符序列进行语义纠错。也就是说,上述识别得到的字符序列会作为备选文本被输入到语义纠错模型150中,以便确定目标文本130。作为示例,如果经字符识别模型140识别得到的字符序列为“Hallo”(即,备选文本),语义纠错模型150可以将其纠正为“Hello”(即,目标文本130)。作为另一示例本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种文本确定方法,包括:确定原始图像的图像特征数据;基于所述图像特征数据,确定所述原始图像中包括的多个字符的字符特征数据;基于所述字符特征数据,确定所述多个字符的分类信息;以及通过基于所述多个字符的分类信息确定由所述多个字符组成的备选文本,确定对应于所述备选文本的目标文本。2.根据权利要求1所述的方法,其中确定所述图像特征数据包括:通过第一网络对所述原始图像进行处理,确定所述原始图像的特征图,作为所述图像特征数据。3.根据权利要求2所述的方法,其中所述第一网络是卷积神经网络。4.根据权利要求2所述的方法,其中确定所述字符特征数据包括:基于所述特征图确定所述多个字符所在的区域;以及基于所述特征图中的对应于所述区域的特征数据,确定分别对应于所述多个字符的多个特征向量,作为所述字符特征数据。5.根据权利要求4所述的方法,其中确定所述多个字符的分类信息包括:利用第二网络基于所述多个特征向量确定所述多个字符的分类信息。6.根据权利要求5所述的方法,其中所述第二网络是全连接网络。7.根据权利要求1所述的方法,其中确定所述多个字符的分类信息包括:将所述字符特征数据应用于字符识别模型以确定所述多个字符的分类信息,所述字符识别模型是将被设置的参考字符特征数据作为输入以及对应的经标注的参考字符分类信息作为输出来训练得到的。8.根据权利要求1所述的方法,其中确定所述目标文本包括:将所述备选文本应用于语义纠错模型;以及从所述语义纠错模型中获取经确定的所述目标文本。9.根据权利要求8所述的方法,其中所述语义纠错模型是将被设置的参考备选文本作为输入以及将经标注的参考目标文本作为输出来训练得到的,所述参考备选文本是基于所述参考目标文本修改后的文本。10.一种文本确定装置,包括:图像特征数据确定模块,被配置为确定原始图像的图像特征数据;字符特征数据确定模块,被配置为基于所述图像特征数据确定所述原始图像中包括的多个字符的字符特征数据;分类信息确定模块,被配置为基于所述字符特征数据确定所述多个字符的分类信息;以及目标文本确定模块,被配置为通过基于所述多个字符的分类信息确定由所述多个字符组成的备选文本来确定对应于所述备选文本的目标文本。11.根...

【专利技术属性】
技术研发人员:吕鹏原李景泉章成全姚锟韩钧宇刘经拓丁二锐吴甜王海峰
申请(专利权)人:北京百度网讯科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1