识别图像中文本的方法、装置和系统制造方法及图纸

技术编号:29278071 阅读:26 留言:0更新日期:2021-07-16 22:56
本申请实施例提供一种识别图像中文本的方法、装置和系统,该方法包括:根据多种识别方法,获取图像中待识别文本的多个识别结果;获取各该识别结果的语义信息;获取该图像的特征信息,该图像的特征信息能够表征该图像中该待识别文本周围的信息;根据该图像的特征信息以及该多个识别结果的语义信息,从该多个识别结果中确定该待识别文本的目标识别结果。本申请实施例中由于在从多个识别结果中确定最准确的识别结果时结合了能够表征在图像中待识别文本周围的信息的图像特征信息,那么识别结果中包括图像特征信息的识别结果就可以被识别出来,因此可以提高从多个识别结果中确定最准确的识别结果的准确度,即可以获取精确的识别结果。结果。结果。

Method, device and system for recognizing text in image

【技术实现步骤摘要】
识别图像中文本的方法、装置和系统


[0001]本申请涉及计算机技术,尤其涉及一种识别图像中文本的方法、装置和系统。

技术介绍

[0002]光学字符识别(optical character recognition,简称OCR),是通过扫描等光学输入方式将各种票据、报刊、书籍、文稿及其它印刷品上的文本转化成图像,再利用文字识别技术识别图像中的文本,以将印刷品上的文本转化为计算机可编辑的文本的技术,也可以说是识别图像中文本的技术。该技术可应用于银行票据、大量文字资料、档案卷宗以及文案的录入和处理领域。
[0003]目前存在多种识别图像中文本的方法,比如得到识别结果后采用自然语言处理(natural language processing,简称NLP)纠错算法,对识别结果进行纠错以得到最终的识别结果的方法。但是目前识别图像中文本的方法均不能得到精确的文本识别结果。

技术实现思路

[0004]本申请实施例提供一种识别图像中文本的方法、装置和系统,可以得到精确的文本识别结果。
[0005]第一方面,本申请实施例提供一种识别图像中文本的方法,包括:根据多种识别方法,获取图像中待识别文本的多个识别结果;获取各所述识别结果的语义信息;获取所述图像的特征信息,所述图像的特征信息能够表征所述图像中所述待识别文本周围的信息;根据所述图像的特征信息以及所述多个识别结果的语义信息,从所述多个识别结果中确定所述待识别文本的目标识别结果。其中,目标识别结果为多个识别结果中准确度高于其它识别结果的识别结果。
[0006]本方案中,采用多种方法得到多个识别结果后,根据各识别结果的语义信息和能够表征在图像中待识别文本周围的信息的图像特征信息,从多个识别结果中确定准确度高于其它识别结果的识别结果(为了后续表述的方便,本实施例中称多个识别结果中准确度高于其它识别结果的识别结果为最准确的识别结果),将确定的最准确的识别结果作为图像中文本的识别结果。由于在从多个识别结果中确定最准确的识别结果时结合了能够表征在图像中待识别文本周围的信息的图像特征信息,那么识别结果中包括图像特征信息的识别结果就可以被识别出来,因此可以提高从多个识别结果中确定最准确的识别结果的准确度,即可以得到精确的文本识别结果。
[0007]在一种可能的实施方式中,所述识别结果的语义信息包括:所述识别结果中的命名实体信息以及所述识别结果中所包括的各词之间的语义关联信息。
[0008]本方案中的语义信息包括了识别结果中的命名实体信息,使得本方案中获取到的识别结果中的语义信息比较精确。
[0009]在一种可能的实施方式中,所述获取所述图像的特征信息,包括:获取所述图像包括的内容在所述图像中的布局特征信息;获取所述待识别文本在所述图像中的位置特征信
息;根据所述布局特征信息和所述待识别文本在所述图像中的位置特征信息,获取所述图像的特征信息。
[0010]本方案提供了获取图像的特征信息的一种具体实现,本方案得到的图像的特征信息能够表征图像中待识别文本周围的信息,进而可以辅助基于各识别结果的语义信息从各识别结果中确定最准确的识别结果的准确度。
[0011]在一种可能的实施方式中,所述根据所述布局特征信息和所述待识别文本在所述图像中的位置特征信息,获取所述图像的特征信息,包括:融合所述布局特征信息和所述待识别文本在图像中的位置特征信息,得到所述图像的初选特征信息;对所述图像的初选特征信息进行池化处理,得到所述图像的预选特征信息;合并所述图像的预选特征信息和所述待识别文本在图像中的位置特征信息,得到所述图像的特征信息。
[0012]本方案中提供了根据布局特征信息和待识别文本在图像中的位置特征信息,获取图像的特征信息的一种具体实现。
[0013]在一种可能的实施方式中,所述根据所述图像的特征信息以及所述多个识别结果的语义信息,从所述多个识别结果中确定目标识别结果,包括:将所述图像的特征信息以及各所述识别结果的语义信息作为基于注意力机制的神经网络模型的输入,经基于注意力机制的神经网络算法后输出目标标签,所述目标标签指示各所述识别结果为所述目标识别结果的概率;根据所述目标标签与各预设标签之间的相似度,从所述多个识别结果中确定所述待识别文本的目标识别结果,其中,每个预设标签对应一种识别方法得到的识别结果。
[0014]本方案中提供了根据图像的特征信息以及多个识别结果的语义信息,从多个识别结果中确定目标识别结果的一种具体实现。本方案可以提高从各识别结果中确定最准确的识别结果的准确度。
[0015]在一种可能的实施方式中,所述识别结果的语义信息是基于第一机器学习模型获取的;在所述获取所述多个识别结果的语义信息之前,还包括:获取多个第一训练样本以及每个第一训练文本的标签,所述第一训练文本的标签用于指示所述第一训练样本对应的命名实体信息;根据所述多个第一训练样本、所述多个第一训练样本的标签、多个第一训练样本分别被掩埋部分信息后得到的多个第二训练样本、各所述被掩埋的信息,训练所述第一机器学习模型。可选地,训练所述第一机器学习模型所采用的损失函数包括第一损失函数与第二损失函数,包括:所述第一损失函数为与预测所述第一训练样本的命名实体信息相关的损失函数,所述第二损失函数为与预测所述被掩埋的信息相关的损失函数。
[0016]本方案中训练第一机器学习模型的方法,可以使得得到的第一机器学习模型具有获取到识别结果的命名实体信息和包括的各词之间的语义关联信息的能力。
[0017]在一种可能的实施方式中,所述图像包括的内容在所述图像中的布局特征信息是基于第二机器学习模型得到的,所述第二机器学习模型所对应的神经网络包括如下的至少一种子网络:卷积子网络、空洞卷积子网络、可变形卷积子网络。
[0018]本方案可以提高获取到的图像包括的内容在所述图像中的布局特征信息的准确度,进而提高从各识别结果中确定最准确的识别结果的准确度。
[0019]在一种可能的实施方式中,所述待识别文本在所述图像中的位置特征信息是基于第三机器学习模型得到的,所述第三机器学习模型所对应的神经网络包括:卷积子网络,可选地,所述第三机器学习模型所对应的神经网络还包括空间金字塔池化子网络。
[0020]本方案中卷积子网络的使用可以得到比较准确的待识别文本在所述图像中的位置特征信息。在所述第三机器学习模型所对应的神经网络包括空间金字塔池化子网络时,还可实现所述图像包括的内容在所述图像中的布局特征信息和所述待识别文本在所述图像中的位置特征信息的正常融合。
[0021]第二方面,本申请实施例提供一种电子设备,包括:至少一个处理器;以及与所述至少一个处理器通信连接的存储器;其中,所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行第一方面或者第一方面任一可能的实施方式中所述的方法。
[0022]第三方面,本申请实施例提供一种识别图像中文本的系统,包括第一设备和第二设备;
[0023]本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种识别图像中文本的方法,其特征在于,包括:根据多种识别方法,获取图像中待识别文本的多个识别结果;获取各所述识别结果的语义信息;获取所述图像的特征信息,所述图像的特征信息能够表征所述图像中所述待识别文本周围的信息;根据所述图像的特征信息以及所述多个识别结果的语义信息,从所述多个识别结果中确定所述待识别文本的目标识别结果。2.根据权利要求1所述的方法,其特征在于,所述识别结果的语义信息包括:所述识别结果中的命名实体信息以及所述识别结果中所包括的各词之间的语义关联信息。3.根据权利要求1或2所述的方法,其特征在于,所述获取所述图像的特征信息,包括:获取所述图像包括的内容在所述图像中的布局特征信息;获取所述待识别文本在所述图像中的位置特征信息;根据所述布局特征信息和所述待识别文本在所述图像中的位置特征信息,获取所述图像的特征信息。4.根据权利要求3所述的方法,其特征在于,所述根据所述布局特征信息和所述待识别文本在所述图像中的位置特征信息,获取所述图像的特征信息,包括:融合所述布局特征信息和所述待识别文本在图像中的位置特征信息,得到所述图像的初选特征信息;对所述图像的初选特征信息进行池化处理,得到所述图像的预选特征信息;合并所述图像的预选特征信息和所述待识别文本在图像中的位置特征信息,得到所述图像的特征信息。5.根据权利要求1~4任一项所述的方法,其特征在于,所述根据所述图像的特征信息以及所述多个识别结果的语义信息,从所述多个识别结果中确定目标识别结果,包括:将所述图像的特征信息以及各所述识别结果的语义信息作为基于注意力机制的神经网络模型的输入,经基于注意力机制的神经网络算法后输出目标标签,所述目标标签指示各所述识别结果为所述目标识别结果的概率;根据所述目标标签与各预设标签之间的相似度,从所述多个识别结果中确定所述待识别文本的目标识别结果,其中,每个预设标签对应一种识别方法得到的识别结果。6.根据权利要求1~5任一项所述的方法,其特征在于,所述识别结果的语义信息是基于第一机器学习模型获取的;在所述获取各所述识别结果的语义信息之前,还包括:获取多个第一训练样本以及每个第一训练文本的标签,所述第一训练文本的标签用于指示所述第一训练样本对应的命名实体信息;根据所述多个第一训练样本、所述多个第一训练样本的标签、多个第一训练样本分别被掩埋部分信息后得到的多个第二训练样本、各所述被掩埋的信息,训练所述第一机器学习模型。7.根据权利要求6所述的方法,其特征在于,训练所述第一机器学习模型时所采用的损失函数包括第一损失函数与第二损失函数,包括:所述第一损失函数为与预测所述第一训练样本的命名实体信息相关的损失函数,所述第二损失函数为与预测所述被掩埋的信息相关的损失函数。
8.根据权利要求3所述的方法,其特征在于,所述图像包括的内容在所述图像中的布局特征信息是基于第二机器学习模型得到的,所述第二机器学习模型所对应的神经网络包括如下的至少一种子网络:卷积子网络、空洞卷积子网络、可变形卷积子网络。9.根据权利要求3或8所述的方法,其特征在于,所述待识别文本在所述图像中的位置特征信息是基于第三机器学习模型得到的,所述第三机器学习模型所对应的神经网络包括:卷积子网络。10.根据权利要求9所述的方法,其特征在于,所述第三机器学习模型所对应的神经网络还包括空间金字塔池化子网络。11.一种电子设备,其特征在于,包括:至少一个处理器;以及与所述至少一个处理器通信连接的存储器;其中,所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行权利要求1-10中任一项所述的方法。12.一种识别图像中文本的系统,其特征在于,包括第一设备和第二设备;所述第一设备用于:向所述第二设备发送至少一个机器学习模型;所述第二设备用于:根据多种识别方法,获取图像中待识别文本的多个识别结果;基于多个机器学习模型,获取各所述识别结果的语义信息、获取所述图像的特征信息,以及根据所述特征信息和所述语义信息从所述多个识别结果中确定目标识别结果;所述图像的特征信息能够表征所述图像中所述待识别文本周围的...

【专利技术属性】
技术研发人员:都林沈驰雄潘乐萌
申请(专利权)人:华为技术有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1