识别图像中文本的方法、装置和系统制造方法及图纸

技术编号：29278071 阅读：26 留言：0更新日期：2021-07-16 22:56

本申请实施例提供一种识别图像中文本的方法、装置和系统，该方法包括：根据多种识别方法，获取图像中待识别文本的多个识别结果；获取各该识别结果的语义信息；获取该图像的特征信息，该图像的特征信息能够表征该图像中该待识别文本周围的信息；根据该图像的特征信息以及该多个识别结果的语义信息，从该多个识别结果中确定该待识别文本的目标识别结果。本申请实施例中由于在从多个识别结果中确定最准确的识别结果时结合了能够表征在图像中待识别文本周围的信息的图像特征信息，那么识别结果中包括图像特征信息的识别结果就可以被识别出来，因此可以提高从多个识别结果中确定最准确的识别结果的准确度，即可以获取精确的识别结果。结果。结果。

Method, device and system for recognizing text in image

全部详细技术资料下载

【技术实现步骤摘要】
识别图像中文本的方法、装置和系统

[0001]本申请涉及计算机技术，尤其涉及一种识别图像中文本的方法、装置和系统。

技术介绍

[0002]光学字符识别(optical character recognition，简称OCR)，是通过扫描等光学输入方式将各种票据、报刊、书籍、文稿及其它印刷品上的文本转化成图像，再利用文字识别技术识别图像中的文本，以将印刷品上的文本转化为计算机可编辑的文本的技术，也可以说是识别图像中文本的技术。该技术可应用于银行票据、大量文字资料、档案卷宗以及文案的录入和处理领域。
[0003]目前存在多种识别图像中文本的方法，比如得到识别结果后采用自然语言处理(natural language processing，简称NLP)纠错算法，对识别结果进行纠错以得到最终的识别结果的方法。但是目前识别图像中文本的方法均不能得到精确的文本识别结果。

技术实现思路

[0004]本申请实施例提供一种识别图像中文本的方法、装置和系统，可以得到精确的文本识别结果。
[0005]第一方面，本申请实施例提供一种识别图像中文本的方法，包括：根据多种识别方法，获取图像中待识别文本的多个识别结果；获取各所述识别结果的语义信息；获取所述图像的特征信息，所述图像的特征信息能够表征所述图像中所述待识别文本周围的信息；根据所述图像的特征信息以及所述多个识别结果的语义信息，从所述多个识别结果中确定所述待识别文本的目标识别结果。其中，目标识别结果为多个识别结果中准确度高于其它识别结果的识别结果。
[...

【技术保护点】

【技术特征摘要】
1.一种识别图像中文本的方法，其特征在于，包括：根据多种识别方法，获取图像中待识别文本的多个识别结果；获取各所述识别结果的语义信息；获取所述图像的特征信息，所述图像的特征信息能够表征所述图像中所述待识别文本周围的信息；根据所述图像的特征信息以及所述多个识别结果的语义信息，从所述多个识别结果中确定所述待识别文本的目标识别结果。2.根据权利要求1所述的方法，其特征在于，所述识别结果的语义信息包括：所述识别结果中的命名实体信息以及所述识别结果中所包括的各词之间的语义关联信息。3.根据权利要求1或2所述的方法，其特征在于，所述获取所述图像的特征信息，包括：获取所述图像包括的内容在所述图像中的布局特征信息；获取所述待识别文本在所述图像中的位置特征信息；根据所述布局特征信息和所述待识别文本在所述图像中的位置特征信息，获取所述图像的特征信息。4.根据权利要求3所述的方法，其特征在于，所述根据所述布局特征信息和所述待识别文本在所述图像中的位置特征信息，获取所述图像的特征信息，包括：融合所述布局特征信息和所述待识别文本在图像中的位置特征信息，得到所述图像的初选特征信息；对所述图像的初选特征信息进行池化处理，得到所述图像的预选特征信息；合并所述图像的预选特征信息和所述待识别文本在图像中的位置特征信息，得到所述图像的特征信息。5.根据权利要求1～4任一项所述的方法，其特征在于，所述根据所述图像的特征信息以及所述多个识别结果的语义信息，从所述多个识别结果中确定目标识别结果，包括：将所述图像的特征信息以及各所述识别结果的语义信息作为基于注意力机制的神经网络模型的输入，经基于注意力机制的神经网络算法后输出目标标签，所述目标标签指示各所述识别结果为所述目标识别结果的概率；根据所述目标标签与各预设标签之间的相似度，从所述多个识别结果中确定所述待识别文本的目标识别结果，其中，每个预设标签对应一种识别方法得到的识别结果。6.根据权利要求1～5任一项所述的方法，其特征在于，所述识别结果的语义信息是基于第一机器学习模型获取的；在所述获取各所述识别结果的语义信息之前，还包括：获取多个第一训练样本以及每个第一训练文本的标签，所述第一训练文本的标签用于指示所述第一训练样本对应的命名实体信息；根据所述多个第一训练样本、所述多个第一训练样本的标签、多个第一训练样本分别被掩埋部分信息后得到的多个第二训练样本、各所述被掩埋的信息，训练所述第一机器学习模型。7.根据权利要求6所述的方法，其特征在于，训练所述第一机器学习模型时所采用的损失函数包括第一损失函数与第二损失函数，包括：所述第一损失函数为与预测所述第一训练样本的命名实体信息相关的损失函数，所述第二损失函数为与预测所述被掩埋的信息相关的损失函数。
8.根据权利要求3所述的方法，其特征在于，所述图像包括的内容在所述图像中的布局特征信息是基于第二机器学习模型得到的，所述第二机器学习模型所对应的神经网络包括如下的至少一种子网络：卷积子网络、空洞卷积子网络、可变形卷积子网络。9.根据权利要求3或8所述的方法，其特征在于，所述待识别文本在所述图像中的位置特征信息是基于第三机器学习模型得到的，所述第三机器学习模型所对应的神经网络包括：卷积子网络。10.根据权利要求9所述的方法，其特征在于，所述第三机器学习模型所对应的神经网络还包括空间金字塔池化子网络。11.一种电子设备，其特征在于，包括：至少一个处理器；以及与所述至少一个处理器通信连接的存储器；其中，所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行权利要求1-10中任一项所述的方法。12.一种识别图像中文本的系统，其特征在于，包括第一设备和第二设备；所述第一设备用于：向所述第二设备发送至少一个机器学习模型；所述第二设备用于：根据多种识别方法，获取图像中待识别文本的多个识别结果；基于多个机器学习模型，获取各所述识别结果的语义信息、获取所述图像的特征信息，以及根据所述特征信息和所述语义信息从所述多个识别结果中确定目标识别结果；所述图像的特征信息能够表征所述图像中所述待识别文本周围的...

【专利技术属性】
技术研发人员：都林，沈驰雄，潘乐萌，
申请(专利权)人：华为技术有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人