一种图像文本的选取方法、装置、电子设备和存储介质制造方法及图纸

技术编号：33837417 阅读：23 留言：0更新日期：2022-06-16 11:56

本申请提供了一种图像文本的选取方法、装置、电子设备和存储介质，属于文字识别技术领域。所述方法包括：获取目标图像和所述目标图像对应的图像文本，其中，所述图像文本包括至少一个子文本；将所述目标图像和所述图像文本输入目标识别模型，得到所述目标识别模型输出的每个子文本的注意力分数，其中，所述注意力分数用于指示所述子文本和所述目标图像之间的关联度；从所述子文本中选取出注意力分数大于预设分数阈值的目标子文本，其中，所述目标子文本能够体现所述目标图像的内容。本申请提高了场景的适用范围。高了场景的适用范围。高了场景的适用范围。

全部详细技术资料下载

【技术实现步骤摘要】
一种图像文本的选取方法、装置、电子设备和存储介质

[0001]本申请涉及文字识别
，尤其涉及一种图像文本的选取方法、装置、电子设备和存储介质。

技术介绍

[0002]OCR是一种将图像中的文字进行定位并提取的技术，这种技术方法可以将图像中的文字信息进行有效的提取，如名片中的姓名和联系方式，发票图像中的金额税号等，这类图像中的文字位置和文字非常规整。随着互联网信息的增多，OCR技术也被应用在了更加复杂的业务场景上，用于对样式复杂的图像进行文字提取。但这些图像存在背景复杂，文字格式多样化的情况，这导致OCR识别会出现很多无用信息，示例性地，线上售卖物品的图片背景复杂，一些图片中的文字使用艺术字体，某些敏感文字使用拼音简称等，OCR无法准确识别这些文字，导致识别出来的文字为无用信息。
[0003]目前采用的解决方法为：设置固定规则去掉图像上的某些字符。例如，使用固定规则将英文字符去除只保留中文字符；将图像中的水印或者LOGO等去除；使用中文的停用词词表将标点符号、停顿词和语气词等进行去除，那么剩下的图像文本为图像中的有效文本。
[0004]目前采用的方法需要针对特定场景进行特殊规则设定，无法适用于全部场景，导致场景适用范围小。

技术实现思路

[0005]本申请实施例的目的在于提供一种图像文本的选取方法、装置、电子设备和存储介质，以解决场景适用范围小的问题。具体技术方案如下：
[0006]第一方面，提供了一种图像文本的选取方法，所述方法包括：
[0007]获取目标图像和所...

【技术保护点】

【技术特征摘要】
1.一种图像文本的选取方法，其特征在于，所述方法包括：获取目标图像和所述目标图像对应的图像文本，其中，所述图像文本包括至少一个子文本；将所述目标图像和所述图像文本输入目标识别模型，得到所述目标识别模型输出的每个子文本的注意力分数，其中，所述注意力分数用于指示所述子文本和所述目标图像之间的关联度；从所述子文本中选取出注意力分数大于预设分数阈值的目标子文本，其中，所述目标子文本能够体现所述目标图像的内容。2.根据权利要求1所述的方法，其特征在于，将所述目标图像和所述图像文本输入目标识别模型之前，所述方法还包括：获取正样本对和负样本对，其中，所述正样本对包括第一样本图像和所述第一样本图像的内容相关联的第一样本文本，所述负样本对包括第二样本图像和所述第二样本图像的内容无关联的第二样本文本；将所述正样本对和所述负样本对输入初始识别模型，对所述初始识别模型进行模型训练；将测试样本对输入训练后的初始识别模型，得到识别结果，其中，所述识别结果用于指示所述测试样本对为正样本对或负样本对；在所述识别结果与所述测试样本的样本标签不相同的情况下，调整所述初始识别模型的模型参数，得到目标识别模型，其中，所述目标识别模型输出的识别结果与所述测试样本的样本标签相同。3.根据权利要求2所述的方法，其特征在于，将所述正样本对和所述负样本对输入初始识别模型之前，所述方法还包括：根据跨注意力网络构建transformer网络，其中，所述跨注意力网络用于学习文本和图像之间的注意力关系；基于至少一层transformer网络构建所述初始识别模型。4.根据权利要求3所述的方法，其特征在于，根据跨注意力网络构建transformer结构包括：获取自注意力网络，其中，所述自注意力网络用于学习文本中词汇之间的注意力关系和图像中区域图像之间的注意力关系，所述图像能够划分为至少两个区域图像；根据所述跨注意力网络和所述自注意力网络构建transformer网络。5.根...

【专利技术属性】
技术研发人员：朱彦浩，胡郡郡，唐大闰，
申请(专利权)人：北京明略昭辉科技有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人