一种图像文本的选取方法、装置、电子设备和存储介质制造方法及图纸

技术编号:33837417 阅读:23 留言:0更新日期:2022-06-16 11:56
本申请提供了一种图像文本的选取方法、装置、电子设备和存储介质,属于文字识别技术领域。所述方法包括:获取目标图像和所述目标图像对应的图像文本,其中,所述图像文本包括至少一个子文本;将所述目标图像和所述图像文本输入目标识别模型,得到所述目标识别模型输出的每个子文本的注意力分数,其中,所述注意力分数用于指示所述子文本和所述目标图像之间的关联度;从所述子文本中选取出注意力分数大于预设分数阈值的目标子文本,其中,所述目标子文本能够体现所述目标图像的内容。本申请提高了场景的适用范围。高了场景的适用范围。高了场景的适用范围。

【技术实现步骤摘要】
一种图像文本的选取方法、装置、电子设备和存储介质


[0001]本申请涉及文字识别
,尤其涉及一种图像文本的选取方法、装置、电子设备和存储介质。

技术介绍

[0002]OCR是一种将图像中的文字进行定位并提取的技术,这种技术方法可以将图像中的文字信息进行有效的提取,如名片中的姓名和联系方式,发票图像中的金额税号等,这类图像中的文字位置和文字非常规整。随着互联网信息的增多,OCR技术也被应用在了更加复杂的业务场景上,用于对样式复杂的图像进行文字提取。但这些图像存在背景复杂,文字格式多样化的情况,这导致OCR识别会出现很多无用信息,示例性地,线上售卖物品的图片背景复杂,一些图片中的文字使用艺术字体,某些敏感文字使用拼音简称等,OCR无法准确识别这些文字,导致识别出来的文字为无用信息。
[0003]目前采用的解决方法为:设置固定规则去掉图像上的某些字符。例如,使用固定规则将英文字符去除只保留中文字符;将图像中的水印或者LOGO等去除;使用中文的停用词词表将标点符号、停顿词和语气词等进行去除,那么剩下的图像文本为图像中的有效文本。
[0004]目前采用的方法需要针对特定场景进行特殊规则设定,无法适用于全部场景,导致场景适用范围小。

技术实现思路

[0005]本申请实施例的目的在于提供一种图像文本的选取方法、装置、电子设备和存储介质,以解决场景适用范围小的问题。具体技术方案如下:
[0006]第一方面,提供了一种图像文本的选取方法,所述方法包括:
[0007]获取目标图像和所述目标图像对应的图像文本,其中,所述图像文本包括至少一个子文本;
[0008]将所述目标图像和所述图像文本输入目标识别模型,得到所述目标识别模型输出的每个子文本的注意力分数,其中,所述注意力分数用于指示所述子文本和所述目标图像之间的关联度;
[0009]从所述子文本中选取出注意力分数大于预设分数阈值的目标子文本,其中,所述目标子文本能够体现所述目标图像的内容。
[0010]可选地,将所述目标图像和所述图像文本输入目标识别模型之前,所述方法还包括:
[0011]获取正样本对和负样本对,其中,所述正样本对包括第一样本图像和所述第一样本图像的内容相关联的第一样本文本,所述负样本对包括第二样本图像和所述第二样本图像的内容无关联的第二样本文本;
[0012]将所述正样本对和所述负样本对输入初始识别模型,对所述初始识别模型进行模型训练;
[0013]将测试样本对输入训练后的初始识别模型,得到识别结果,其中,所述识别结果用于指示所述测试样本对为正样本对或负样本对;
[0014]在所述识别结果与所述测试样本的样本标签不相同的情况下,调整所述初始识别模型的模型参数,得到目标识别模型,其中,所述目标识别模型输出的识别结果与所述测试样本的样本标签相同。
[0015]可选地,将所述正样本对和所述负样本对输入初始识别模型之前,所述方法还包括:
[0016]根据跨注意力网络构建transformer网络,其中,所述跨注意力网络用于学习文本和图像之间的注意力关系;
[0017]基于至少一层transformer网络构建所述初始识别模型。
[0018]可选地,根据跨注意力网络构建transformer结构包括:
[0019]获取自注意力网络,其中,所述自注意力网络用于学习文本中词汇之间的注意力关系和图像中区域图像之间的注意力关系,所述图像能够划分为至少两个区域图像;
[0020]根据所述跨注意力网络和所述自注意力网络构建transformer网络。
[0021]可选地,获取目标图像对应的图像文本之前,所述方法还包括:
[0022]通过OCR对所述目标图像进行文本识别,得到目标图像中的图像文本,其中,所述图像文本为所述目标图像中的全部文本。
[0023]第二方面,提供了一种图像文本的选取装置,所述装置包括:
[0024]获取模块,用于获取目标图像和所述目标图像对应的图像文本,其中,所述图像文本包括至少一个子文本;
[0025]输入输出模块,用于将所述目标图像和所述图像文本输入目标识别模型,得到所述目标识别模型输出的每个子文本的注意力分数,其中,所述注意力分数用于指示所述子文本和所述目标图像之间的关联度;
[0026]选取模块,用于从所述子文本中选取出注意力分数大于预设分数阈值的目标子文本,其中,所述目标子文本能够体现所述目标图像的内容。
[0027]可选地,该装置还用于:
[0028]根据跨注意力网络构建transformer网络,其中,所述跨注意力网络用于学习文本和图像之间的注意力关系;
[0029]基于至少一层transformer网络构建初始识别模型。
[0030]可选地,该装置还用于:
[0031]获取自注意力网络,其中,所述自注意力网络用于学习文本中词汇之间的注意力关系和图像中区域图像之间的注意力关系,所述图像能够划分为至少两个区域图像;
[0032]根据所述跨注意力网络和所述自注意力网络构建transformer网络。
[0033]第三方面,提供了一种电子设备,包括处理器、通信接口、存储器和通信总线,其中,处理器,通信接口,存储器通过通信总线完成相互间的通信;
[0034]存储器,用于存放计算机程序;
[0035]处理器,用于执行存储器上所存放的程序时,实现任一所述的图像文本的选取方法步骤。
[0036]第四方面,提供了一种计算机可读存储介质,所述计算机可读存储介质内存储有
计算机程序,所述计算机程序被处理器执行时实现任一所述的图像文本的选取方法步骤。
[0037]本申请实施例有益效果:
[0038]本申请应用于深度学习
中的计算机视觉,本申请实施例提供了一种图像文本的选取方法,在本申请中,服务器通过目标识别模型,确定目标图像中每个子文本的注意力分数,然后将注意力分数大于预设分数阈值的子文本作为目标子文本。由于注意力分数能够指示子文本和目标图像之间的关联度,因此,目标子文本与目标图像的关联度较高,目标子文本能够体现目标图像的内容。
[0039]本申请采用目标识别模型进行目标子文本的选取,该目标识别模型适用于任何场景,不受规则的约束,提高了场景的适用范围。另外,本申请无需设置规则,提高了文字选取的效率。最后,本申请选取出和目标图像的内容相关联的目标子文本,最大程度上保留了图像文本中的语义内容。
[0040]当然,实施本申请的任一产品或方法并不一定需要同时达到以上的所有优点。
附图说明
[0041]为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,对于本领域普通技术人员而言,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
[0042]图1为本申请实施例提供的一种图像文本的选取本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种图像文本的选取方法,其特征在于,所述方法包括:获取目标图像和所述目标图像对应的图像文本,其中,所述图像文本包括至少一个子文本;将所述目标图像和所述图像文本输入目标识别模型,得到所述目标识别模型输出的每个子文本的注意力分数,其中,所述注意力分数用于指示所述子文本和所述目标图像之间的关联度;从所述子文本中选取出注意力分数大于预设分数阈值的目标子文本,其中,所述目标子文本能够体现所述目标图像的内容。2.根据权利要求1所述的方法,其特征在于,将所述目标图像和所述图像文本输入目标识别模型之前,所述方法还包括:获取正样本对和负样本对,其中,所述正样本对包括第一样本图像和所述第一样本图像的内容相关联的第一样本文本,所述负样本对包括第二样本图像和所述第二样本图像的内容无关联的第二样本文本;将所述正样本对和所述负样本对输入初始识别模型,对所述初始识别模型进行模型训练;将测试样本对输入训练后的初始识别模型,得到识别结果,其中,所述识别结果用于指示所述测试样本对为正样本对或负样本对;在所述识别结果与所述测试样本的样本标签不相同的情况下,调整所述初始识别模型的模型参数,得到目标识别模型,其中,所述目标识别模型输出的识别结果与所述测试样本的样本标签相同。3.根据权利要求2所述的方法,其特征在于,将所述正样本对和所述负样本对输入初始识别模型之前,所述方法还包括:根据跨注意力网络构建transformer网络,其中,所述跨注意力网络用于学习文本和图像之间的注意力关系;基于至少一层transformer网络构建所述初始识别模型。4.根据权利要求3所述的方法,其特征在于,根据跨注意力网络构建transformer结构包括:获取自注意力网络,其中,所述自注意力网络用于学习文本中词汇之间的注意力关系和图像中区域图像之间的注意力关系,所述图像能够划分为至少两个区域图像;根据所述跨注意力网络和所述自注意力网络构建transformer网络。5.根...

【专利技术属性】
技术研发人员:朱彦浩胡郡郡唐大闰
申请(专利权)人:北京明略昭辉科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1