基于弱监督跨模态对比学习的场景文本检测与识别方法技术

技术编号:38469720 阅读:10 留言:0更新日期:2023-08-11 14:46
本发明专利技术提供基于弱监督跨模态对比学习的场景文本检测与识别方法,涉及图像处理技术领域。方法包括:将待识别图像输入至文本识别模型中的第一图像编码器得到第一图像特征图;基于第一图像特征图获取概率特征图、字符位置特征图以及字符语义特征图;基于概率特征图、字符位置特征图和字符语义特征图中确定待识别图像中的文本识别结果;文本识别模型是基于多组包括样本待识别图像以及样本待识别图像对应的第一文本内容标签和文本区域位置标签的第一训练数据训练得到的;文本区域位置标签是基于标签生成模型生成的,标签生成模型基于多组包括样本待标注图像以及样本待标注图像中的第二文本内容标签的第二训练数据训练得到。本发明专利技术可以降低标注成本。本发明专利技术可以降低标注成本。本发明专利技术可以降低标注成本。

【技术实现步骤摘要】
基于弱监督跨模态对比学习的场景文本检测与识别方法


[0001]本专利技术涉及图像处理
,尤其涉及基于弱监督跨模态对比学习的场景文本检测与识别方法。

技术介绍

[0002]场景文本检测识别的目的是检测和识别含有文本的场景图片中的文本实例。文本尺寸形状、排列方向的多样性以及场景的复杂性给 文本的定位带来一定的困难,同时文本实例中字符的顺序结构和字体的多样性给文本的识别带来一定的挑战。
[0003]针对场景文本检测识别任务,现有技术中在对模型进行训练时,除了需要数据集中文本实例的字符标注,还依赖于每个文本实例对应的文本框标注以作为监督信息进行训练,也就是说,不仅要对样本图像中的文本内容进行人工标注,还需要对文本位置进行人工标注,而后者导致了现有的场景文本检测识别方法需要高昂的数据集标注成本。

技术实现思路

[0004]本专利技术提供基于弱监督跨模态对比学习的场景文本检测与识别方法,用以解决现有技术中场景文本检测识别任务数据集标注成本高的缺陷,实现降低数据集标注成本。
[0005]本专利技术提供一种基于弱监督跨模态对比学习的场景文本检测与识别方法,包括:获取待识别图像,将所述待识别图像输入至已训练的文本识别模型中的第一图像编码器,获取所述第一图像编码器输出的第一图像特征图;将所述第一图像特征图分别输入至所述文本识别模型中的锚定估计器、采样模块和识别模块,获取所述锚定估计器输出的概率特征图、所述采样模块输出的字符位置特征图以及所述识别模块输出的字符语义特征图,其中,所述概率特征图中的像素点的值反映所述像素点所在的位置为文本区域的概率,所述字符位置特征图中的像素点对应的特征向量反映像素点与像素点所在的所述文本区域中包括的各个字符之间的像素距离,所述字符语义特征图中的像素点对应的特征向量反映像素点所在位置为各个预设字符的概率,每个所述文本区域中包括一个文本词,一个所述文本词由至少一个字符组成;基于所述概率特征图和所述字符位置特征图确定各个所述文本区域中的字符位置,基于所述文本区域中的字符位置在所述字符语义特征图中确定每个所述文本区域中的字符以确定所述待识别图像中的文本识别结果,所述文本识别结果中包括所述待识别图像中的各个所述文本区域的位置以及所述文本区域内的文本内容,每个所述文本区域中包含一个文本词;其中,所述文本识别模型是基于多组第一训练数据训练得到的,每组所述第一训练数据包括样本待识别图像以及所述样本待识别图像对应的第一文本内容标签和文本区域位置标签;所述样本待识别图像中的文本区域位置标签是基于已训练的标签生成模型生成的,所述标签生成模型基于多组第二训练数据训练得到,每组所述第二训练数据包括样本待标注图像以及所述样本待标注图像中的第二文本内容标签。
[0006]根据本专利技术提供的一种基于弱监督跨模态对比学习的场景文本检测与识别方法,基于所述标签生成模型生成所述文本区域位置标签的过程包括:将所述样本待识别图像输入至所述标签生成模型中的第二图像编码器,得到所述第二图像编码器输出的第二图像特征图,将所述样本待识别图像对应的所述第一文本内容标签输入至所述标签生成模型中的文本编码器,得到所述文本编码器输出的文本特征;基于所述第二图像特征图和所述文本特征生成激活特征图,所述激活特征图每个像素点对应的像素值反映所述第二图像特征图中每个像素点对应的特征向量与所述文本特征之间的相似性;将所述激活特征图中对应的像素值大于预设阈值的像素点的位置作为所述文本区域位置标签。
[0007]根据本专利技术提供的一种基于弱监督跨模态对比学习的场景文本检测与识别方法,所述标签生成模型的训练过程包括:将多个所述样本待标注图像中的第一样本待标注图像输入至所述第二图像编码器,将所述样本待标注图像中的所述第二文本内容标签输入至所述文本编码器,得到所述第二图像编码器输出的所述第一样本待标注图像对应的样本第二图像特征图和所述文本编码器输出的样本文本特征;基于所述第一样本待标注图像对应的样本第二图像特征图和所述样本文本特征生成第一样本激活特征图;将所述第一样本激活特征图与所述第一样本待标注图像对应的样本第二图像特征图进行点乘,得到第一加权图片特征向量;基于所述第一加权图片特征向量与所述样本文本特征的相似性获取第一训练损失,基于所述第一训练损失更新所述标签生成模型的参数。
[0008]根据本专利技术提供的一种基于弱监督跨模态对比学习的场景文本检测与识别方法,所述基于所述第一训练损失更新所述标签生成模型的参数,包括:将多个所述样本待标注图像中的第二样本待标注图像输入至所述第二图像编码器,得到所述第二样本待标注图像对应的样本第二图像特征图;基于所述第二样本待标注图像对应的样本第二图像特征图和所述样本文本特征生成第二样本激活特征图;将所述第二样本激活特征图与所述第二样本待标注图像对应的样本第二图像特征图进行点乘,得到第二加权图片特征向量;基于所述第二加权图片特征向量与所述样本文本特征的相似性获取第二训练损失;基于所述第一训练损失和所述第二训练损失更新所述标签生成模型的参数。
[0009]根据本专利技术提供的一种基于弱监督跨模态对比学习的场景文本检测与识别方法,所述基于所述概率特征图和所述字符位置特征图确定各个所述文本区域中的字符位置,包括:基于所述概率特征图中对应的像素值大于预设阈值的像素点位置在所述字符位置特征图中确定至少一个第一目标像素点;基于所述字符位置特征图中所述第一目标像素点对应的特征向量确定各个所述
文本区域中的字符位置。
[0010]根据本专利技术提供的一种基于弱监督跨模态对比学习的场景文本检测与识别方法,所述第二图像编码器包括多个卷积层,所述将所述样本待识别图像输入至所述标签生成模型中的第二图像编码器,得到所述第二图像编码器输出的第二图像特征图,包括:通过第一卷积层对所述样本待识别图像进行卷积,得到第一特征图,通过第二卷积层对所述第一特征图进行卷积,得到第二特征图,通过第三卷积层对所述第二特征图进行卷积,得到第三特征图,通过第四卷积层对所述第三特征图进行卷积,得到第四特征图,其中,所述第一特征图、所述第二特征图、所述第三特征图和所述第四特征图的尺寸依次减小;对所述第四特征图和所述第三特征图进行上采样后与所述第二特征图连接,得到第五特征图,对所述第三特征图和所述第二特征图进行上采样后与所述第一特征图连接,得到第六特征图;将所述第五特征图和所述第六特征图作为多尺度可变注意力模块的输入,得到所述多尺度可变注意力模块输出的所述第二图像特征图。
[0011]根据本专利技术提供的一种基于弱监督跨模态对比学习的场景文本检测与识别方法,所述文本识别模型的训练过程包括:将所述样本待识别图像输入至所述文本识别模型,获取所述文本识别模型输出的样本文本识别结果,以及所述文本识别模型中的所述锚定估计器输出的样本概率特征图;基于所述样本文本识别结果、所述样本待识别图像对应的所述第一文本内容标签和所述文本区域位置标签,得到第三损失;基于所述样本概率特征图和所述文本区域位置标签对应的所述激活特征图,得到第四损失;基于所述第三损失和所述第四损失更新所述文本识别模型的参数。本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于弱监督跨模态对比学习的场景文本检测与识别方法,其特征在于,包括:获取待识别图像,将所述待识别图像输入至已训练的文本识别模型中的第一图像编码器,获取所述第一图像编码器输出的第一图像特征图;将所述第一图像特征图分别输入至所述文本识别模型中的锚定估计器、采样模块和识别模块,获取所述锚定估计器输出的概率特征图、所述采样模块输出的字符位置特征图以及所述识别模块输出的字符语义特征图,其中,所述概率特征图中的像素点的值反映所述像素点所在的位置为文本区域的概率,所述字符位置特征图中的像素点对应的特征向量反映像素点与像素点所在的所述文本区域中包括的各个字符之间的像素距离,所述字符语义特征图中的像素点对应的特征向量反映像素点所在位置为各个预设字符的概率,每个所述文本区域中包括一个文本词,一个所述文本词由至少一个字符组成;基于所述概率特征图和所述字符位置特征图确定各个所述文本区域中的字符位置,基于所述文本区域中的字符位置在所述字符语义特征图中确定每个所述文本区域中的字符以确定所述待识别图像中的文本识别结果,所述文本识别结果中包括所述待识别图像中的各个所述文本区域的位置以及所述文本区域内的文本内容,每个所述文本区域中包含一个文本词;其中,所述文本识别模型是基于多组第一训练数据训练得到的,每组所述第一训练数据包括样本待识别图像以及所述样本待识别图像对应的第一文本内容标签和文本区域位置标签;所述样本待识别图像中的文本区域位置标签是基于已训练的标签生成模型生成的,所述标签生成模型基于多组第二训练数据训练得到,每组所述第二训练数据包括样本待标注图像以及所述样本待标注图像中的第二文本内容标签。2.根据权利要求1所述的基于弱监督跨模态对比学习的场景文本检测与识别方法,其特征在于,基于所述标签生成模型生成所述文本区域位置标签的过程包括:将所述样本待识别图像输入至所述标签生成模型中的第二图像编码器,得到所述第二图像编码器输出的第二图像特征图,将所述样本待识别图像对应的所述第一文本内容标签输入至所述标签生成模型中的文本编码器,得到所述文本编码器输出的文本特征;基于所述第二图像特征图和所述文本特征生成激活特征图,所述激活特征图每个像素点对应的像素值反映所述第二图像特征图中每个像素点对应的特征向量与所述文本特征之间的相似性;将所述激活特征图中对应的像素值大于预设阈值的像素点的位置作为所述文本区域位置标签。3.根据权利要求2所述的基于弱监督跨模态对比学习的场景文本检测与识别方法,其特征在于,所述标签生成模型的训练过程包括:将多个所述样本待标注图像中的第一样本待标注图像输入至所述第二图像编码器,将所述样本待标注图像中的所述第二文本内容标签输入至所述文本编码器,得到所述第二图像编码器输出的所述第一样本待标注图像对应的样本第二图像特征图和所述文本编码器输出的样本文本特征;基于所述第一样本待标注图像对应的样本第二图像特征图和所述样本文本特征生成第一样本激活特征图;将所述第一样本激活特征图与所述第一样本待标注图像对应的样本第二图像特征图
进行点乘,得到第一加权图片特征向量;基于所述第一加权图片特征向量与所述样本文本特征的相似性获取第一训练损失,基于所述第一训练损失更新所述标签生成模型的参数。4.根据权利要求3所述的基于弱监督跨模态对比学习的场景文本检测与识别方法,其特征在于,所述基于所述第一训练损失更新所述标签生成模型的参数,包括:将多个所述样本待标注图像中的第二样本待标注图像输入至所述第二图像编码器,得到所述第二样本待标注图像对应的样本第二图像特征图;基于所述第二样本待标注图像对应的样本第二图像特征图和所述样本文本特征生成第二样本激活特征图;将所述第二样本激活特征图与所述第二样本待标注图像对应的样本第二图像特征图进行点乘,得到第二加权图片特征向量;基于所述第二加权图片特征向量与所述样本文本特征的相似性获取第二训练损失;基于所述第一训练损失和所述第二训练损失更新所述标签生成模型的参数。5.根据权利要求1所述的基于弱监督跨模态对比学习的场景文本检测与识别方法,其特征在于,所述基于所述概率特征图和所述字符位置特征图确定...

【专利技术属性】
技术研发人员:裴文杰伍晶晶房正耀陈芳林卢光明
申请(专利权)人:哈尔滨工业大学深圳哈尔滨工业大学深圳科技创新研究院
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1