文本图像匹配模型训练方法、图片标注方法、装置、设备制造方法及图纸

技术编号:35654593 阅读:18 留言:0更新日期:2022-11-19 16:50
本申请涉及一种文本图像匹配模型训练方法和图片标注方法。该方法包括:获取样本图片、样本文本及样本文本和样本图片的标注信息;通过文本图像匹配模型的图像特征提取器提取样本图片的全局特征、局部特征及感兴趣区域特征;通过文本图像匹配模型的文本特征提取器提取样本文本的原始文本特征及摘要文本特征,摘要文本特征是基于样本文本和样本图片的标注信息生成的;基于所述全局特征、所述摘要文本特征、局部特征和原始文本特征、感兴趣区域特征以及原始文本特征、感兴趣区域特征以及摘要文本特征进行对比学习生成各损失项;基于各损失项计算匈牙利损失;根据所述匈牙利损失对所述文本图像匹配模型进行训练。采用本方法能够自动对图片进行标注。自动对图片进行标注。自动对图片进行标注。

【技术实现步骤摘要】
文本图像匹配模型训练方法、图片标注方法、装置、设备


[0001]本申请涉及人工智能
,特别是涉及一种文本图像匹配模型训练方法、图片标注方法、装置、计算机设备、存储介质和计算机程序产品。

技术介绍

[0002]纵观计算机视觉的各种基本任务,诸如图像分类、目标检测,语义分割等等,数据层面长期以来的研究和应用路线一直遵循图片数据集精准标注的学习范式,基于该范式的视觉检测任务取得了不错的效果。但是该方式一直囿于只能利用有限的计算机视觉领域内标签学习机制,并且需耗费较高的人力标注成本。
[0003]然而,随着深度学习在深度学习领域较为成熟的发展态势,研究者对于模型学习和泛化能力的追求更加极致,应用者对于人力成本、任务学习周期以及部署效率的要求逐渐提高,当前学习范式无疑为该任务的发展造成束缚。

技术实现思路

[0004]基于此,有必要针对上述技术问题,提供一种能够自动建立图片和文本的匹配关系的文本图像匹配模型训练方法、图片标注方法、装置、计算机设备、存储介质和计算机程序产品。
[0005]一种文本图像匹配模型训练方法,所述方法包括:
[0006]获取样本图片、样本文本以及所述样本文本和所述样本图片的标注信息;
[0007]通过文本图像匹配模型的图像特征提取器提取所述样本图片的全局特征、局部特征以及感兴趣区域特征;
[0008]通过所述文本图像匹配模型的文本特征提取器提取所述样本文本的原始文本特征以及摘要文本特征,所述摘要文本特征是基于所述样本文本和所述样本图片的标注信息生成的;
[0009]基于所述全局特征以及所述摘要文本特征进行对比学习生成第一损失项,基于所述局部特征和所述原始文本特征进行对比学习生成第二损失项,基于所述感兴趣区域特征以及所述原始文本特征进行对比学习生成第三损失项,基于所述感兴趣区域特征以及所述摘要文本特征进行对比学习生成第四损失项;
[0010]基于所述第一损失项、所述第二损失项、所述第三损失项以及所述第四损失项计算匈牙利损失;
[0011]根据所述匈牙利损失对所述文本图像匹配模型进行训练。
[0012]在其中一个实施例中,所述样本图片的全局特征的提取过程包括:
[0013]对所述样本图片按照第一裁剪比例进行裁剪得到全局图片;
[0014]对所述全局图片进行特征提取得到全局特征;
[0015]所述样本图片的局部特征的提取过程包括:
[0016]对所述样本图片按照第二裁剪比例进行裁剪得到局部图片,所述第二裁剪比例小
于所述第一裁剪比例;
[0017]对所述局部图片进行特征提取得到局部特征;
[0018]所述样本图片的感兴趣区域特征提取过程包括:
[0019]识别所述样本图片的感兴趣区域,获取所述感兴趣区域的区域位置信息;
[0020]对所述感兴趣区域进行图像编码得到图像特征,根据所述图像也正和所述区域位置信息得到感兴趣区域特征。
[0021]在其中一个实施例中,所述样本文本的原始文本特征的提取过程包括:
[0022]提取所述样本文本的文本特征作为原始文本特征;
[0023]所述样本文本的摘要文本特征的提取过程包括:
[0024]根据所述样本文本和所述样本图片的标注信息对所述样本文本进行过滤;
[0025]提取过滤后的样本文本的文本特征作为摘要文本特征。
[0026]在其中一个实施例中,所述基于所述全局特征以及所述摘要文本特征进行对比学习生成第一损失项,包括:
[0027]计算所述全局特征和所述摘要文本特征的第一相似度,以及所述摘要文本特征与所述局部特征的第二相似度;
[0028]基于所述第一相似度和所述第二相似度生成第一损失项;
[0029]所述基于所述局部特征和所述原始文本特征进行对比学习生成第二损失项,包括:
[0030]计算所述局部特征和所述原始文本特征的第三相似度,以及所述原始文本特征与所述局部特征的第四相似度;
[0031]基于所述第三相似度和所述第四相似度生成第二损失项;
[0032]所述基于所述感兴趣区域特征以及所述原始文本特征进行对比学习生成第三损失项包括:
[0033]计算所述感兴趣区域特征和所述原始文本特征的第五相似度,以及所述原始文本特征与所述感兴趣区域特征的第六相似度;
[0034]基于所述第五相似度和所述第六相似度生成第三损失项;
[0035]所述基于所述感兴趣区域特征以及所述摘要文本特征进行对比学习生成第四损失项,包括:
[0036]计算所述感兴趣区域特征和所述摘要文本特征的第七相似度,以及所述摘要文本特征与所述感兴趣区域特征的第八相似度;
[0037]基于所述第七相似度和所述第八相似度生成第四损失项。
[0038]一种图片标注方法,所述图片标注方法包括:
[0039]接收待处理图片以及待处理文本;
[0040]将所述待处理图片和所述待处理文本输入至上述任意一个实施例中训练得到的文本图像匹配模型中,得到所述待处理图片的对应位置的标注文本。
[0041]一种文本图像匹配模型训练装置,所述装置包括:
[0042]样本获取模块,用于获取样本图片、样本文本以及所述样本文本和所述样本图片的标注信息;
[0043]图像特征提取模块,用于通过文本图像匹配模型的图像特征提取器提取所述样本
图片的全局特征、局部特征以及感兴趣区域特征;
[0044]文本特征提取模块,用于通过所述文本图像匹配模型的文本特征提取器提取所述样本文本的原始文本特征以及摘要文本特征,所述摘要文本特征是基于所述样本文本和所述样本图片的标注信息生成的;
[0045]损失项生成模块,用于基于所述全局特征以及所述摘要文本特征进行对比学习生成第一损失项,基于所述局部特征和所述原始文本特征进行对比学习生成第二损失项,基于所述感兴趣区域特征以及所述原始文本特征进行对比学习生成第三损失项,基于所述感兴趣区域特征以及所述摘要文本特征进行对比学习生成第四损失项;
[0046]匈牙利损失计算模块,用于基于所述第一损失项、所述第二损失项、所述第三损失项以及所述第四损失项计算匈牙利损失;
[0047]训练模块,用于根据所述匈牙利损失对所述文本图像匹配模型进行训练。
[0048]一种图片标注装置,所述图片标注装置包括:
[0049]接收模块,用于接收待处理图片以及待处理文本;
[0050]标注模块,用于将所述待处理图片和所述待处理文本输入至上述任意一个实施例中训练得到的文本图像匹配模型中,得到所述待处理图片的对应位置的标注文本。
[0051]一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,所述处理器执行所述计算机程序时实现上述任意一个实施例中所述的方法的步骤。
[0052]一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种文本图像匹配模型训练方法,其特征在于,所述方法包括:获取样本图片、样本文本以及所述样本文本和所述样本图片的标注信息;通过文本图像匹配模型的图像特征提取器提取所述样本图片的全局特征、局部特征以及感兴趣区域特征;通过所述文本图像匹配模型的文本特征提取器提取所述样本文本的原始文本特征以及摘要文本特征,所述摘要文本特征是基于所述样本文本和所述样本图片的标注信息生成的;基于所述全局特征以及所述摘要文本特征进行对比学习生成第一损失项,基于所述局部特征和所述原始文本特征进行对比学习生成第二损失项,基于所述感兴趣区域特征以及所述原始文本特征进行对比学习生成第三损失项,基于所述感兴趣区域特征以及所述摘要文本特征进行对比学习生成第四损失项;基于所述第一损失项、所述第二损失项、所述第三损失项以及所述第四损失项计算匈牙利损失;根据所述匈牙利损失对所述文本图像匹配模型进行训练。2.根据权利要求1所述的方法,其特征在于,所述样本图片的全局特征的提取过程包括:对所述样本图片按照第一裁剪比例进行裁剪得到全局图片;对所述全局图片进行特征提取得到全局特征;所述样本图片的局部特征的提取过程包括:对所述样本图片按照第二裁剪比例进行裁剪得到局部图片,所述第二裁剪比例小于所述第一裁剪比例;对所述局部图片进行特征提取得到局部特征;所述样本图片的感兴趣区域特征提取过程包括:识别所述样本图片的感兴趣区域,获取所述感兴趣区域的区域位置信息;对所述感兴趣区域进行图像编码得到图像特征,根据所述图像也正和所述区域位置信息得到感兴趣区域特征。3.根据权利要求1所述的方法,其特征在于,所述样本文本的原始文本特征的提取过程包括:提取所述样本文本的文本特征作为原始文本特征;所述样本文本的摘要文本特征的提取过程包括:根据所述样本文本和所述样本图片的标注信息对所述样本文本进行过滤;提取过滤后的样本文本的文本特征作为摘要文本特征。4.根据权利要求1所述的方法,其特征在于,所述基于所述全局特征以及所述摘要文本特征进行对比学习生成第一损失项,包括:计算所述全局特征和所述摘要文本特征的第一相似度,以及所述摘要文本特征与所述局部特征的第二相似度;基于所述第一相似度和所述第二相似度生成第一损失项;所述基于所述局部特征和所述原始文本特征进行对比学习生成第二损失项,包括:计算所述局部特征和所述原始文本特征的第三相似度,以及所述原始文本特征与所述
局部特征的第四相似度;基于所述第三相似度和所述第四相似度生成第二损失项;所述基于所述感兴趣区域特征以及所述原始文本特征进行对比学习生成第三损失项包括:计算所述感...

【专利技术属性】
技术研发人员:刘世超乔秋飞
申请(专利权)人:上海鱼尔网络科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1