模型训练方法、指代表达式生成方法及相关设备技术

技术编号:34936160 阅读:22 留言:0更新日期:2022-09-15 07:33
本发明专利技术实施例提供了一种模型训练方法、指代表达式生成方法及相关设备,根据对象描述训练样本中样本图像的目标对象的视觉特征和指示对象描述网络模型的第一指示器,生成对象描述训练样本的第一特征向量;根据对象描述训练样本的非目标对象的视觉特征和指示对象描述网络模型的第二指示器,生成对象描述训练样本的第二特征向量;通过指示对象描述网络模型对第一特征向量和第二特征向量进行识别,生成目标对象的生成指代表达式;根据目标对象的原始指代表达式和生成指代表达式,对指示对象描述网络模型训练,得到指代表达式生成模型。通过上述方法得到的指代表达式生成模型生成用于图像中目标对象描述的指代表达式,能够使得图像描述的准确度提高。像描述的准确度提高。像描述的准确度提高。

【技术实现步骤摘要】
模型训练方法、指代表达式生成方法及相关设备


[0001]本专利技术涉及图像处理
,尤其涉及一种模型训练方法、指代表达式生成方法及相关设备。

技术介绍

[0002]随着图像处理技术的发展,图像指代性分割技术应用而生。图像指代性分割是指给定一个自然语言描述作为查询,在图像中找到该自然语言描述对应的对象并输出该对象的分割mask。而指代表达式生成是图像指代性分割的逆任务,即给定图像中指定的对象(作为目标对象),为该目标对象生成一个自然语言描述,该自然语言描述能够精确地描述目标对象并且与图像中的其他对象区分开。
[0003]目前,生成指代表达式的方法主要是通过将图像中的目标对象的外包围框作为输入,提取出外包围框中的视觉特征,并将提取到的视觉特征输入至循环神经网络,以得到目标对象的指代表达式。但是,在目标对象与其他对象的重叠部分较大时,通过外包围框提取到的视觉特征无法准确表达目标对象的信息,从而造成生成的指代表达式准确性低,无法准确描述目标对象。另一方面,只使用目标对象的视觉特征来生成指代表达式,无法与图像中的其他对象充分区分开,也造成生成的指代表达式的准确性不足,无法准确描述目标对象。

技术实现思路

[0004]本专利技术实施例提供了一种模型训练方法、指代表达式生成方法、终端及存储介质,旨在解决现有技术中生成的用于描述图像中对象的指代表达式准确度差的问题。
[0005]为实现上述目的,本专利技术实施例提供了一种模型训练方法,所述模型训练方法包括:根据对象描述训练样本的样本图像的目标对象的视觉特征和指示对象描述网络模型的第一指示器,生成所述对象描述训练样本的第一特征向量;以及根据所述对象描述训练样本的非目标对象的视觉特征和所述指示对象描述网络模型的第二指示器,生成所述对象描述训练样本的第二特征向量;其中,所述第一指示器与第二指示器为不同的可学习嵌入向量;所述非目标对象为所述样本图像中除目标对象外的其他对象;所述对象描述训练样本中包括:所述目标对象的原始指代表达式;通过指示对象描述网络模型对所述第一特征向量和所述第二特征向量进行识别,生成所述目标对象的生成指代表达式;根据所述目标对象的原始指代表达式和生成指代表达式,对所述指示对象描述网络模型的模型参数进行修正,并继续执行生成下一对象描述训练样本的第一特征向量的步骤,直至所述指示对象描述网络模型的训练情况满足预设条件,得到已训练的指代表达式生成模型;其中,所述指代表达式生成模型用于生成用于描述图像中目标对象的自然语言。
[0006]可选地,所述目标对象的数量至少为一个。
[0007]可选地,所述模型训练方法还包括:通过主干网络对所述样本图像进行特征提取,生成所述样本图像的图像特征图;将所述样本图像的图像特征图作为输入项,输入至候选
对象提取网络模型,以通过所述候选对象提取网络确定所述样本图像中各候选对象的对象分割掩码;根据各候选对象的对象分割掩码,确定所述样本图像中各候选对象的视觉特征;基于所述样本图像中各候选对象的视觉特征,构建所述对象描述训练样本。
[0008]可选地,所述将所述样本图像的图像特征图作为输入项,输入至候选对象提取网络模型,以通过所述候选对象提取网络确定所述样本图像中各候选对象的对象分割掩码,具体包括:将所述图像特征图作为输入项,输入至候选对象提取网络模型,以通过候选对象提取网络模型的掩码注意力层,生成所述样本图像中候选对象的注意力掩码;通过候选对象提取网络模型,以根据所述掩码注意力层以及所述图像特征图,生成所述样本图像中各候选对象的对象分割掩码。
[0009]为了实现上述目的,本专利技术实施例还提供了一种指代表达式生成方法,应用如上任一所述的模型训练方法得到的指代表达式生成模型,所述指代表达式生成方法包括:获取待描述图像中的目标对象和非目标对象的视觉特征;将所述目标对象和非目标对象的视觉特征输入至所述指代表达式生成模型;根据所述目标对象的视觉特征和第一指示器,生成所述待描述图像的第一特征向量;以及根据所述非目标对象的视觉特征和第二指示器,生成所述待描述图像的第二特征向量;通过所述指代表达式生成模型对所述第一特征向量和第二特征向量进行识别,生成所述待描述图像中目标对象的生成指代表达式。
[0010]可选地,所述方法还包括:将所述待描述图像、所述待描述图像中目标对象的生成指代表达式、所述待描述图像中各候选对象的原始视觉特征,作为校验样本;将所述校验样本作为输入项,输入至对象选择网络模型;其中,所述对象选择网络模型为已训练的神经网络模型;通过所述对象选择网络模型,对所述校验样本进行识别,以得到所述校验样本中生成指代表达式的目标视觉特征;根据所述生成指代表达式的目标视觉特征,以及所述校验样本中目标对象的原始视觉特征,确定已训练的指代表达式生成模型的准确度;在所述准确度小于预设阈值的情况下,对已训练的指代表达式生成模型进行再训练。
[0011]可选地,通过所述对象选择网络模型,对所述校验样本进行识别,以得到所述校验样本中生成指代表达式的目标视觉特征,具体包括:通过所述对象选择网络模型,对所述校验样本中的生成指代表达式进行识别,得到对应的语言特征;通过所述对象网络选择模型,确定所述语言特征与所述校验样本中各原始视觉特征的匹配度;通过所述对象选择网络模型,选择匹配度最高的原始视觉特征作为目标视觉特征并输出。
[0012]可选地,在所述准确度大于或等于预设阈值的情况下,所述指代表达式生成方法还包括:将所述待描述图像、所述待描述图像中目标对象的生成指代表达式、所述待描述图像中各候选对象的原始视觉特征,作为对象选择训练样本;通过所述对象选择训练样本,对所述对象选择网络模型进行再训练,以得到训练优化后的对象选择网络模型。
[0013]此外,为了实现上述目的,本专利技术实施例还提供了一种终端,其特征在于,所述终端包括:处理器和存储器;所述存储器上存储有可被所述处理器执行的计算机可读程序;所述处理器执行所述计算机可读程序时实现如上任意一项所述的模型训练方法中的步骤,或者如上任意一项所述的指代表达式生成方法中的步骤。
[0014]为了实现上述目的,本专利技术实施例还一种计算机可读存储介质,其特征在于所述计算机可读存储介质存储有一个或者多个程序,所述一个或者多个程序可被一个或者多个处理器执行,以实现如上任意一项所述的模型训练方法中的步骤,或者如上任意一项所述
的指代表达式生成方法中的步骤。
[0015]本专利技术实施例通过根据样本图像中的目标对象的视觉特征以及指示对象描述网络模型的第一指示器,生成样本图像的第一特征向量,以及根据样本图像中的非目标对象的视觉特征以及指示对象描述网络模型的第二指示器,生成样本图像的第二特征向量,指示对象描述网络模型根据样本图像的第一特征向量和第二特征向量生成生成指代表达式,并根据第一图像的原始指代表达式和生成指代表达式进行训练,得到指代表达式生成模型。由此可知,本专利技术通过指示对象描述网络模型设置的第一指示器和第二指示器,分别分配给目标对象和非目标对象,以生成第一特征向量和第二特征向量,并本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种模型训练方法,其特征在于,所述模型训练方法包括:根据对象描述训练样本的样本图像的目标对象的视觉特征和指示对象描述网络模型的第一指示器,生成所述对象描述训练样本的第一特征向量;以及根据所述对象描述训练样本的非目标对象的视觉特征和所述指示对象描述网络模型的第二指示器,生成所述对象描述训练样本的第二特征向量;其中,所述第一指示器与第二指示器为不同的可学习嵌入向量;所述非目标对象为所述样本图像中除目标对象外的其他对象;所述对象描述训练样本中包括:所述目标对象的原始指代表达式;通过所述指示对象描述网络模型对所述第一特征向量和所述第二特征向量进行识别,生成所述目标对象的生成指代表达式;根据所述目标对象的原始指代表达式和生成指代表达式,对所述指示对象描述网络模型的模型参数进行修正,并继续执行生成下一对象描述训练样本的第一特征向量的步骤,直至所述指示对象描述网络模型的训练情况满足预设条件,得到已训练的指代表达式生成模型;其中,所述指代表达式生成模型用于生成用于描述图像中目标对象的自然语言。2.根据权利要求1所述的模型训练方法,其特征在于,所述目标对象的数量至少为一个。3.根据权利要求1所述的模型训练方法,其特征在于,所述模型训练方法还包括:通过主干网络对所述样本图像进行特征提取,生成所述样本图像的图像特征图;将所述样本图像的图像特征图作为输入项,输入至候选对象提取网络模型,以通过所述候选对象提取网络确定所述样本图像中各候选对象的对象分割掩码;根据各候选对象的对象分割掩码,确定所述样本图像中各候选对象的视觉特征;基于所述样本图像中各候选对象的视觉特征,构建所述对象描述训练样本。4.根据权利要求3所述的模型训练方法,其特征在于,所述将所述样本图像的图像特征图作为输入项,输入至候选对象提取网络模型,以通过所述候选对象提取网络确定所述样本图像中各候选对象的对象分割掩码,具体包括:将所述图像特征图作为输入项,输入至所述候选对象提取网络模型,以通过所述候选对象提取网络模型的掩码注意力层,生成所述样本图像中候选对象的注意力掩码;通过所述候选对象提取网络模型,以根据所述掩码注意力层以及所述图像特征图,生成所述样本图像中各候选对象的对象分割掩码。5.一种指代表达式生成方法,其特征在于,应用如权利要求1

4任一所述的模型训练方法得到的指代表达式生成模型,所述指代表达式生成方法包括:获取待描述图像中的目标对象和非目标对象的视觉特征;将所述目标对象和非目标对象的视觉特征输入至所述指代表达式生成模型;根据所述目标对象的...

【专利技术属性】
技术研发人员:黄仕嘉李峰张浩刘世隆张磊
申请(专利权)人:粤港澳大湾区数字经济研究院福田
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1