模型训练方法、指代表达式生成方法及相关设备技术

技术编号：34936160 阅读：22 留言：0更新日期：2022-09-15 07:33

本发明专利技术实施例提供了一种模型训练方法、指代表达式生成方法及相关设备，根据对象描述训练样本中样本图像的目标对象的视觉特征和指示对象描述网络模型的第一指示器，生成对象描述训练样本的第一特征向量；根据对象描述训练样本的非目标对象的视觉特征和指示对象描述网络模型的第二指示器，生成对象描述训练样本的第二特征向量；通过指示对象描述网络模型对第一特征向量和第二特征向量进行识别，生成目标对象的生成指代表达式；根据目标对象的原始指代表达式和生成指代表达式，对指示对象描述网络模型训练，得到指代表达式生成模型。通过上述方法得到的指代表达式生成模型生成用于图像中目标对象描述的指代表达式，能够使得图像描述的准确度提高。像描述的准确度提高。像描述的准确度提高。

全部详细技术资料下载

【技术实现步骤摘要】
模型训练方法、指代表达式生成方法及相关设备

[0001]本专利技术涉及图像处理
，尤其涉及一种模型训练方法、指代表达式生成方法及相关设备。

技术介绍

[0002]随着图像处理技术的发展，图像指代性分割技术应用而生。图像指代性分割是指给定一个自然语言描述作为查询，在图像中找到该自然语言描述对应的对象并输出该对象的分割mask。而指代表达式生成是图像指代性分割的逆任务，即给定图像中指定的对象（作为目标对象），为该目标对象生成一个自然语言描述，该自然语言描述能够精确地描述目标对象并且与图像中的其他对象区分开。
[0003]目前，生成指代表达式的方法主要是通过将图像中的目标对象的外包围框作为输入，提取出外包围框中的视觉特征，并将提取到的视觉特征输入至循环神经网络，以得到目标对象的指代表达式。但是，在目标对象与其他对象的重叠部分较大时，通过外包围框提取到的视觉特征无法准确表达目标对象的信息，从而造成生成的指代表达式准确性低，无法准确描述目标对象。另一方面，只使用目标对象的视觉特征来生成指代表达式，无法与图像中的其他对象充分区分开，也造成生成的指代表达式的准确性不足，无法准确描述目标对象。

技术实现思路

[0004]本专利技术实施例提供了一种模型训练方法、指代表达式生成方法、终端及存储介质，旨在解决现有技术中生成的用于描述图像中对象的指代表达式准确度差的问题。
[0005]为实现上述目的，本专利技术实施例提供了一种模型训练方法，所述模型训练方法包括：根据对象描述训练样本的样本图像的目标对象的...

【技术保护点】

【技术特征摘要】
1.一种模型训练方法，其特征在于，所述模型训练方法包括：根据对象描述训练样本的样本图像的目标对象的视觉特征和指示对象描述网络模型的第一指示器，生成所述对象描述训练样本的第一特征向量；以及根据所述对象描述训练样本的非目标对象的视觉特征和所述指示对象描述网络模型的第二指示器，生成所述对象描述训练样本的第二特征向量；其中，所述第一指示器与第二指示器为不同的可学习嵌入向量；所述非目标对象为所述样本图像中除目标对象外的其他对象；所述对象描述训练样本中包括：所述目标对象的原始指代表达式；通过所述指示对象描述网络模型对所述第一特征向量和所述第二特征向量进行识别，生成所述目标对象的生成指代表达式；根据所述目标对象的原始指代表达式和生成指代表达式，对所述指示对象描述网络模型的模型参数进行修正，并继续执行生成下一对象描述训练样本的第一特征向量的步骤，直至所述指示对象描述网络模型的训练情况满足预设条件，得到已训练的指代表达式生成模型；其中，所述指代表达式生成模型用于生成用于描述图像中目标对象的自然语言。2.根据权利要求1所述的模型训练方法，其特征在于，所述目标对象的数量至少为一个。3.根据权利要求1所述的模型训练方法，其特征在于，所述模型训练方法还包括：通过主干网络对所述样本图像进行特征提取，生成所述样本图像的图像特征图；将所述样本图像的图像特征图作为输入项，输入至候选对象提取网络模型，以通过所述候选对象提取网络确定所述样本图像中各候选对象的对象分割掩码；根据各候选对象的对象分割掩码，确定所述样本图像中各候选对象的视觉特征；基于所述样本图像中各候选对象的视觉特征，构建所述对象描述训练样本。4.根据权利要求3所述的模型训练方法，其特征在于，所述将所述样本图像的图像特征图作为输入项，输入至候选对象提取网络模型，以通过所述候选对象提取网络确定所述样本图像中各候选对象的对象分割掩码，具体包括：将所述图像特征图作为输入项，输入至所述候选对象提取网络模型，以通过所述候选对象提取网络模型的掩码注意力层，生成所述样本图像中候选对象的注意力掩码；通过所述候选对象提取网络模型，以根据所述掩码注意力层以及所述图像特征图，生成所述样本图像中各候选对象的对象分割掩码。5.一种指代表达式生成方法，其特征在于，应用如权利要求1
‑
4任一所述的模型训练方法得到的指代表达式生成模型，所述指代表达式生成方法包括：获取待描述图像中的目标对象和非目标对象的视觉特征；将所述目标对象和非目标对象的视觉特征输入至所述指代表达式生成模型；根据所述目标对象的...

【专利技术属性】
技术研发人员：黄仕嘉，李峰，张浩，刘世隆，张磊，
申请(专利权)人：粤港澳大湾区数字经济研究院福田，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人