多模态数据处理方法、电子设备及存储介质技术

技术编号:32630129 阅读:11 留言:0更新日期:2022-03-12 18:04
本申请实施例公开了一种多模态数据处理方法,包括:在神经网络模型中根据当前输入的数据确定第一特征向量和第二特征向量;数据包括图像模态数据和文本模态数据;基于第一特征向量、第二特征向量分别确定第一损失值和第二损失值;第一损失值表征当前输入的数据的语义类别预测误差;第二损失值表征当前输入的数据与历史输入的数据之间语义相关性与距离的关联程度;语义相关性表示数据是否属于同一语义类别;基于神经网络模型中当前输入以及历史输入的全部数据对应的特征向量确定第三损失值;第三损失值表征图像模态和文本模态之间的差异程度;基于第一损失值、第二损失值以及第三损失值训练神经网络模型。损失值训练神经网络模型。损失值训练神经网络模型。

【技术实现步骤摘要】
多模态数据处理方法、电子设备及存储介质


[0001]本专利技术涉及深度学习领域,尤其涉及一种多模态数据处理方法、电子设备及存储介质。

技术介绍

[0002]现有技术中,对于不同模态数据的检索,往往需要根据不同模态的训练样本数据对应的的样本数据特征,通过一至两种约束训练目标特征提取模型,例如类内低秩损失约束、语义一致约束等。在获取到不同模态的目标数据和待检索数据后,调用目标特征提取模型进行跨模态检索操作,得出对应的检索结果。但是现有技术在生成不同模态的公共特征空间上,存在约束不足的问题,导致模型缺乏健壮性,进而导致检索准确率偏低。

技术实现思路

[0003]有鉴于此,本专利技术实施例提供一种多模态数据处理方法、电子设备及存储介质。
[0004]本专利技术的技术方案是这样实现的:
[0005]第一方面,本专利技术实施例提供一种多模态数据处理方法,包括:
[0006]在神经网络模型中根据当前输入的数据确定第一特征向量和第二特征向量;所述数据包括图像模态数据和文本模态数据;
[0007]基于所述第一特征向量、所述第二特征向量分别确定第一损失值和第二损失值;所述第一损失值表征当前输入的数据的语义类别预测误差;所述第二损失值表征所述当前输入的数据与历史输入的数据之间语义相关性与距离的关联程度;所述语义相关性表示数据是否属于同一语义类别;
[0008]基于所述神经网络模型中当前输入以及历史输入的全部数据对应的特征向量确定第三损失值;所述第三损失值表征图像模态和文本模态之间的差异程度;
[0009]基于所述第一损失值、第二损失值以及第三损失值训练所述神经网络模型。
[0010]进一步地,所述基于所述第一特征向量、所述第二特征向量分别确定第一损失值和第二损失值,包括:
[0011]基于所述第一特征向量和所述第二特征向量在所述神经网络模型的迭代计算中得到的迭代结果,确定第一损失值;所述迭代结果包括所述第一特征向量和第二特征向量分别在多个语义类别中对应的概率;
[0012]基于所述第一特征向量、所述第二特征向量与历史输入的数据对应的其他特征向量之间的距离,确定第二损失值。
[0013]进一步地,所述在神经网络模型中根据当前输入的数据确定第一特征向量和第二特征向量,包括:
[0014]基于神经网络模型中的图像特征提取网络处理当前输入的图像模态数据,得到第一特征向量;
[0015]基于神经网络模型中的文本特征提取网络处理当前输入的文本模态数据,得到第
二特征向量;
[0016]所述方法还包括:
[0017]基于所述图像特征提取网络的层数和神经元权重,以及所述文本特征提取网络的层数和神经元权重,确定表征所述神经网络模型拟合程度的第四损失值;
[0018]所述基于所述第一损失值、第二损失值以及第三损失值训练所述神经网络模型,包括:
[0019]基于所述第一损失值、第二损失值、第三损失值以及第四损失值,对所述神经网络模型的参数进行更新。
[0020]进一步地,所述基于神经网络模型中的图像特征提取网络处理当前输入的图像模态数据,得到第一特征向量,包括:
[0021]将当前输入的图像模态数据分割为预设数量的图像模态子数据;
[0022]基于神经网络模型中的图像特征提取网络处理所述预设数量的图像模态子数据,得到第一特征向量。
[0023]进一步地,所述基于所述第一特征向量和所述第二特征向量在所述神经网络模型的迭代计算中得到的迭代结果,确定第一损失值,包括:
[0024]获取用于计算第一损失值的网络对应的第一网络参数;
[0025]基于所述第一网络参数,以及所述第一特征向量和所述第二特征向量在所述神经网络模型的迭代计算中得到的迭代结果,确定第一损失值;
[0026]所述基于所述第一特征向量、所述第二特征向量与历史输入的数据对应的其他特征向量之间的距离,确定第二损失值,包括:
[0027]获取所述神经网络模型中的图像模态参数和文本模态参数;
[0028]在历史输入的数据对应的其他特征向量中,分别确定所述第一特征向量和所述第二特征向量的参照特征向量;所述参照特征向量包括语义相关的特征向量以及语义无关的特征向量;
[0029]基于所述图像模态参数和文本模态参数,分别计算所述第一特征向量、所述第二特征向量与所述参照特征向量之间的距离;
[0030]基于所述距离确定第二损失值。
[0031]进一步地,所述基于所述神经网络模型中当前输入以及历史输入的全部数据对应的特征向量确定第三损失值,包括:
[0032]获取用于计算第三损失值的网络对应的第二网络参数;
[0033]基于所述第二网络参数以及所述神经网络模型中当前输入和历史输入的全部数据对应的特征向量,确定第三损失值;
[0034]所述基于所述第一损失值、第二损失值、第三损失值以及第四损失值,对所述神经网络模型的参数进行更新,包括:
[0035]基于所述第一损失值、第二损失值、第三损失值以及第四损失值,对所述第一网络参数、图像模态参数、文本模态参数以及第二网络参数进行更新。
[0036]进一步地,所述基于所述第一损失值、第二损失值、第三损失值以及第四损失值,对所述第一网络参数、图像模态参数、文本模态参数以及第二网络参数进行更新,包括:
[0037]基于所述第一损失值、第二损失值和第四损失值,计算损失参数;
[0038]基于所述损失参数与所述第三损失值的差值最小时对应的第一网络参数、图像模态参数、文本模态参数,以及所述损失参数与所述第三损失值的差值最大时对应的第二网络参数,分别对所述第一网络参数、图像模态参数、文本模态参数以及第二网络参数进行更新。
[0039]进一步地,所述方法还包括:
[0040]将待检索的图像模态数据输入训练后的神经网络模型;
[0041]通过所述训练后的神经网络模型,确定与所述待检索的图像模态数据对应的文本模态数据。
[0042]第二方面,本专利技术实施例提供一种电子设备,所述电子设备包括:处理器和用于存储能够在处理器上运行的计算机程序的存储器;
[0043]处理器运行所述计算机程序时,执行前述一个或多个技术方案所述方法的步骤。
[0044]第三方面,本专利技术实施例提供一种计算机可读存储介质,所述计算机可读存储介质存储有计算机可执行指令;计算机可执行指令被处理器执行后,能够实现前述一个或多个技术方案所述方法。
[0045]本专利技术提供的多模态数据处理方法,包括:基于第一特征向量、所述第二特征向量分别确定第一损失值和第二损失值;所述第一损失值表征当前输入的数据的语义类别预测误差;所述第二损失值表征所述当前输入的数据与历史输入的数据之间语义相关性与距离的关联程度;所述语义相关性表示数据是否属于同一语义类别;基于所述神经网络模型中当前输入以及历史输入的全部数据对应的特征向量确定第三损失值;所述第三损失值表本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种多模态数据处理方法,其特征在于,所述方法包括:在神经网络模型中根据当前输入的数据确定第一特征向量和第二特征向量;所述数据包括图像模态数据和文本模态数据;基于所述第一特征向量、所述第二特征向量分别确定第一损失值和第二损失值;所述第一损失值表征当前输入的数据的语义类别预测误差;所述第二损失值表征所述当前输入的数据与历史输入的数据之间语义相关性与距离的关联程度;所述语义相关性表示数据是否属于同一语义类别;基于所述神经网络模型中当前输入以及历史输入的全部数据对应的特征向量确定第三损失值;所述第三损失值表征图像模态和文本模态之间的差异程度;基于所述第一损失值、第二损失值以及第三损失值训练所述神经网络模型。2.根据权利要求1所述的方法,其特征在于,所述基于所述第一特征向量、所述第二特征向量分别确定第一损失值和第二损失值,包括:基于所述第一特征向量和所述第二特征向量在所述神经网络模型的迭代计算中得到的迭代结果,确定第一损失值;所述迭代结果包括所述第一特征向量和第二特征向量分别在多个语义类别中对应的概率;基于所述第一特征向量、所述第二特征向量与历史输入的数据对应的其他特征向量之间的距离,确定第二损失值。3.根据权利要求2所述的方法,其特征在于,所述在神经网络模型中根据当前输入的数据确定第一特征向量和第二特征向量,包括:基于神经网络模型中的图像特征提取网络处理当前输入的图像模态数据,得到第一特征向量;基于神经网络模型中的文本特征提取网络处理当前输入的文本模态数据,得到第二特征向量;所述方法还包括:基于所述图像特征提取网络的层数和神经元权重,以及所述文本特征提取网络的层数和神经元权重,确定表征所述神经网络模型拟合程度的第四损失值;所述基于所述第一损失值、第二损失值以及第三损失值训练所述神经网络模型,包括:基于所述第一损失值、第二损失值、第三损失值以及第四损失值,对所述神经网络模型的参数进行更新。4.根据权利要求3所述的方法,其特征在于,所述基于神经网络模型中的图像特征提取网络处理当前输入的图像模态数据,得到第一特征向量,包括:将当前输入的图像模态数据分割为预设数量的图像模态子数据;基于神经网络模型中的图像特征提取网络处理所述预设数量的图像模态子数据,得到第一特征向量。5.根据权利要求3所述的方法,其特征在于,所述基于所述第一特征向量和所述第二特征向量在所述神经网络模型的迭代计算中得到的迭代结果,确定第一损失值,包括:获取用于计算第一损失值的网络对应的第一网络参数;基于所述第一网络参数,以及所述第...

【专利技术属性】
技术研发人员:李涵
申请(专利权)人:卓尔智联武汉研究院有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1