一种对象定位模型的训练方法、装置及电子设备制造方法及图纸

技术编号:39430968 阅读:9 留言:0更新日期:2023-11-19 16:15
本申请实施例提供一种对象定位模型的训练方法、装置及电子设备,在该方法中,采用对象的多模态信息以及已标注的定位框对多粒度跨模态对象定位模型进行训练,其中,对象的多模态信息包括对象的文本信息和视觉信息,多粒度跨模态对象定位模型综合考虑对象的文本信息和视觉信息,获得对象的第一定位框。根据第一定位框与已标注的定位框之间的第一损失函数值进行调节多粒度跨模态对象定位模型的参数,提升多粒度跨模态对象定位模型获取对象的定位框的准确率。位框的准确率。位框的准确率。

【技术实现步骤摘要】
一种对象定位模型的训练方法、装置及电子设备


[0001]本申请涉及计算机
,具体涉及一种对象定位模型的训练方法、装置、电子设备及计算机存储介质。本申请同时涉及一种域自适应方法、装置、电子设备及计算机存储介质。本申请同时涉及一种对象意图定位方法、装置、电子设备及计算机存储介质。本申请同时涉及另一种对象定位模型的训练方法、装置、电子设备及计算机存储介质。

技术介绍

[0002]目前,在直播场景中,将主播的意图商品进行定位,有助于帮助消费者获取感兴趣的商品并进行订购。现有技术中,将意图商品进行定位的方法通常是通过单模态信息以及采用已标注的样本数据训练意图定位模型,获得可以定位对象位置的模型。
[0003]然而,现有技术的方法需要大量已标注的样本数据,造成训练模型的成本增加,而且采用单模态信息训练模型,导致模型的训练的准确率偏低,进而导致使用该模型获取的对象定位的准确率偏低。
[0004]因此,如何提升对象定位的准确率是需要解决的技术问题。

技术实现思路

[0005]本申请实施例提供一种对象定位模型的训练方法,以提升对象定位的准确率。本申请实施例同时涉及一种对象定位模型的训练装置、电子设备及计算机存储介质。本申请实施例同时涉及一种域自适应方法、装置、电子设备及计算机存储介质。本申请实施例同时涉及一种对象意图定位方法、装置、电子设备及计算机存储介质。本申请实施例同时涉及另一种对象定位模型的训练方法、装置、电子设备及计算机存储介质。
[0006]本申请实施例提供一种对象定位模型的训练方法,包括:一种对象定位模型的训练方法,包括:将已标注定位框的对象的多模态信息作为输入数据,输入多粒度跨模态对象定位模型,获得针对所述对象的第一定位框,所述对象的多模态信息包括所述对象的文本信息和视觉信息;根据所述第一定位框和已标注定位框之间的第一损失函数值,调节所述多粒度跨模态对象定位模型的参数,直到所述第一损失函数值小于第一预设损失函数阈值为止。
[0007]可选的,所述将已标注定位框的对象的多模态信息作为输入数据,输入多粒度跨模态对象定位模型,获得针对所述对象的第一定位框,包括:将已标注定位框的对象的多模态信息作为输入数据,将所述已标注定位框的对象的文本特征向量和视觉特征向量、以及初始化定位向量进行拼接处理,获得包含初始化定位向量的多模态向量;将所述包含初始化定位向量的多模态向量,结合全局位置编码和模态编码,获得所述对象的联合输入数据;将所述对象的联合输入数据输入所述多粒度跨模态对象定位模型,获得所述对象针对所述目标定位向量的多模态向量;根据所述对象针对所述目标定位向量的多模态向量,确定针对所述对象的第一定位框,所述目标定位向量用于确定所述对象的目标位置。
[0008]本申请实施例还提供一种域自适应方法,包括:获取源域图像的多模态信息和目
标域图像的多模态信息;将所述源域图像的多模态信息和所述目标域图像的多模态信息作为输入数据,输入域对齐模型,获得所述源域图像的多模态信息和所述目标域图像的多模态信息之间的差异值,其中,所述多模态信息包括文本信息和视觉信息;以所述差异值作为第二损失函数值,重复执行获取源域图像的多模态信息和目标域图像的多模态信息的步骤,直到所述第二损失函数值小于第二预设损失函数阈值为止。
[0009]可选的,所述将所述源域图像的多模态信息和所述目标域图像的多模态信息作为输入数据,输入域对齐模型,获得所述源域图像的多模态信息和所述目标域图像的多模态信息之间的差异值,包括:将源域图像的多模态信息和目标域图像的多模态信息作为输入数据,输入域对齐模型,获得所述源域图像和所述目标域图像之间针对单模态的边缘分布差异,以及获得所述源域图像和所述目标域图像之间针对多模态的条件分布差异;所述以所述差异值作为第二损失函数值,包括:根据所述单模态的边缘分布差异和所述多模态的条件分布差异,获得所述第二损失函数值。
[0010]可选的,所述获得所述源域图像和所述目标域图像之间针对单模态的边缘分布差异,包括:获取所述源域图像的文本信息对应的文本特征向量与所述目标域图像的文本信息对应的文本特征向量之间针对文本模态的边缘分布差异;获取所述源域图像的视觉信息对应的视觉特征向量和所述目标域图像的视觉信息对应的视觉特征向量之间针对视觉模态的边缘分布差异。
[0011]可选的,所述获得所述源域图像和所述目标域图像之间针对多模态的条件分布差异,包括:获取所述源域图像中包含目标定位向量的多模态向量以及所述目标域图像中包含目标定位向量的多模态向量;将所述源域图像中包含目标定位向量的多模态向量以及所述目标域图像中包含目标定位向量的多模态向量之间的差异作为所述源域图像和所述目标域图像之间针对多模态的条件分布差异。
[0012]可选的,所述获取所述源域图像中包含目标定位向量的多模态向量以及所述目标域图像中包含目标定位向量的多模态向量,包括:将所述源域图像的多模态信息输入已训练好的多粒度跨模态对象定位模型,获得所述源域图像中包含目标定位向量的多模态向量;将所述目标域图像的多模态信息输入已训练好的多粒度跨模态对象定位模型,获得所述目标域图像中包含目标定位向量的多模态向量。
[0013]可选的,所述获取源域图像的多模态信息和目标域图像的多模态信息,包括:将源域图像输入特征向量提取模型,获取源域图像的多模态特征向量;将目标域图像输入特征向量提取模型,获取目标域图像的多模态特征向量。
[0014]本申请实施例还提供一种对象意图定位方法,包括:获取待检测对象的多模态信息;将所述待检测对象的多模态信息输入已训练好的多粒度跨模态对象定位模型,获得所述待检测对象的目标定位框,所述目标意图框用于表征待检测对象的位置信息,所述多模态信息包括文本信息和视觉信息。
[0015]本申请实施例还提供一种对象定位模型的训练方法,包括:将目标域图像的多模态信息输入源域图像定位模型,获得目标域图像的伪标注边框;将所述源域图像定位模型作为初始化目标域图像定位模型,将包含伪标注边框的图像的多模态信息输入所述初始化目标域图像定位模型,获得针对所述目标图像的第二定位框;根据所述第二定位框和所述伪标注边框之间的第三损失函数值,调节所述初始化目标域图像定位模型的参数,直到所
述第三损失函数值小于第三预设损失函数阈值为止。
[0016]可选的,所述将目标域图像的多模态信息输入源域图像定位模型,获得目标域图像的伪标注边框,包括:分别获取多个目标域图像的多模态信息中与源域图像的多模态信息之间的相似度;将所述多个目标域图像的多模态信息按照相似度由高到低的顺序进行排序,确定预设数量的目标域图像的多模态信息作为用于训练的目标域图像的样本数据;针对每个用于训练的目标域图像的样本数据,采用已训练完成的源域图像定位模型进行定位框标注,获得每个用于训练的目标域图像的伪标注边框。
[0017]本申请实施例还提供一种电子设备,所述电子设备包括处理器和存储器;所述存储器中存储有计算机程序,所述处理器运行所述计算机程序后,执行上述方法。...

【技术保护点】

【技术特征摘要】
1.一种对象定位模型的训练方法,其特征在于,包括:将已标注定位框的对象的多模态信息作为输入数据,输入多粒度跨模态对象定位模型,获得针对所述对象的第一定位框,所述对象的多模态信息包括所述对象的文本信息和视觉信息;根据所述第一定位框和已标注定位框之间的第一损失函数值,调节所述多粒度跨模态对象定位模型的参数,直到所述第一损失函数值小于第一预设损失函数阈值为止。2.根据权利要求1所述的方法,其特征在于,所述将已标注定位框的对象的多模态信息作为输入数据,输入多粒度跨模态对象定位模型,获得针对所述对象的第一定位框,包括:将已标注定位框的对象的多模态信息作为输入数据,将所述已标注定位框的对象的文本特征向量和视觉特征向量、以及初始化定位向量进行拼接处理,获得包含初始化定位向量的多模态向量;将所述包含初始化定位向量的多模态向量,结合全局位置编码和模态编码,获得所述对象的联合输入数据;将所述对象的联合输入数据输入所述多粒度跨模态对象定位模型,获得所述对象针对所述目标定位向量的多模态向量;根据所述对象针对所述目标定位向量的多模态向量,确定针对所述对象的第一定位框,所述目标定位向量用于确定所述对象的目标位置。3.一种域自适应方法,其特征在于,包括:获取源域图像的多模态信息和目标域图像的多模态信息;将所述源域图像的多模态信息和所述目标域图像的多模态信息作为输入数据,输入域对齐模型,获得所述源域图像的多模态信息和所述目标域图像的多模态信息之间的差异值,其中,所述多模态信息包括文本信息和视觉信息;以所述差异值作为第二损失函数值,重复执行获取源域图像的多模态信息和目标域图像的多模态信息的步骤,直到所述第二损失函数值小于第二预设损失函数阈值为止。4.根据权利要求3所述的方法,其特征在于,所述将所述源域图像的多模态信息和所述目标域图像的多模态信息作为输入数据,输入域对齐模型,获得所述源域图像的多模态信息和所述目标域图像的多模态信息之间的差异值,包括:将所述源域图像的多模态信息和所述目标域图像的多模态信息作为输入数据,输入域对齐模型,获得所述源域图像和所述目标域图像之间针对单模态的边缘分布差异,以及获得所述源域图像和所述目标域图像之间针对多模态的条件分布差异;所述以所述差异值作为第二损失函数值,包括:根据所述单模态的边缘分布差异和所述多模态的条件分布差异,获得所述第二损失函数值。5.根据权利要求4所述的方法,其特征在于,所述获得所述源域图像和所述目标域图像之间针对单模态的边缘分布差异,包括:获取所述源域图像的文本信息对应的文本特征向量与所述目标域图像的文本信息对应的文本特征向量之间针对文本模态的边缘分布差异;获取所述源域图像的视觉信息对应的视觉特征向量和所述目标域图像的视觉信息对应的视觉特征向量之间针对视觉模态的边缘分布差异。
6.根据权利要求4所述的方法,其特征在于,所述获得所述源域图像和所述目标域图像之间针对多模态...

【专利技术属性】
技术研发人员:姜浩李昊沅李梦岩宇哲伦曹志杰方非
申请(专利权)人:淘宝中国软件有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1