一种对象定位模型的训练方法、装置及电子设备制造方法及图纸

技术编号：39430968 阅读：9 留言：0更新日期：2023-11-19 16:15

本申请实施例提供一种对象定位模型的训练方法、装置及电子设备，在该方法中，采用对象的多模态信息以及已标注的定位框对多粒度跨模态对象定位模型进行训练，其中，对象的多模态信息包括对象的文本信息和视觉信息，多粒度跨模态对象定位模型综合考虑对象的文本信息和视觉信息，获得对象的第一定位框。根据第一定位框与已标注的定位框之间的第一损失函数值进行调节多粒度跨模态对象定位模型的参数，提升多粒度跨模态对象定位模型获取对象的定位框的准确率。位框的准确率。位框的准确率。

全部详细技术资料下载

【技术实现步骤摘要】
一种对象定位模型的训练方法、装置及电子设备

[0001]本申请涉及计算机
，具体涉及一种对象定位模型的训练方法、装置、电子设备及计算机存储介质。本申请同时涉及一种域自适应方法、装置、电子设备及计算机存储介质。本申请同时涉及一种对象意图定位方法、装置、电子设备及计算机存储介质。本申请同时涉及另一种对象定位模型的训练方法、装置、电子设备及计算机存储介质。

技术介绍

[0002]目前，在直播场景中，将主播的意图商品进行定位，有助于帮助消费者获取感兴趣的商品并进行订购。现有技术中，将意图商品进行定位的方法通常是通过单模态信息以及采用已标注的样本数据训练意图定位模型，获得可以定位对象位置的模型。
[0003]然而，现有技术的方法需要大量已标注的样本数据，造成训练模型的成本增加，而且采用单模态信息训练模型，导致模型的训练的准确率偏低，进而导致使用该模型获取的对象定位的准确率偏低。
[0004]因此，如何提升对象定位的准确率是需要解决的技术问题。

技术实现思路

[0005]本申请实施例提供一种对象定位模型的训练方法，以提升对象定位的准确率。本申请实施例同时涉及一种对象定位模型的训练装置、电子设备及计算机存储介质。本申请实施例同时涉及一种域自适应方法、装置、电子设备及计算机存储介质。本申请实施例同时涉及一种对象意图定位方法、装置、电子设备及计算机存储介质。本申请实施例同时涉及另一种对象定位模型的训练方法、装置、电子设备及计算机存储介质。
[0006]本申请实施例提供一种对象定位模型的训练

【技术保护点】

【技术特征摘要】
1.一种对象定位模型的训练方法，其特征在于，包括：将已标注定位框的对象的多模态信息作为输入数据，输入多粒度跨模态对象定位模型，获得针对所述对象的第一定位框，所述对象的多模态信息包括所述对象的文本信息和视觉信息；根据所述第一定位框和已标注定位框之间的第一损失函数值，调节所述多粒度跨模态对象定位模型的参数，直到所述第一损失函数值小于第一预设损失函数阈值为止。2.根据权利要求1所述的方法，其特征在于，所述将已标注定位框的对象的多模态信息作为输入数据，输入多粒度跨模态对象定位模型，获得针对所述对象的第一定位框，包括：将已标注定位框的对象的多模态信息作为输入数据，将所述已标注定位框的对象的文本特征向量和视觉特征向量、以及初始化定位向量进行拼接处理，获得包含初始化定位向量的多模态向量；将所述包含初始化定位向量的多模态向量，结合全局位置编码和模态编码，获得所述对象的联合输入数据；将所述对象的联合输入数据输入所述多粒度跨模态对象定位模型，获得所述对象针对所述目标定位向量的多模态向量；根据所述对象针对所述目标定位向量的多模态向量，确定针对所述对象的第一定位框，所述目标定位向量用于确定所述对象的目标位置。3.一种域自适应方法，其特征在于，包括：获取源域图像的多模态信息和目标域图像的多模态信息；将所述源域图像的多模态信息和所述目标域图像的多模态信息作为输入数据，输入域对齐模型，获得所述源域图像的多模态信息和所述目标域图像的多模态信息之间的差异值，其中，所述多模态信息包括文本信息和视觉信息；以所述差异值作为第二损失函数值，重复执行获取源域图像的多模态信息和目标域图像的多模态信息的步骤，直到所述第二损失函数值小于第二预设损失函数阈值为止。4.根据权利要求3所述的方法，其特征在于，所述将所述源域图像的多模态信息和所述目标域图像的多模态信息作为输入数据，输入域对齐模型，获得所述源域图像的多模态信息和所述目标域图像的多模态信息之间的差异值，包括：将所述源域图像的多模态信息和所述目标域图像的多模态信息作为输入数据，输入域对齐模型，获得所述源域图像和所述目标域图像之间针对单模态的边缘分布差异，以及获得所述源域图像和所述目标域图像之间针对多模态的条件分布差异；所述以所述差异值作为第二损失函数值，包括：根据所述单模态的边缘分布差异和所述多模态的条件分布差异，获得所述第二损失函数值。5.根据权利要求4所述的方法，其特征在于，所述获得所述源域图像和所述目标域图像之间针对单模态的边缘分布差异，包括：获取所述源域图像的文本信息对应的文本特征向量与所述目标域图像的文本信息对应的文本特征向量之间针对文本模态的边缘分布差异；获取所述源域图像的视觉信息对应的视觉特征向量和所述目标域图像的视觉信息对应的视觉特征向量之间针对视觉模态的边缘分布差异。
6.根据权利要求4所述的方法，其特征在于，所述获得所述源域图像和所述目标域图像之间针对多模态...

【专利技术属性】
技术研发人员：姜浩，李昊沅，李梦岩，宇哲伦，曹志杰，方非，
申请(专利权)人：淘宝中国软件有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人