物体定位方法、装置、设备及介质制造方法及图纸

技术编号：41209277 阅读：5 留言：0更新日期：2024-05-09 23:31

本申请实施例提供了物体定位方法、装置、设备及介质，通过在前向过程从层级的角度整合多层级的文本表征和图像表征，实现多模态自适应；在反向过程中，在冻结图像编码器深层的网络层组的权重矩阵的情况下，先更新浅层的网络层组的低秩矩阵并冻结浅层的网络层组的权重矩阵，逐步增加网络层组，在每次增加网络层组后重复更新低秩矩阵的过程；通过层级解耦，使图像编码器的学习率在不同适应阶段产生变化，保证图像编码器逐渐从浅层特征适应到深层特征，实现细粒度的跨模态特征的交互和对齐，通过逐步适应从浅层到深层的多层特征来逐步缩小预训练任务和定位任务的差距。

全部详细技术资料下载

【技术实现步骤摘要】

本申请实施例涉及图像处理领域，尤其涉及物体定位方法、装置、设备及介质。

技术介绍

1、图像视觉定位是通过根据文本的语义信息去识别图像中的特定区域，因此依赖于多模态特征之间交互和对齐。

2、对比视觉-语言预训练(contrastive language-image pretraining，clip)利用图像数据进行语言自监督，能够获得多模态表征。由于对比视觉-语言预训练的自监督预训练任务的限制，clip只能在图像级实现粗粒度的全局的文本和图像跨模态特征的对齐，而定位任务则需要精细和复杂的跨模态交互。这导致预训练任务与定位任务之间存在多模态任务的任务粒度差距。

技术实现思路

1、以下是对本文详细描述的主题的概述。本概述并非是为了限制权利要求的保护范围。

2、本申请的目的在于至少一定程度上解决相关技术中存在的技术问题之一，本申请实施例提供了物体定位方法、装置、设备及介质，通过整合多层级的文本表征和图像表征并逐步适应从浅层到深层的多层特征来逐步缩小预训练任务和定位任务的差距。

3、本申请的第一方面的实施例，一种物体定位方法，包括：

4、获取训练用的第一图像和第一文本；

5、通过所述第一图像和所述第一文本训练定位模型，得到目标定位模型；

6、获取待处理的第二图像和第二文本，将所述第二图像和所述第二文本输入至所述目标定位模型进行视觉定位处理，得到定位信息；

7、其中，所述定位模型包括图像编码器，所述图像编码器包

8、在训练所述定位模型的前向过程中，从所述第一文本中提取得到多层级的文本编码；在每个所述网络层，对所述文本编码进行差异化特征感知得到差异文本编码，结合所述差异文本编码与所述第一图像进行特征提取，进而从所述第一图像中提取得到多层级的图像编码；根据所述文本编码和所述图像编码进行定位预测得到调参数据；

9、在训练定位模型的反向过程中，为由至少一个所述网络层组成的网络层组获取权重矩阵，将低秩矩阵作为训练参数添加至所述权重矩阵；冻结所述权重矩阵，并根据所述调参数据从浅层的网络层组向深层的网络层组逐渐调整所述低秩矩阵，以对所述图像编码器调参，得到调参后的图像编码器；

10、根据所述调参后的图像编码器得到目标定位模型。

11、本申请的第二方面的实施例，一种物体定位装置，包括：

12、训练单元，被设置为：获取训练用的第一图像和第一文本，通过所述第一图像和所述第一文本训练定位模型得到目标定位模型；

13、应用单元，被设置为：获取待处理的第二图像和第二文本，将所述第二图像和所述第二文本输入至所述目标定位模型进行视觉定位处理，得到定位信息；

14、其中，所述定位模型包括图像编码器，所述图像编码器包括多个网络层；所述训练单元还被设置为：在训练所述定位模型的前向过程中，从所述第一文本中提取得到多层级的文本编码；在每个所述网络层，对所述文本编码进行差异化特征感知得到差异文本编码，结合所述差异文本编码与所述第一图像进行特征提取，进而从所述第一图像中提取得到多层级的图像编码；根据所述文本编码和所述图像编码进行定位预测得到调参数据；在训练定位模型的反向过程中，为由至少一个所述网络层组成的网络层组获取权重矩阵，将低秩矩阵作为训练参数添加至所述权重矩阵；冻结所述权重矩阵，并根据所述调参数据从浅层的网络层组向深层的网络层组逐渐调整所述低秩矩阵，以对所述图像编码器调参，得到调参后的图像编码器；根据所述调参后的图像编码器得到目标定位模型。

15、本申请的第三方面的实施例，一种电子设备，包括：存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现如上所述的物体定位方法。

16、本申请的第四方面的实施例，一种计算机存储介质，存储有计算机可执行指令，所述计算机可执行指令用于执行如上所述的物体定位方法。

17、上述方案至少具有以下的有益效果：通过在前向过程从层级的角度整合多层级的文本表征和图像表征，实现多模态自适应；在反向过程中，在冻结图像编码器深层的网络层组的权重矩阵的情况下，先更新浅层的网络层组的低秩矩阵并冻结浅层的网络层组的权重矩阵，逐步增加网络层组，在每次增加网络层组后重复更新低秩矩阵的过程；通过层级解耦，使图像编码器的学习率在不同适应阶段产生变化，保证图像编码器逐渐从浅层特征适应到深层特征，实现细粒度的跨模态特征的交互和对齐，通过逐步适应从浅层到深层的多层特征来逐步缩小预训练任务和定位任务的差距；有利于在视觉定位任务达到更加精准的性能。

本文档来自技高网...

【技术保护点】

1.一种物体定位方法，其特征在于，包括：

2.根据权利要求1所述的一种物体定位方法，其特征在于，所述从所述第一文本中提取得到多层级的文本编码，包括：

3.根据权利要求1所述的一种物体定位方法，其特征在于，所述对所述文本编码进行差异化特征感知得到差异文本编码，包括：

4.根据权利要求1所述的一种物体定位方法，其特征在于，所述结合所述差异文本编码与所述第一图像进行特征提取，包括：

5.根据权利要求4所述的一种物体定位方法，其特征在于，所述根据所述差异文本编码与所述第一图像得到多层级的中间图像编码，包括：

6.根据权利要求5所述的一种物体定位方法，其特征在于，所述根据所述自注意力特征和所述交叉注意力特征进行特征提取，得到中间图像编码，包括：

7.根据权利要求1所述的一种物体定位方法，其特征在于，所述冻结所述权重矩阵，并根据所述调参数据从浅层的网络层组向深层的网络层组逐渐调整所述低秩矩阵，包括：

8.根据权利要求1所述的一种物体定位方法，其特征在于，所述调参数据包括第一类损失函数值；所述根据所述文本编码和

9.根据权利要求1所述的一种物体定位方法，其特征在于，所述调参数据包括第二类损失函数值；所述根据所述文本编码和所述图像编码进行定位预测得到调参数据，包括：

10.根据权利要求1所述的一种物体定位方法，其特征在于，所述调参数据包括第三类损失函数值；所述根据所述文本编码和所述图像编码进行定位预测得到调参数据，包括：

11.一种物体定位装置，其特征在于，包括：

12.一种电子设备，其特征在于，包括：存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现如权利要求1至10中任一项所述的物体定位方法。

13.一种计算机存储介质，其特征在于，存储有计算机可执行指令，所述计算机可执行指令用于执行如权利要求1至10中任一项所述的物体定位方法。

...

【技术特征摘要】

1.一种物体定位方法，其特征在于，包括：

2.根据权利要求1所述的一种物体定位方法，其特征在于，所述从所述第一文本中提取得到多层级的文本编码，包括：

3.根据权利要求1所述的一种物体定位方法，其特征在于，所述对所述文本编码进行差异化特征感知得到差异文本编码，包括：

4.根据权利要求1所述的一种物体定位方法，其特征在于，所述结合所述差异文本编码与所述第一图像进行特征提取，包括：

5.根据权利要求4所述的一种物体定位方法，其特征在于，所述根据所述差异文本编码与所述第一图像得到多层级的中间图像编码，包括：

6.根据权利要求5所述的一种物体定位方法，其特征在于，所述根据所述自注意力特征和所述交叉注意力特征进行特征提取，得到中间图像编码，包括：

8....

【专利技术属性】
技术研发人员：王耀威，肖麟慧，杨小汕，徐常胜，彭芳，熊宝琛，胡孟豪，
申请(专利权)人：鹏城实验室，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人