当前位置: 首页 > 专利查询>鹏城实验室专利>正文

物体定位方法、装置、设备及介质制造方法及图纸

技术编号:41209277 阅读:20 留言:0更新日期:2024-05-09 23:31
本申请实施例提供了物体定位方法、装置、设备及介质,通过在前向过程从层级的角度整合多层级的文本表征和图像表征,实现多模态自适应;在反向过程中,在冻结图像编码器深层的网络层组的权重矩阵的情况下,先更新浅层的网络层组的低秩矩阵并冻结浅层的网络层组的权重矩阵,逐步增加网络层组,在每次增加网络层组后重复更新低秩矩阵的过程;通过层级解耦,使图像编码器的学习率在不同适应阶段产生变化,保证图像编码器逐渐从浅层特征适应到深层特征,实现细粒度的跨模态特征的交互和对齐,通过逐步适应从浅层到深层的多层特征来逐步缩小预训练任务和定位任务的差距。

【技术实现步骤摘要】

本申请实施例涉及图像处理领域,尤其涉及物体定位方法、装置、设备及介质


技术介绍

1、图像视觉定位是通过根据文本的语义信息去识别图像中的特定区域,因此依赖于多模态特征之间交互和对齐。

2、对比视觉-语言预训练(contrastive language-image pretraining,clip)利用图像数据进行语言自监督,能够获得多模态表征。由于对比视觉-语言预训练的自监督预训练任务的限制,clip只能在图像级实现粗粒度的全局的文本和图像跨模态特征的对齐,而定位任务则需要精细和复杂的跨模态交互。这导致预训练任务与定位任务之间存在多模态任务的任务粒度差距。


技术实现思路

1、以下是对本文详细描述的主题的概述。本概述并非是为了限制权利要求的保护范围。

2、本申请的目的在于至少一定程度上解决相关技术中存在的技术问题之一,本申请实施例提供了物体定位方法、装置、设备及介质,通过整合多层级的文本表征和图像表征并逐步适应从浅层到深层的多层特征来逐步缩小预训练任务和定位任务的差距

3、本文档来自技高网...

【技术保护点】

1.一种物体定位方法,其特征在于,包括:

2.根据权利要求1所述的一种物体定位方法,其特征在于,所述从所述第一文本中提取得到多层级的文本编码,包括:

3.根据权利要求1所述的一种物体定位方法,其特征在于,所述对所述文本编码进行差异化特征感知得到差异文本编码,包括:

4.根据权利要求1所述的一种物体定位方法,其特征在于,所述结合所述差异文本编码与所述第一图像进行特征提取,包括:

5.根据权利要求4所述的一种物体定位方法,其特征在于,所述根据所述差异文本编码与所述第一图像得到多层级的中间图像编码,包括:

6.根据权利要求5所述的一种...

【技术特征摘要】

1.一种物体定位方法,其特征在于,包括:

2.根据权利要求1所述的一种物体定位方法,其特征在于,所述从所述第一文本中提取得到多层级的文本编码,包括:

3.根据权利要求1所述的一种物体定位方法,其特征在于,所述对所述文本编码进行差异化特征感知得到差异文本编码,包括:

4.根据权利要求1所述的一种物体定位方法,其特征在于,所述结合所述差异文本编码与所述第一图像进行特征提取,包括:

5.根据权利要求4所述的一种物体定位方法,其特征在于,所述根据所述差异文本编码与所述第一图像得到多层级的中间图像编码,包括:

6.根据权利要求5所述的一种物体定位方法,其特征在于,所述根据所述自注意力特征和所述交叉注意力特征进行特征提取,得到中间图像编码,包括:

7.根据权利要求1所述的一种物体定位方法,其特征在于,所述冻结所述权重矩阵,并根据所述调参数据从浅层的网络层组向深层的网络层组逐渐调整所述低秩矩阵,包括:

8....

【专利技术属性】
技术研发人员:王耀威肖麟慧杨小汕徐常胜彭芳熊宝琛胡孟豪
申请(专利权)人:鹏城实验室
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1