【技术实现步骤摘要】
本申请实施例涉及图像处理领域,尤其涉及物体定位方法、装置、设备及介质。
技术介绍
1、图像视觉定位是通过根据文本的语义信息去识别图像中的特定区域,因此依赖于多模态特征之间交互和对齐。
2、对比视觉-语言预训练(contrastive language-image pretraining,clip)利用图像数据进行语言自监督,能够获得多模态表征。由于对比视觉-语言预训练的自监督预训练任务的限制,clip只能在图像级实现粗粒度的全局的文本和图像跨模态特征的对齐,而定位任务则需要精细和复杂的跨模态交互。这导致预训练任务与定位任务之间存在多模态任务的任务粒度差距。
技术实现思路
1、以下是对本文详细描述的主题的概述。本概述并非是为了限制权利要求的保护范围。
2、本申请的目的在于至少一定程度上解决相关技术中存在的技术问题之一,本申请实施例提供了物体定位方法、装置、设备及介质,通过整合多层级的文本表征和图像表征并逐步适应从浅层到深层的多层特征来逐步缩小预训练任务和定位任务的差距
3、本文档来自技高网...
【技术保护点】
1.一种物体定位方法,其特征在于,包括:
2.根据权利要求1所述的一种物体定位方法,其特征在于,所述从所述第一文本中提取得到多层级的文本编码,包括:
3.根据权利要求1所述的一种物体定位方法,其特征在于,所述对所述文本编码进行差异化特征感知得到差异文本编码,包括:
4.根据权利要求1所述的一种物体定位方法,其特征在于,所述结合所述差异文本编码与所述第一图像进行特征提取,包括:
5.根据权利要求4所述的一种物体定位方法,其特征在于,所述根据所述差异文本编码与所述第一图像得到多层级的中间图像编码,包括:
6.根据
...【技术特征摘要】
1.一种物体定位方法,其特征在于,包括:
2.根据权利要求1所述的一种物体定位方法,其特征在于,所述从所述第一文本中提取得到多层级的文本编码,包括:
3.根据权利要求1所述的一种物体定位方法,其特征在于,所述对所述文本编码进行差异化特征感知得到差异文本编码,包括:
4.根据权利要求1所述的一种物体定位方法,其特征在于,所述结合所述差异文本编码与所述第一图像进行特征提取,包括:
5.根据权利要求4所述的一种物体定位方法,其特征在于,所述根据所述差异文本编码与所述第一图像得到多层级的中间图像编码,包括:
6.根据权利要求5所述的一种物体定位方法,其特征在于,所述根据所述自注意力特征和所述交叉注意力特征进行特征提取,得到中间图像编码,包括:
7.根据权利要求1所述的一种物体定位方法,其特征在于,所述冻结所述权重矩阵,并根据所述调参数据从浅层的网络层组向深层的网络层组逐渐调整所述低秩矩阵,包括:
8....
【专利技术属性】
技术研发人员:王耀威,肖麟慧,杨小汕,徐常胜,彭芳,熊宝琛,胡孟豪,
申请(专利权)人:鹏城实验室,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。