当前位置: 首页 > 专利查询>安徽大学专利>正文

一种基于多尺度和多视角特征对齐的文本车辆重识别方法技术

技术编号:38729638 阅读:14 留言:0更新日期:2023-09-08 23:20
一种基于多尺度和多视角特征对齐的文本车辆重识别方法,属于深度学习技术领域,解决现有车辆重识别视角挑战问题;构建基于残差网络ResNet

【技术实现步骤摘要】
一种基于多尺度和多视角特征对齐的文本车辆重识别方法


[0001]本专利技术属于深度学习
,涉及一种基于多尺度和多视角特征对齐的文本车辆重识别方法。

技术介绍

[0002]车辆重识别旨在通过给定的查询检索到与之匹配的车辆实例。目前,车辆重识别技术主要基于车辆的视觉特征进行识别,例如车身颜色、车牌信息和车辆型号等。但是,由于车辆之间存在相似度高和视角变化大的问题,这些视觉特征往往难以提供足够的区分性。因此,需要探索更加有效的车辆重识别方法。
[0003]文本到图像之间的检索作为一种新兴的信息检索技术,具有巨大的潜力。它可以通过结合车辆的文本信息和视觉特征来实现车辆识别,使得重识别结果更加准确和可靠。现有的文本到图像检索方法根据对图像的处理方式主要分为两类:借助检测网络的图文匹配方法和借助先验知识的局部特征提取方法。
[0004]第一类方法使用检测网络提取图像中的物体特征,从而挖掘文本图像之间细粒度的匹配线索。例如文献《Proceedings of the European conference on computer vision》(Kuang

Huei Lee等,Stacked Cross Attention for Image

Text Matching.2018:201

216.)提出使用图像区域和句子中的单词作为上下文来发现完整的潜在对齐,并推断图像

文本的相似性。首先针对每个图像区域关注句子中的单词,并将每个图像区域与句子中的关注信息进行比较,以确定图像区域的重要性。同样,在所提出的文本图像公式中,关注每个单词的图像区域,然后决定对每个单词给予更多或更少的关注,从而使图像

文本匹配更具可解释性。第二类方法借助先验知识来构建局部特征分支。例如申请公布日期为2021年8月6日、申请公布号为CN113221680A的专利技术专利申请文献《基于文本动态引导视觉特征提炼的文本行人检索方法》提出了基于全局和局部特征匹配的文本行人检索框架。在图像方面,对裁剪后的行人图像进行水平切分,以水平切分获得的图像块作为行人图像的局部特征。同时,在文本特征提取模块使用分类网络预测单词语义属于各个图像块的概率,挖掘细粒度匹配线索。
[0005]第一类方法虽然可以提取显示的提取图像物体块,并挖掘细粒度的图像文本匹配线索。但是由于被检索的车辆图像属于细粒度的类别,并且是裁剪后的图像,本身分辨率较小;因此在裁剪后的车辆图像上再次使用检测网络提取物体信息比较困难。第二类方法大多使用行人图像的先验知识,即行人图像经过水平裁剪后各个部件所属的图像块基本确定;然而对于车辆图像而言,由于视角的差异,水平切分并不能获得与切块对齐的车辆部件。

技术实现思路

[0006]本专利技术的目的在于:如何通过引入车辆视角掩码来解决现有车辆重识别视角挑战的问题。
[0007]本专利技术是通过以下技术方案解决上述技术问题的:
[0008]一种基于多尺度和多视角特征对齐的文本车辆重识别方法,包括以下步骤:
[0009]步骤1、采用ResNet

50残差网络提取图像特征图,提取输入车辆图像的视觉多尺度特征;
[0010]步骤2、通过在ResNet

50残差网络中间层引入车辆视角掩码,获得车辆图像的视角特征;
[0011]步骤3、使用车辆视角掩码生成视角分支的相似度权重;
[0012]步骤4、使用BERT和文本卷积网络提取多尺度、多视角的车辆文本特征;
[0013]步骤5、使用掩码双向匹配损失进行多尺度多视角跨模态特征对齐;
[0014]步骤6、计算多尺度多视角特征进行测试。
[0015]本专利技术基于多尺度多视角特征对齐的文本车辆重识别框架,旨在通过约束多尺度和多视角子空间下模态之间的对齐;构建了一个基于残差网络ResNet

50和卷积神经网络的双流特征学习网络;在视觉编码器引入车辆视角掩码提取对应视角特征,并从编码器的不同层提取多尺度特征;同时,在文本编码器使用文本卷积网络构建多视角和多尺度分支,使用对齐的视觉特征监督相应分支的学习;为了有效的进行各个分支的对齐,提出了掩码双向匹配损失,掩盖同一车辆下不成对的样本并考虑文本到图像和图像到文本双向的检索。本专利技术通过引入视角掩码有效的解耦了车辆不同视角的特征,并挖掘图像文本之间多尺度的匹配线索;此外,本专利技术还提出了掩码双向匹配损失,保证训练稳定性的同时加速模型收敛。
[0016]进一步地,步骤1中所述的采用ResNet

50残差网络提取图像特征图,提取输入车辆图像的视觉多尺度特征的方法具体为:ResNet

50残差网络包含五个层,每个层由残差块和池化层组成;将ResNet

50残差网络不同层的输出当做视觉低层特征和视觉高层特征;在训练阶段,训练数据为其中N代表相互匹配并属于同一身份的图像

文本对的数量;给定一张车辆图像I∈R
224
×
224
×3,则残差网络ResNet第五阶段获得的高层图像特征为i
high
=GMP(Layer1‑5(I)),第四阶段获得的低层特征为i
low
=GMP(Layer1‑4(I)),其中i
high
∈R
2048
,i
low
∈R
1024

[0017]进一步地,步骤2中所述的通过在ResNet

50残差网络中间层引入车辆视角掩码,获得车辆图像的视角特征的方法具体为:将ResNet

50残差网络第四层输出的特征图定义为中间层特征I
mid
=Layer1‑4(I),并引入训练好的车辆视角掩码{M
fro
,M
sid
,M
rea
},从而获得对应的视角特征i
v
=GMP(Layer4(M
fro
*I
mid
)),v∈{fro,sid,rea};再使用视角特征聚合获得复合视角特征i
com
=RMP(Concat(i
fro
,i
rea
,i
sid
)),其中i
fro
,i
sid
,i
rea
,i
com
∈R
2048

[0018]进一步地,步骤3中所述的使用车辆视角掩码生成视角分支的相似度权重的方法具体为:车辆三个视角所占图像区域的比例随着摄像机的角度和车辆的行驶过程而变化,使用车辆视角掩码对三个分支的权重进行归一化,实现动态地聚合视角分支的相似度得分:[w
fro
,w
sid
,w...

【技术保护点】

【技术特征摘要】
1.一种基于多尺度和多视角特征对齐的文本车辆重识别方法,其特征在于,包括以下步骤:步骤1、采用ResNet

50残差网络提取图像特征图,提取输入车辆图像的视觉多尺度特征;步骤2、通过在ResNet

50残差网络中间层引入车辆视角掩码,获得车辆图像的视角特征;步骤3、使用车辆视角掩码生成视角分支的相似度权重;步骤4、使用BERT和文本卷积网络提取多尺度、多视角的车辆文本特征;步骤5、使用掩码双向匹配损失进行多尺度多视角跨模态特征对齐;步骤6、计算多尺度多视角特征进行测试。2.根据权利要求1所述的一种基于多尺度和多视角特征对齐的文本车辆重识别方法,其特征在于,步骤1中所述的采用ResNet一50残差网络提取图像特征图,提取输入车辆图像的视觉多尺度特征的方法具体为:ResNet

50残差网络包含五个层,每个层由残差块和池化层组成;将ResNet

50残差网络不同层的输出当做视觉低层特征和视觉高层特征;在训练阶段,训练数据为其中N代表相互匹配并属于同一身份的图像

文本对的数量;给定一张车辆图像I∈R
224
×
224
×3,则残差网络ResNet第五阶段获得的高层图像特征为i
high
=GMP(Layer1‑5(I)),第四阶段获得的低层特征为i
low
=GMP(Layer1‑4(I)),其中i
high
∈R
2048
,i
low
∈R
1034
。3.根据权利要求2所述的一种基于多尺度和多视角特征对齐的文本车辆重识别方法,其特征在于,步骤2中所述的通过在ResNet

50残差网络中间层引入车辆视角掩码,获得车辆图像的视角特征的方法具体为:将ResNet

50残差网络第四层输出的特征图定义为中间层特征I
mid
=Layer1‑4(I),并引入训练好的车辆视角掩码{M
fro
,M
sid
,M
rea
},从而获得对应的视角特征i
v
=GMP(Layer4(M
fro
*I
mid
)),v∈{fro,sid,rea};再使用视角特征聚合获得复合视角特征i
com
=RMP(Concat(i
fro
,i
rea
,i
sid
)),其中i
fro
,i
sid
,i
rea
,i
com
∈R
2048
。4.根据权利要求3所述的一种基于多尺度和多视角特征对齐的文本车辆重识别方法,其特征在于,步骤3中所述的使用车辆视角掩码生成视角分支的相似度权重的方法具体为:车辆三个视角所占图像区域的比例随着摄像机的角度和车辆的行行驶程而变化,使用车辆视角掩码对三个分支的权重进行归一化,实现动态地聚合视角分支的相似度得分:[w
fro
,w
sid
,w
rea

【专利技术属性】
技术研发人员:李成龙丁乐奇
申请(专利权)人:安徽大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1