一种基于多尺度和多视角特征对齐的文本车辆重识别方法技术

技术编号：38729638 阅读：14 留言：0更新日期：2023-09-08 23:20

一种基于多尺度和多视角特征对齐的文本车辆重识别方法，属于深度学习技术领域，解决现有车辆重识别视角挑战问题；构建基于残差网络ResNet

全部详细技术资料下载

【技术实现步骤摘要】
一种基于多尺度和多视角特征对齐的文本车辆重识别方法

[0001]本专利技术属于深度学习
，涉及一种基于多尺度和多视角特征对齐的文本车辆重识别方法。

技术介绍

[0002]车辆重识别旨在通过给定的查询检索到与之匹配的车辆实例。目前，车辆重识别技术主要基于车辆的视觉特征进行识别，例如车身颜色、车牌信息和车辆型号等。但是，由于车辆之间存在相似度高和视角变化大的问题，这些视觉特征往往难以提供足够的区分性。因此，需要探索更加有效的车辆重识别方法。
[0003]文本到图像之间的检索作为一种新兴的信息检索技术，具有巨大的潜力。它可以通过结合车辆的文本信息和视觉特征来实现车辆识别，使得重识别结果更加准确和可靠。现有的文本到图像检索方法根据对图像的处理方式主要分为两类：借助检测网络的图文匹配方法和借助先验知识的局部特征提取方法。
[0004]第一类方法使用检测网络提取图像中的物体特征，从而挖掘文本图像之间细粒度的匹配线索。例如文献《Proceedings of the European conference on computer vision》(Kuang
‑
Huei Lee等，Stacked Cross Attention for Image
‑
Text Matching.2018:201
‑
216.)提出使用图像区域和句子中的单词作为上下文来发现完整的潜在对齐，并推断图像
‑
文本的相似性。首先针对每个图像区域关注句子中的单词，并将每个图

【技术保护点】

【技术特征摘要】
1.一种基于多尺度和多视角特征对齐的文本车辆重识别方法，其特征在于，包括以下步骤：步骤1、采用ResNet
‑
50残差网络提取图像特征图，提取输入车辆图像的视觉多尺度特征；步骤2、通过在ResNet
‑
50残差网络中间层引入车辆视角掩码，获得车辆图像的视角特征；步骤3、使用车辆视角掩码生成视角分支的相似度权重；步骤4、使用BERT和文本卷积网络提取多尺度、多视角的车辆文本特征；步骤5、使用掩码双向匹配损失进行多尺度多视角跨模态特征对齐；步骤6、计算多尺度多视角特征进行测试。2.根据权利要求1所述的一种基于多尺度和多视角特征对齐的文本车辆重识别方法，其特征在于，步骤1中所述的采用ResNet一50残差网络提取图像特征图，提取输入车辆图像的视觉多尺度特征的方法具体为：ResNet
‑
50残差网络包含五个层，每个层由残差块和池化层组成；将ResNet
‑
50残差网络不同层的输出当做视觉低层特征和视觉高层特征；在训练阶段，训练数据为其中N代表相互匹配并属于同一身份的图像
‑
文本对的数量；给定一张车辆图像I∈R
224
×
224
×3，则残差网络ResNet第五阶段获得的高层图像特征为i
high
＝GMP(Layer1‑5(I))，第四阶段获得的低层特征为i
low
＝GMP(Layer1‑4(I))，其中i
high
∈R
2048
，i
low
∈R
1034
。3.根据权利要求2所述的一种基于多尺度和多视角特征对齐的文本车辆重识别方法，其特征在于，步骤2中所述的通过在ResNet
‑
50残差网络中间层引入车辆视角掩码，获得车辆图像的视角特征的方法具体为：将ResNet
‑
50残差网络第四层输出的特征图定义为中间层特征I
mid
＝Layer1‑4(I)，并引入训练好的车辆视角掩码{M
fro
，M
sid
，M
rea
}，从而获得对应的视角特征i
v
＝GMP(Layer4(M
fro
*I
mid
))，v∈{fro，sid，rea}；再使用视角特征聚合获得复合视角特征i
com
＝RMP(Concat(i
fro
，i
rea
，i
sid
))，其中i
fro
，i
sid
，i
rea
，i
com
∈R
2048
。4.根据权利要求3所述的一种基于多尺度和多视角特征对齐的文本车辆重识别方法，其特征在于，步骤3中所述的使用车辆视角掩码生成视角分支的相似度权重的方法具体为：车辆三个视角所占图像区域的比例随着摄像机的角度和车辆的行行驶程而变化，使用车辆视角掩码对三个分支的权重进行归一化，实现动态地聚合视角分支的相似度得分：[w
fro
，w
sid
，w
rea

【专利技术属性】
技术研发人员：李成龙，丁乐奇，
申请(专利权)人：安徽大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人