一种面向自动驾驶的跨模态行人检索方法技术

技术编号:35643237 阅读:13 留言:0更新日期:2022-11-19 16:35
本发明专利技术实施例公开了一种面向自动驾驶的跨模态行人检索方法,该方法包括:提取可见光模态训练行人图像和红外模态训练行人图像的局部特征;根据局部特征之间的差异,获取每个区域对应的局部成对图注意力网络;根据相同身份相同区域的局部特征,计算异构中心,根据局部特征及对应的异构中心构建得到总对比损失函数;构建总损失函数,利用总损失函数对跨模态行人检索模型参数进行更新,得到最优跨模态行人检索模型;利用最优跨模态行人检索模型进行跨模态行人检索。本发明专利技术利用卷积神经网络和图注意力机制,学习不同模态训练行人特征之间的关系,最终缓解了可见光行人图像和红外行人图像之间的差异,进一步提高了跨模态行人检索的性能。的性能。的性能。

【技术实现步骤摘要】
一种面向自动驾驶的跨模态行人检索方法


[0001]本专利技术属于计算机视觉、模式识别、自动驾驶、人工智能领域,具体涉及一种面向自动驾驶的跨模态行人检索方法。

技术介绍

[0002]环境感知是实现智能驾驶的第一环节,能够解决自动驾驶中“我在哪”、“我去哪”的核心问题。摄像头是环境感知重要的传感器,能对物体几何特征、表面纹理等信息进行识别,通过算法实现对障碍物的探测,技术成熟、造价较低,最远可超过500米。自动驾驶中的图像感知信息受到广泛关注。同时,行人是道路上最重要的分析对象之一。
[0003]近年来,行人检索因其在自动驾驶、智能监控中的重要作用,得到了学术界和工业界的广泛关注。它主要研究在不同摄像机下搜索相同行人的方法。然而普通的行人检索模型无法应用于24小时全天候监测,为了克服这种限制,跨模态行人检索技术应运而生。跨模态行人检索不仅面临普通行人检索的挑战,还需要面对模态差异的巨大挑战。
[0004]近期,很多跨模态行人检索方法提出通过学习两个模态图像的特征表达以及利用度量函数减小两个模态特征的距离进而克服模态差异。一些研究人员通过深度模型提取特定模态特征和共享模态特征从而更好的表示两个模态图像,同时利用深度学习模型提取两个模态图像局部特征也被证明可以提高跨模态行人检索方法的性能。此外,一些方法利用图卷积的方式聚合其他身份的行人特征进而提高特征的表征力,Ye等人将经过全局池化后的两个模态的行人图像特征作为图节点,利用图像的标签建立邻接矩阵并构建图注意力机制。通过邻接矩阵,图注意力系数将不同模态特征融入每个全局特征,进而提高了特征的鲁棒性。Zhang等人利用行人的局部特征作为图节点,每张图像的局部特征构成一个图,利用节点间的邻接关系和图系数缓解模态内部的变化。关于度量函数,Ye等人利用带有权重的三元组损失函数缓解模态之间的差异,拉近同模态同身份行人特征的距离以及不同模态同身份行人特征的距离。Zhu等人提出了异构中心损失,利用深度学习网络提取两个模态行人图像的局部特征,之后分别求出在两个模态相同身份同区域的均值特征,在优化过程中使不同模态相同身份的均值特征距离变小,进而减少模态之间的距离。
[0005]以上基于图的跨模态行人检索方式,忽视了利用成对的不同模态图像特征关系构建图节点,在图节点更新过程中没有融合节点间额外的信息,削弱了特征的判别性;基于度量的损失函数,忽视了单个模态特征与其异构中心之间的关系,导致奇异点特征,影响模态特征分布距离的优化。

技术实现思路

[0006]本专利技术的目的是要缓解不同模态行人图像之间的模态差异,为此,本专利技术提供一种面向自动驾驶的跨模态行人检索方法。
[0007]为了实现所述目的,本专利技术提出的一种面向自动驾驶的跨模态行人检索方法包括以下步骤:
[0008]步骤S1,利用预训练深度学习模型构建局部特征提取模块,将可见光模态训练行人图像和红外模态训练行人图像输入所述局部特征提取模块,每张训练行人图像得到P个局部特征;
[0009]步骤S2,根据可见光模态训练行人图像和红外模态训练行人图像的局部特征之间的差异,获取与每个区域对应的局部成对图注意力网络;
[0010]步骤S3,根据相同身份相同区域的可见光模态训练行人图像和红外模态训练行人图像的局部特征,计算得到另一模态训练行人图像相应身份和区域的异构中心,根据局部特征及其对应的异构中心构建得到总对比损失函数;
[0011]步骤S4,构建总损失函数,并利用所述总损失函数,对跨模态行人检索模型参数进行更新,得到最优跨模态行人检索模型,其中,所述跨模态行人检索模型包括局部特征提取模块、局部成对图注意力网络以及分类全连接层;
[0012]步骤S5,在测试阶段,利用所述最优跨模态行人检索模型提取得到待查询模态行人图像多个区域的局部特征,将所述多个区域的局部特征串联起来,作为所述待查询模态行人图像的查询特征,基于所述查询特征在跨模态行人库图像中进行检索,得到跨模态行人检索结果。
[0013]可选地,所述步骤S1包括以下步骤:
[0014]步骤S11,分别构建两个预训练深度学习模型,并对其进行参数初始化,得到所述局部特征提取模块;
[0015]步骤S12,对训练集中的可见光模态训练行人图像以及红外模态训练行人图像进行预处理;
[0016]步骤S13,将预处理后得到的可见光模态训练行人图像和红外模态训练行人图像分别输入所述局部特征提取模块中,得到与所述可见光模态训练行人图像和红外模态训练行人图像分别对应的特征图;
[0017]步骤S14,基于得到的特征图执行平均池化,分别得到所述可见光模态训练行人图像和红外模态训练行人图像的P个局部特征。
[0018]可选地,所述步骤S2包括以下步骤:
[0019]步骤S21,将第i张可见光模态训练行人图像和第j张红外模态训练行人图像第p个区域的局部特征做差,得到不同模态同一区域的局部特征差异并将所述局部特征差异作为第p个区域的局部成对图注意力网络中的第j个节点,其中,局部成对图注意力网络的数量为P;
[0020]步骤S22,计算每个局部成对图注意力网络中各个节点之间的距离,构建基于距离的可变系数,其中,节点间距离越小,相应的可变系数就越大,从而增强了节点间的相关性;
[0021]步骤S23,将所述每个局部成对图注意力网络中的节点成对的串联在一起,利用可学习参数向量,结合所述可变系数,计算得到每个局部成对图注意力网络中节点之间的语义图注意力系数;
[0022]步骤S24,利用每个局部成对图注意力网络中节点之间的语义图注意力系数对相应的节点进行更新,以学习节点间的相关性以及不同模态之间的关系;
[0023]步骤S25,利用可学习参数矩阵和非线性函数来对节点进行最终的更新。
[0024]可选地,基于第p个区域的局部成对图注意力网络中节点间距离构建的可变系数表示为:
[0025][0026]其中,β是可调参数,|| ||2表示计算欧式距离,和分别表示第p个区域的局部成对图注意力网络中的第n个节点和第m个节点。
[0027]可选地,第p个区域的局部成对图注意力网络中的第n个节点与第m个节点之间的语义图注意力系数表示为:
[0028][0029]其中,表示第p个区域的局部成对图注意力网络中的第u个节点,l()表示LeakyReLU操作,「,」表示将节点特征进行串联,q∈R
2D
×1是可学习参数向量,D表示局部成对图注意力网络中节点的维度,U是第p个区域的局部成对图注意力网络的节点总数。
[0030]可选地,利用语义图注意力系数更新后的第p个区域局部成对图注意力网络中的第n个节点表示为:
[0031][0032]可选地,利用可学习参数矩阵和非线性函数来对节点进行最终的更新后得到的节点表示为:
[0033][0034]其中,w
T
∈R
2D
×2是可学习矩阵,表示非线性操作ELU函数。
[00本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种面向自动驾驶的跨模态行人检索方法,其特征在于,所述方法包括以下步骤:步骤S1,利用预训练深度学习模型构建局部特征提取模块,将可见光模态训练行人图像和红外模态训练行人图像输入所述局部特征提取模块,每张训练行人图像得到P个局部特征;步骤S2,根据可见光模态训练行人图像和红外模态训练行人图像的局部特征之间的差异,获取与每个区域对应的局部成对图注意力网络;步骤S3,根据相同身份相同区域的可见光模态训练行人图像和红外模态训练行人图像的局部特征,计算得到另一模态训练行人图像相应身份和区域的异构中心,根据局部特征及其对应的异构中心构建得到总对比损失函数;步骤S4,构建总损失函数,并利用所述总损失函数,对跨模态行人检索模型参数进行更新,得到最优跨模态行人检索模型,其中,所述跨模态行人检索模型包括局部特征提取模块、局部成对图注意力网络以及分类全连接层;步骤S5,在测试阶段,利用所述最优跨模态行人检索模型提取得到待查询模态行人图像多个区域的局部特征,将所述多个区域的局部特征串联起来,作为所述待查询模态行人图像的查询特征,基于所述查询特征在跨模态行人库图像中进行检索,得到跨模态行人检索结果。2.根据权利要求1所述的方法,其特征在于,所述步骤S1包括以下步骤:步骤S11,分别构建两个预训练深度学习模型,并对其进行参数初始化,得到所述局部特征提取模块;步骤S12,对训练集中的可见光模态训练行人图像以及红外模态训练行人图像进行预处理;步骤S13,将预处理后得到的可见光模态训练行人图像和红外模态训练行人图像分别输入所述局部特征提取模块中,得到与所述可见光模态训练行人图像和红外模态训练行人图像分别对应的特征图;步骤S14,基于得到的特征图执行平均池化,分别得到所述可见光模态训练行人图像和红外模态训练行人图像的P个局部特征。3.根据权利要求1所述的方法,其特征在于,所述步骤S2包括以下步骤:步骤S21,将第i张可见光模态训练行人图像和第j张红外模态训练行人图像第p个区域的局部特征做差,得到不同模态同一区域的局部特征差异并将所述局部特征差异作为第p个区域的局部成对图注意力网络中的第j个节点,其中,局部成对图注意力网络的数量为P;步骤S22,计算每个局部成对图注意力网络中各个节点之间的距离,构建基于距离的可变系数,其中,节点间距离越小,相应的可变系数就越大,从而增强了节点间的相关性;步骤S23,将所述每个局部成对图注意力网络中的节点成对的串联在一起,利用可学习参数向量,结合所述可变系数,计算得到每个局部成对图注意力网络中节点之间的语义图注意力系数;步骤S24,利用每个局部成对图注意力网络中节点之间的语义图注意力系数对相应的节点进行更新,以学习节点间的相关性以及不同模态之间...

【专利技术属性】
技术研发人员:张重董清刘爽夏鹏魏所库马瑞
申请(专利权)人:天津海豚智行科技有限公司天津圣纳科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1