基于多分支网络的无监督行人重识别方法及装置制造方法及图纸

技术编号:34467617 阅读:12 留言:0更新日期:2022-08-10 08:40
本公开提供一种基于多分支网络的无监督行人重识别训练方法,包括:源域训练和目标域训练,在源域训练阶段,将带有标签的图像输入至预训练模型进行训练,获得训练好的预训练模型;在目标域训练阶段,将无标签的图像输入至目标域训练模型中,经训练,获得行人重识别模型。本公开还提供了一种基于多分支网络的无监督行人重识别训练装置,以及一种基于多分支网络的无监督行人重识别方法、装置、电子设备以及可读存储介质。及可读存储介质。及可读存储介质。

【技术实现步骤摘要】
基于多分支网络的无监督行人重识别方法及装置


[0001]本公开涉及行人再识别
,尤其涉及一种基于多分支网络的无监督行人重识别训练方法、装置,还涉及一种基于多分支网络的无监督行人重识别方法、装置、电子设备及可读存储介质。

技术介绍

[0002]行人重识别(Re

ID)是一个细粒度的实例识别问题,目的是从分布多个非重叠摄像机系统中采集到的一组行人图像或视频中找到查询人。行人重识别在现实生活中有着广泛的应用,如罪犯搜索、多摄像机跟踪、失踪人员搜索等。重识别在很大程度上依赖于从不相交的摄像机视图中获得的视觉相似的行人外观,其基本任务是学习具有区别性的人物特征,并将查询与图库图像或视频中最匹配的人关联起来。不同摄像机的光照和几何变化是最大的挑战。大多数工作都集中于在各种环境下对小到大的数据集进行有监督学习。然而,他们需要大量成对的跨摄像机标记数据,这限制了大规模应用的可拓展性,在实际大规模应用中只有未标记的数据是可用的,因为成对标记数据需要耗费大量的人力和物力。由于不同数据集之间存在很大的差异性,提出了无监督域自适应(UDA)模型,该模型通过在带有标签的源数据域上进行训练,将训练好的预训练模型从带有身份标签的源域转移到没有标签的目标图像域。在实际现实生活中,可以很容易的记录未标记的目标域,使用这些图像来检测行人重识别模型比较直观。
[0003]无监督域自适应的行人重识别因为其能够节省人工标注成本而广泛使用。第一类方法是通过对齐目标特征学习域不变特征,一些方法利用语义属性来对齐潜在空间中的特征分布。然而,这些方法大部分依赖于额外的属性注释,需要人工额外的标注。另一种方式是通过风格迁移将标记的源域图像转换为目标域的样式。利用生成性对抗网络(GAN)来对齐特征分布。SPGAN和PTGAN对源域图像进行了变换,以匹配目标域的图像风格,同时保留人物身份。风格转换后的图像和身份标签被用于微调模型。Zhong等人通过学习相机转移的不变特性来实现跨摄像机的训练。这种方法严重依赖于图像的生成质量,并且没有探索目标域中不同样本之间的复杂关系。第二种是基于伪标签的自适应是一种更直接的无监督跨域重识别方法,它直接为未标记的目标图像分配伪标签,并允许以有监督的方式微调预训练模型。
[0004]由于缺乏成对标记数据来学习摄像机不变的特征表示,无监督行人重识别的性能一般低于有监督行人重识别。近年来,无监督行人重识别显著缩小了与有监督的表现差距。因此,由于其可扩展的应用,无监督在近几年中越来越受到关注。大多数现有的无监督方法对未标注的图像用聚类算法进行分组,并用聚类生成的伪标签来训练网络。但神经网络的训练有标签噪声的阻碍。噪声主要来源于源域与目标域间的差异、光照影响和聚类算法的缺陷等。伪标签噪声的影响对最终的性能有至关重要的影响。为了处理有噪声的标签,最流行的方法之一是训练成对的网络,这样成对的网络可以相互纠正,其中Co

tracher运用两个学生网络,MMT中用两个学生和两个教师网络,但每个网络都具有相同的结构。很容易彼
此收敛并陷入局部最小值。为了缓解这些问题,一些方法选用不同的训练样本或者不同的初始化参数和数据扩充。聚类算法生成的可信度为100%的硬伪标签。由于行人重识别是一个细粒度的识别问题,在数据集中拥有相似衣服的人并不少见,这些类似样本的硬标签可能非常嘈杂。在这种情况下,软伪标签(置信度<100%)更可靠。使用硬伪标签和软伪标签进行学习,可以有效缓解标签噪声。Ge等人提出在模型中加入Mean Teacher作为在线软伪标签生成器,有效降低了训练时由于噪声标签产生的误差放大情况。
[0005]然而,现有的方法大多忽略了聚类算法产生的硬伪标签的噪声,其严重阻碍了神经网络的训练。为了减轻基于聚类的标签噪声,研究人员借鉴了半监督学习和噪声标签学习中如何使用未标记数据的思想。MMT采用两个学生网络和两个教师网络,两个学生网络的初始化不同,以便增强成对师生网络的差异性。每一个教师网络都提供了伪标签来监督另一个网络的学生网络。然而,尽管在成对网络中使用不同的初始化和不同的数据增强技术,但是在训练时如何处理噪声样本是基于聚类的无监督行人重识别方法面临的问题。

技术实现思路

[0006]为了解决上述技术问题中的至少一个,本公开提供了一种基于多分支网络的无监督行人重识别训练方法、装置,还提供一种基于多分支网络的无监督行人重识别方法、装置、电子设备及可读存储介质。
[0007]根据本公开的一个方面,提供一种基于多分支网络的无监督行人重识别训练方法,包括:
[0008]源域训练,在所述源域训练阶段,将带有标签的图像输入至预训练模型进行训练,获得训练好的预训练模型;
[0009]目标域训练,在所述目标域训练阶段,将无标签的图像输入至目标域训练模型中,经训练,获得目标域训练模型;
[0010]其中,所述标签用于标识图像的类别,所述图像的类别与图像中包含的行人对应,所述目标域训练模型的组成包括所述源域训练阶段获得的训练好的预训练模型。
[0011]根据本公开至少一个实施方式的基于多分支网络的无监督行人重识别训练方法,所述预训练模型的训练过程包括:
[0012]将训练集中的各个图像及图像对应的标签输入至预训练模型,经所述训练模型处理后,输出各个图像的第一全局特征和第一局部特征,所述标签用于标识图像的类别,所述图像的类别与图像中包含的行人对应;
[0013]将所述第一全局特征和第一局部特征输入至第一分类器,分别获得所述第一全局特征和第一局部特征对应的预测值,所述预测值用于标识经所述分类器分类后的所述第一全局特征和第一局部特征的对应的图像的类别;
[0014]构建预训练损失函数,并通过预训练损失函数计算训练效果,反复训练所述预训练模型直至预训练损失函数的计算值达到预期指标;
[0015]其中,所述预训练损失函数通过交叉熵损失函数、三元组损失函数的加权求和获得。
[0016]根据本公开至少一个实施方式的基于多分支网络的无监督行人重识别训练方法,所述预训练模型的组成包括:
[0017]主干网络模型,所述主干网络模型串行连接各个分支网络模型,接收输入至预训练模型的图像,将所述图像处理后,将获得的图像特征输入至各个分支网络模型;
[0018]分支网络模型,所述分支网络模型至少为两个,包括全局分支网络模型和局部分支网络模型,所述全局分支网络模型通过将所述图像特征全局最大池化后得到全局特征,所述局部分支网络模型将所述图像的图像特征平均池化后拼接在一起得到局部特征;
[0019]其中,所述主干网络的组成包括卷积神经网络和卷积模块注意力机制模块,所述分支网络的组成包括卷积神经网络和卷积模块注意力机制模块。
[0020]根据本公开至少一个实施方式的基于多分支网络的无监督行人重识别训练方法,所述注意力模块包括:
[0021]通道注意力模块,接收图像特征,所述图像特征为输入至所述主干网络模型的图像经所述主干模型本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于多分支网络的无监督行人重识别训练方法,其特征在于,包括:源域训练,在所述源域训练阶段,将带有标签的图像输入至预训练模型进行训练,获得训练好的预训练模型;以及目标域训练,在所述目标域训练阶段,将无标签的图像输入至目标域训练模型中,经训练,获得行人重识别模型;其中,所述标签用于标识图像的类别,所述图像的类别与图像中包含的行人对应,所述目标域训练模型的组成包括所述源域训练阶段获得的训练好的预训练模型。2.根据权利要求1所述的基于多分支网络的无监督行人重识别训练方法,其特征在于,所述预训练模型的训练过程包括:将训练集中的各个图像及图像对应的标签输入至预训练模型,经所述训练模型处理后,输出各个图像的第一全局特征和第一局部特征,所述标签用于标识图像的类别,所述图像的类别与图像中包含的行人对应;将所述第一全局特征和第一局部特征输入至第一分类器,分别获得所述第一全局特征和第一局部特征对应的预测值,所述预测值用于标识经所述第一分类器分类后的与所述第一全局特征和第一局部特征对应的图像的类别;以及构建预训练损失函数,并通过所述预训练损失函数计算训练效果,反复训练所述预训练模型直至所述预训练损失函数的计算值达到预期指标;其中,所述预训练损失函数通过交叉熵损失函数、三元组损失函数的加权求和获得。3.根据权利要求2所述的基于多分支网络的无监督行人重识别训练方法,其特征在于,所述预训练模型的组成包括:主干网络模型,所述主干网络模型串行连接各个分支网络模型,接收输入至预训练模型的图像,将所述图像处理后,将获得的图像特征输入至各个分支网络模型;以及分支网络模型,所述分支网络模型至少为两个,包括全局分支网络模型和局部分支网络模型,所述全局分支网络模型通过将所述图像特征全局最大池化后得到全局特征,所述局部分支网络模型将所述图像的图像特征平均池化后拼接在一起得到局部特征;其中,所述主干网络的组成包括卷积神经网络和卷积模块注意力机制模块,所述分支网络的组成包括卷积神经网络和卷积模块注意力机制模块。4.根据权利要求3所述的基于多分支网络的无监督行人重识别训练方法,其特征在于,所述注意力模块包括:通道注意力模块,接收图像特征,所述图像特征为输入至所述主干网络模型的图像经所述主干模型处理后获得,将所述图像的特征分别进行全局最大池化操作和平均池化操作,得到两个第一特征图,将所述两个第一特征图进行拼接操作,再经过卷积层和归一化操作,生成空间注意力权值;以及空间注意力模块,接收所述通道注意力模块输出的特征图,将通道注意力模块输出的特征图分别进行全局最大池化操作和全局平均池化操作,得到两个第二特征图,将所述两个第二特征图基于图像通道做拼接操作,再经过卷积层和归一化操作,生成空间注意力权值;其中,所述通道注意力模块与所述空间注意力模块通过串行的方式进行连接。5.根据权利要求1所述的基于多分支网络的无监督行人重识别训练方法,其特征在于,
所述目标域训练模型包括:教师网络,接收目标域训练集的各个图像,输出与各个图像对应的第二全局特征和第二局部特征;学生网络,接收目标域训练集的各个图像,输出与各个图像对应的第三全局特征和第三局部特征;第二分类...

【专利技术属性】
技术研发人员:朱成博曲寒冰王鑫轩李国鑫阎刚
申请(专利权)人:北京市新技术应用研究所有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1