行人再识别网络的训练方法、行人再识别方法和装置制造方法及图纸

技术编号:27570615 阅读:46 留言:0更新日期:2021-03-09 22:17
本申请提供了行人再识别网络的训练方法、行人再识别方法和装置。涉及人工智能领域,具体涉及计算机视觉领域。该方法包括:获取M个训练图像和该M个训练图像的标注数据;对行人再识别网络的网络参数进行初始化处理,以得到所述行人再识别网络的网络参数的初始值;将M个训练图像中的一批训练图像输入到行人再识别网络进行特征提取,得到这一批训练图像中的每个训练图像的特征向量,然后根据这一批训练图像的特征向量确定损失函数,并根据损失函数的函数值得到满足预设要求的行人再识别网络。本申请可以在单图像拍摄设备标注数据情况下训练出性能较好的行人再识别网络。练出性能较好的行人再识别网络。练出性能较好的行人再识别网络。

【技术实现步骤摘要】
行人再识别网络的训练方法、行人再识别方法和装置


[0001]本申请涉及计算机视觉领域,并且更具体地,涉及一种行人再识别网络的训练方法、行人再识别方法和装置。

技术介绍

[0002]计算机视觉是各个应用领域,如制造业、检验、文档分析、医疗诊断,和军事等领域中各种智能/自主系统中不可分割的一部分,它是一门关于如何运用照相机/图像拍摄设备和计算机来获取我们所需的,被拍摄对象的数据与信息的学问。形象地说,就是给计算机安装上眼睛(照相机/图像拍摄设备)和大脑(算法)用来代替人眼对目标进行识别、跟踪和测量等,从而使计算机能够感知环境。因为感知可以看作是从感官信号中提取信息,所以计算机视觉也可以看作是研究如何使人工系统从图像或多维数据中“感知”的科学。总的来说,计算机视觉就是用各种成像系统代替视觉器官获取输入信息,再由计算机来代替大脑对这些输入信息完成处理和解释。计算机视觉的最终研究目标就是使计算机能像人那样通过视觉观察和理解世界,具有自主适应环境的能力。
[0003]监控领域常常涉及行人再识别的问题,行人重识别(person re-identification,ReID)也可以称为行人再识别,行人再识别是利用计算机视觉技术判断图像或者视频序列中是否存在特定行人的技术。
[0004]传统方案一般是训练数据以及跨图像拍摄设备的标注数据,对行人再识别网络进行训练,使得行人再识别网络能够区分开不同行人的图像,进而进行行人的识别。但是,传统方案中的训练数据中包括同一行人由不同图像拍摄设备拍摄的图像,对于这种由不同图像拍摄设备拍摄的图像需要人工进行标注,使得同一行人由不同图像拍摄设备拍摄的图像关联起来(也就是将行人进行跨图像拍摄设备的关联)。但是,在很多场景下,将行人进行跨图像拍摄设备的关联非常困难,尤其是当人数增多、图像拍摄设备数量增多时,进行跨图像拍摄设备关联的难度也随之大幅提升。数据标注的经济成本高,时间消耗大。

技术实现思路

[0005]本申请提供一种行人再识别网络的训练方法、行人再识别方法和装置,以在单图像拍摄设备标注数据情况下训练出性能较好的行人再识别网络。
[0006]第一方面,提供了一种行人再识别网络的训练方法,该方法包括:
[0007]步骤1:获取训练数据;
[0008]其中,步骤1中的训练数据包括M个训练图像和M个训练图像的标注数据,M为大于1的整数;
[0009]步骤2:对行人再识别网络的网络参数进行初始化处理,以得到行人再识别网络的网络参数的初始值;
[0010]重复执行下面的步骤3至步骤5,直到行人再识别网络满足预设要求;
[0011]步骤3:将M个训练图像中的一批训练图像输入到行人再识别网络进行特征提取,
得到一批训练图像中的每个训练图像的特征向量;
[0012]步骤4:根据一批训练图像的特征向量确定损失函数的函数值;
[0013]步骤5:根据损失函数的函数值对行人再识别网络的网络参数进行更新。
[0014]在上述步骤1中,在训练数据的M个训练图像中,每个训练图像包括行人,每个训练图像的标注数据包括每个训练图像中的行人所在的包围框和行人标识信息,不同的行人对应不同的行人标识信息,在M个训练图像中,具有相同的行人标识信息的训练图像来自于同一图像拍摄设备。该M个训练图像可以是对行人再识别网络进行训练时采用的所有的训练图像,在具体训练过程,可以每次选择该M个训练图像中的一批训练图像输入到行人再识别网络中进行处理。
[0015]上述图像拍摄设备具体可以是摄像机、照相机等能够获取行人图像的设备。
[0016]上述步骤1中的行人标识信息也可以称为行人身份标识信息,是用于表示标识行人身份的一种信息,每个行人可以对应唯一的行人标识信息,该行人标识信息的表示方式有多种,只要能够指示行人的身份信息即可,例如,该行人标识信息具体可以是行人身份(identity,ID),也就是说,可以为每一个行人分配一个唯一的ID。
[0017]在上述步骤2中可以随机设置行人再识别网络的网络参数,得到行人再识别网络的网络参数的初始值。
[0018]在上述步骤3中,上述一批训练图像可以包括N个锚点图像,其中,该N个锚点图像是上述一批训练图像中的任意N个训练图像,该N个锚点图像中的每个锚点图像对应一个最难正样本图像,一个第一最难负样本图像和一个第二最难负样本图像。
[0019]下面对每个锚点图像对应的最难正样本图像,第一最难负样本图像和第二最难负样本图像进行说明。
[0020]每个锚点图像对应的最难正样本图像:上述一批训练图像中与每个锚点图像的行人标识信息相同,并且与每个锚点图像的特征向量之间的距离最远的训练图像;
[0021]每个锚点图像对应的第一最难负样本图像:上述一批训练图像中与每个锚点图像来自于同一图像拍摄设备,并与每个锚点图像的行人标识信息不同且与每个锚点图像的特征向量之间的距离最近的训练图像;
[0022]每个锚点图像对应的第二最难负样本图像:上述一批训练图像中与每个锚点图像来自不同图像拍摄设备,并与每个锚点图像的行人标识信息不同且与每个锚点图像的特征向量之间的距离最近的训练图像。
[0023]在上述步骤4中,损失函数的函数值是N个第一损失函数的函数值经过平均处理得到的。其中,上述N个第一损失函数中的每个第一损失函数的函数值是根据N个锚点图像中的每个锚点图像对应的第一差值和第二差值计算得到的。
[0024]上述N为正整数,上述N小于M。当N=1时,只有一个第一损失函数的函数值,此时可以直接将该第一损失函数的函数值作为步骤4中的损失函数的函数值。
[0025]可选地,上述每个第一损失函数的函数值是每个锚点图像对应的第一差值和第二差值的和。
[0026]可选地,上述每个第一损失函数的函数值是每个锚点图像对应的第一差值、第二差值和其他常数项的和。
[0027]下面对第一差值和第二差值以及形成第一差值和第二差值的各个距离的含义进
行说明。
[0028]每个锚点图像对应的第一差值:每个锚点图像对应的最难正样本距离与每个锚点图像对应的第二最难负样本距离的差;
[0029]每个锚点图像对应的第二差值:每个锚点图像对应的第二最难负样本距离与每个锚点图像对应的第一最难负样本距离的差;
[0030]每个锚点图像对应的最难正样本距离:每个锚点图像对应的最难正样本图像的特征向量与每个锚点图像的特征向量的距离;
[0031]每个锚点图像对应的第二最难负样本距离:每个锚点图像对应的第二最难负样本图像的特征向量与每个锚点图像的特征向量的距离;
[0032]每个锚点图像对应的第一最难负样本距离:每个锚点图像对应的第一最难负样本图像的特征向量与每个锚点图像的特征向量的距离。
[0033]另外,在本申请中,几个训练图像来自于同一图像拍摄设备是指这几个训练图像是通过同一个图像拍摄设备进行拍摄得到的。
[0034]本申请中,在构造损失函数的本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种行人再识别网络的训练方法,其特征在于,包括:步骤1:获取M个训练图像以及所述M个训练图像的标注数据,所述M个训练图像中的每个训练图像包括行人,所述每个训练图像的标注数据包括所述每个训练图像中的行人所在的包围框和行人标识信息,其中,不同的行人对应不同的行人标识信息,在所述M个训练图像中,具有相同的行人标识信息的训练图像来自于同一图像拍摄设备,M为大于1的整数;步骤2:对所述行人再识别网络的网络参数进行初始化处理,以得到所述行人再识别网络的网络参数的初始值;步骤3:将所述M个训练图像中的一批训练图像输入到所述行人再识别网络进行特征提取,得到所述一批训练图像中的每个训练图像的特征向量;其中,所述一批训练图像包括N个锚点图像,所述N个锚点图像是所述一批训练图像中的任意N个训练图像,所述N个锚点图像中的每个锚点图像对应一个最难正样本图像,一个第一最难负样本图像和一个第二最难负样本图像,N为正整数;所述每个锚点图像对应的最难正样本图像是所述一批训练图像中与所述每个锚点图像的行人标识信息相同,并且与所述每个锚点图像的特征向量之间的距离最远的训练图像,所述每个锚点图像对应的第一最难负样本图像是所述一批训练图像中与所述每个锚点图像来自于同一图像拍摄设备,并与所述每个锚点图像的行人标识信息不同且与所述每个锚点图像的特征向量之间的距离最近的训练图像,所述每个锚点图像对应的第二最难负样本图像是所述一批训练图像中与所述每个锚点图像来自不同图像拍摄设备,并与所述每个锚点图像的行人标识信息不同且与所述每个锚点图像的特征向量之间的距离最近的训练图像;步骤4:根据所述一批训练图像的特征向量确定损失函数的函数值,所述损失函数的函数值为N个第一损失函数的函数值经过平均处理得到的;其中,所述N个第一损失函数中的每个第一损失函数的函数值是根据所述N个锚点图像中的每个锚点图像对应的第一差值和第二差值计算得到的,所述每个锚点图像对应的第一差值是所述每个锚点图像对应的最难正样本距离与所述每个锚点图像对应的第二最难负样本距离的差,所述每个锚点图像对应的第二差值是所述每个锚点图像对应的第二最难负样本距离与所述每个锚点图像对应的第一最难负样本距离的差,所述每个锚点图像对应的最难正样本距离为所述每个锚点图像对应的最难正样本图像的特征向量与所述每个锚点图像的特征向量的距离,所述每个锚点图像对应的第二最难负样本距离为所述每个锚点图像对应的第二最难负样本图像的特征向量与所述每个锚点图像的特征向量的距离,所述每个锚点图像对应的第一最难负样本距离为所述每个锚点图像对应的第一最难负样本图像的特征向量与所述每个锚点图像的特征向量的距离;步骤5:根据所述损失函数的函数值对所述行人再识别网络的网络参数进行更新;重复上述步骤3至步骤5,直到所述行人再识别网络满足预设要求。2.如权利要求1所述的训练方法,其特征在于,所述行人再识别网络满足预设要求,包括:在满足下列条件中的至少一种时,所述行人再识别网络满足预设要求:所述行人再识别网络的训练次数大于或者等于预设次数;所述损失函数的函数值小于或者等于预设阈值;
所述行人再识别网络的识别性能达到预设要求。3.如权利要求2所述的训练方法,其特征在于,所述损失函数的函数值小于或者等于预设阈值,包括:所述第一差值小于第一预设阈值,所述第二差值小于第二预设阈值。4.如权利要求1-3中任一项所述的训练方法,其特征在于,所述M个训练图像为来自多个图像拍摄设备的训练图像,其中,来自不同图像拍摄设备的训练图像的标记数据是单独标记得到的。5.一种行人再识别方法,其特征在于,包括:获取待识别图像;利用行人再识别网络对待识别图像进行处理,得到所述待识别图像的特征向量,其中,所述行人再识别网络是根据如权权利要求1-4中的任一项所述的训练方法训练得到的;根据所述待识别图像的特征向量与已有的行人图像的特征向量进行比对,得到所述待识别图像的识别结果。6.一种行人再识别网络的训练装置,其特征在于,包括:获取单元,用于执行步骤1;步骤1:获取M个训练图像以及所述M个训练图像的标注数据,所述M个训练图像中的每个训练图像包括行人,所述每个训练图像的标注数据包括所述每个训练图像中的行人所在的包围框和行人标识信息,其中,不同的行人对应不同的行人标识信息,在所述M个训练图像中,具有相同的行人标识信息的训练图像来自于同一图...

【专利技术属性】
技术研发人员:魏龙辉张天宇谢凌曦田奇
申请(专利权)人:华为技术有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1