基于生成对抗网络的行人重识别检测方法技术

技术编号:21454575 阅读:23 留言:0更新日期:2019-06-26 04:58
本发明专利技术提供基于生成对抗网络的行人重识别检测方法,旨在快速并准确在视频监控中每一帧中的不同行人里检索到特定目标,提高视频监控中行人重识别检测精度。首先使用triple loss函数训练编码器网络,使得相同身份的行人类内距离减小,不同身份的行人类间距离增大;其次利用GAN网络的博弈对抗思维联合训练身份判别网络,引导身份判别网络的判别能力,再进一步联合训练编码器网络,更新编码器网络参数,使得编码器网络对于行人有更好的编码能力;将检测模型YOLO‑V3与本发明专利技术模型统一到一个框架完成端到端的目标检索。本发明专利技术致力于平衡行人重识别检测识别率和实时性,并将行人检测与行人重识别统一到一个框架,完成视频序列中特定目标检索。

【技术实现步骤摘要】
基于生成对抗网络的行人重识别检测方法
本专利技术属于图像视觉领域。尤指特定目标行人检测及定位。
技术介绍
行人重新识别是一项具有挑战性的任务,其目的是在多个摄像机上匹配具有相同身份的行人图像。随着深度学习方法的广泛使用,行人重识别性能迅速提高。由于不同尺度、距离和姿势的影响,在无约束的自然环境中背景的复杂性,场景中光照的变化、大气状况的变化以及天气等的影响会对检测目标造成严重干扰,检测出不同空间尺度的特定目标物体就更加具有挑战性。行人重识别在公安嫌疑人检索、交通管制、以及军事侦察、战场监视等诸多领域有着广阔的应用前景。面向视频监控的行人重识别研究是最活跃的研究领域之一。生成式对抗网络(GAN,GenerativeAdversarialNetworks)是一种深度学习模型,是近年来复杂分布上无监督学习最具前景的方法之一。模型通过框架中两个模块:生成模型(GenerativeModel)和判别模型(DiscriminativeModel)的互相博弈学习产生相当好的输出。利用GAN网络中博弈对抗的思维,联合训练编码器模型可以引导编码器网络模型更好编码目标特征;将GAN网络联合身份判别模型一起训练,可以提升身份判别网络判别能力。由于监控视频场景中人流量大且人群特征区分不明显,这严重影响了网络模型在视频监控中搜索出特定行人的性能。如何让模型将不同目标行人的特征区分开,学习到更有代表性的特征至关重要。因此,本专利技术提出基于生成对抗网络的行人重识别检测方法,身份判别模型的基础网络使用Inception-v2结构,与编码器模型的基础网络结构相同,可以共享网络参数。利用联合GAN网络训练去增强身份判别模型的判别能力和编码器模型的特征编码能力,将不同身份行人的类间距离增大,减小相同身份行人的类内距离,在测试过程中只是用编码器模型,保证了检测网络的实时性。
技术实现思路
本专利技术的目的是针对视频监控,提供一种端到端的增强式行人重识别方法,旨在快速并准确在视频监控中每一帧中的不同行人里检索到特定目标。提高视频监控中行人重识别检测精度;将检测模型YOLO-V3与本专利技术的编码器模型统一到一个框架进行特定目标检索,实现端到端的特定目标检索;在视频特定目标检索过程中只采用编码器网络,可以保证检索网络的实时性。为完成本专利技术的目的,本专利技术提供基于生成对抗网络的行人重识别方法。本专利技术所要解决的技术问题通过以下技术方案实现:一.样本采集本专利技术网络训练集采用Market-1501数据集,利用Market-1501数据集构建网络训练数据集,即三元组形式。第三步,将相同文件夹下的行人设定label为1,不同文件夹下的行人设定label为0。这个label是用于训练身份判别模型。二.训练编码器网络使用tripleloss函数训练编码器网络,使得相同身份的行人类内距离减小,不同身份的行人类间距离增大。三.训练GAN网络训练生成判别模型,使用噪声向量维度256-d,并将噪声向量与编码器网络提取的1024-d进行拼接,产生1280-d向量(在训练GAN网络时候不更新编码器网络中的参数)。四.训练身份判别网络身份判别网络确定了输入图像是否是同一个行人,利用来自编码器网络的两个输入图像的视觉特征(输入图像包括GAN网络中生成器生成的假图片和真实图片)。首先利用真实图片训练身份判别网络,让网络学习到怎样去判别人的身份特征,然后利用真假图片的混合数据,继续训练身份判别网络,更新此网络参数。五.联合训练网络将编码器网络的编码特征应用到GAN网络中,通过博弈对抗思维联合训练身份判别网络,同时更新三个网络的参数,联合不同任务互相促进网络性能。六.将行人检测与行人重识别统一框架将检测模型yolov3与本专利技术模型的编码器网络统一到一个框架,针对视频序列进行端到端特定目标检索,进行特定目标检索。本专利技术的有益效果是:提出了一种基于生成对抗网络的行人重识别检测方法框架,而且保证了检索的实时性。因为只需要在训练过程中应用GAN网络、身份判别网络,来提升编码器网络的编码特征能力。在测试过程中只需要应用编码器网络提取的1024-d特征信息,与目标行人的特征进行距离映射,通过设定阈值,阈值范围在5-10之间,本应用中设定阈值为5,不同应用可改变阈值。找到阈值范围内的最小距离作为最终目标区域,得到最终的检测结果。并且本专利技术将YOLO-V3网络与特征编码器网络统一到一个框架,在视频序列下可以进行端到端的目标行人检测。附图说明图1为编码器网络结构。图2为GAN中生成网络结构。图3为GAN中判别网络结构。图4为身份判别网络结构。图5为联合训练网络结构。图6为视频监控中特定目标检索流程图。图7为检索目标图像。图8为视频监控中的特定目标检索结果(背面)。图9为视频监控中的特定目标检索结果(侧面)。图10为视频监控中的特定目标检索结果(正面)。具体实施方式为了更好的解释本专利技术,以便于理解,下面结合附图,通过具体实施方式,对本专利技术作详细描述。在以下的描述中,将描述本专利技术的多个不同的方面,然而,对于本领域内的普通技术人员而言,可以仅仅利用本专利技术的一些或者全部结构或者流程来实施本专利技术。为了解释的明确性而言,阐述了特定的数目、配置和顺序,但是很明显,在没有这些特定细节的情况下也可以实施本专利技术。在其它情况下,为了不混淆本专利技术,对于一些众所周知的特征将不再进行详细阐述。针对现有行人重识别技术难以平衡检测精度与实时性,且检测算法适应能力不强,检测效果易受自然环境中背景、光照、角度等等问题的影响,本专利技术提出一种基于生成对抗网络的行人重识别检测方法。通过联合GAN网络并增加身份判别网络的联合训练,引导编码器网络更加准确编码行人特征,并在测试中仅应该编码器网络联合YOLO-V3检测模型。(一)样本采集(1)下载Market-1501数据集,其包括由6个摄像头(其中5个高清摄像头和1个低清摄像头)拍摄到的1501个行人、32668个检测到的行人矩形框。每个行人至少由2个摄像头捕获到,并且在一个摄像头中可能具有多张图像。训练集有751人,包含12,936张图像,平均每个人有17.2张训练数据,利用不同身份行人的各种角度照片,将相同身份行人的不同角度放在一个文件夹下,不同身份行人有不同的文件夹。(2)构建三元组,从(1)步骤中整理好的训练数据集中随机选一个样本,该样本称为Anchor,然后再随机选取一个和Anchor(记为xa)属于同一类的样本和不同类的样本,这两个样本对应的称为Positive(记为xp)和Negative(记为xn),由此构成一个(Anchor,Positive,Negative)三元组用于训练编码器模型。(3)将相同文件夹下的行人设定label为1,不同文件夹下的行人设定label为0。这个label是用于训练身份判别模型。(二)编码器网络训练搭建编码器网络模型,使用inception-v2网络结构作为编码器网络的基础框架,增加全连接层维度1024-d。编码器网络中应用TripletLoss损失函数,反向传播损失更新网络参数,TripletLoss用于训练差异性较小的样本,其中T代表训练样本集合,是Anchor样本在编码器网络中的特征映射,是Negative样本在编码器网络中的特征映射,Positiv本文档来自技高网
...

【技术保护点】
1.一种基于生成对抗网络的行人重识别检测方法,其特征在于步骤如下:一.样本采集网络训练集采用Market‑1501数据集,利用Market‑1501数据集构建编码器网络的训练数据集,即三元组形式;二.训练编码器网络使用triple loss函数训练编码器网络,使得相同身份的行人类内距离减小,不同身份的行人类间距离增大;三.训练GAN网络训练生成判别模型,使用噪声向量维度256‑d,并将噪声向量与编码器网络提取的1024‑d进行拼接,产生1280‑d向量;四.训练身份判别网络身份判别网络确定了输入图像是否是同一个行人,利用来自编码器网络的两个输入图像的视觉特征;五.联合训练网络联合训练网络是同时更新三个网络的参数,联合不同任务互相促进网络性能;将编码器网络的编码特征应用到GAN网络中,通过博弈对抗思维联合训练身份判别网络,联合训练中输入图像的视觉特征只有GAN网络中生成的假图片,引导身份判别网络的判别能力、GAN网络判别能力和造假能力、编码器网络编码能力;网络联合训练完后,只利用编码器网络进行后续工作;六.将行人检测与行人重识别统一框架将检测模型YOLO‑V3与模型的编码器网络统一到一个框架,针对视频序列进行端到端检索,完成目标检索。...

【技术特征摘要】
1.一种基于生成对抗网络的行人重识别检测方法,其特征在于步骤如下:一.样本采集网络训练集采用Market-1501数据集,利用Market-1501数据集构建编码器网络的训练数据集,即三元组形式;二.训练编码器网络使用tripleloss函数训练编码器网络,使得相同身份的行人类内距离减小,不同身份的行人类间距离增大;三.训练GAN网络训练生成判别模型,使用噪声向量维度256-d,并将噪声向量与编码器网络提取的1024-d进行拼接,产生1280-d向量;四.训练身份判别网络身份判别网络确定了输入图像是否是同一个行人,利用来自编码器网络的两个输入图像的视觉特征;五.联合训练网络联合训练网络是同时更新三个网络的参数,联合不同任务互相促进网络性能;将编码器网络的编码特征应用到GAN网络中,通过博弈对抗思维联合训练身份判别网络,联合训练中输入图像的视觉特征只有GAN网络中生成的假图片,引导身份判别网络的判别能力、GAN网络判别能力和造假能力、编码器网络编码能力;网络联合训练完后,只利用编码器网络进行后续工作;六.将行人检测与行人重识别统一框架将检测模型YOLO-V3与模型的编码器网络统一到一个框架,针对视频序列进行端到端检索,完成目标检索。2.根据权利要求1所述的方法,其特征在于样本采集具体步骤如下:(1)下载Market-1501数据集,根据不同身份行人的各种角度照片,将相同身份行人的不同角度放在一个文件夹下,不同身份行人有不同的文件夹;(2)构建三元组,从上一步骤中整理好的训练数据集中随机选一个样本,该样本称为Anchor,然后再随机选取一个和Anchor属于同一类的样本和不同类的样本,这两个样本对应的称为Positive和Negative,由此构成一个Anchor,Positive,Negative三元组用于训练编码器模型;(3)将相同文件夹下的行人设定label为1,不同文件...

【专利技术属性】
技术研发人员:刘艳霞张姗
申请(专利权)人:北京联合大学
类型:发明
国别省市:北京,11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1