一种基于生成式对抗网络的行人检测数据扩充方法技术

技术编号:26377777 阅读:26 留言:0更新日期:2020-11-19 23:46
本发明专利技术涉及一种基于生成式对抗网络的行人检测数据扩充方法,包括:S1、搭建三层级联生成式对抗神经网络模型,并设定模型训练的目标函数;每层生成式对抗神经网络均采用BicycleGAN的结构,生成器采用残差U‑net结构,后一层的网络的输入为行人实例掩码图片和前一层网络的输出;S2、训练数据预处理;S3、采用预处理后的数据训练三层级联生成式对抗神经网络模型;S4、通过三层级联生成式对抗神经网络模型完成行人检测数据的扩充。采用本发明专利技术的方案生成的行人与背景融合更加自然,通过生成器的U‑net结构进行改进,使生成的行人细节更加精细;基于级联结构生成多尺度的行人图片,提高了大尺寸、高分辨率行人图片的质量;能够生成多样化的行人,提高了数据扩充的效率。

【技术实现步骤摘要】
一种基于生成式对抗网络的行人检测数据扩充方法
本专利技术涉及图像处理领域,特别涉及一种基于生成式对抗网络的行人检测数据扩充方法。
技术介绍
本专利技术涉及行人检测是视频处理中的一项基本任务,广泛应用于智能视频监控、自动驾驶、机器人自动化等场景中,训练高精度的行人检测模型需要大规模、高质量的行人图片数据集。目前,行人检测相关研究主要是使用已有的公开数据集,这些数据集大多来自巨头互联网公司,他们投入了大量的人工标注和矫正成本来保证数据集的可靠性。在这些公开数据集上训练模型时,研究者们常使用传统数据扩充方法,例如图片翻转、随机剪裁、调整颜色等对训练集图片进行扩充。然而,这些方法本质上并没能丰富数据集的内容,数据扩充的效果有限。面对这个问题,我们提出了一种级联结构的生成式对抗神经网络,它能够自动生成多尺寸、高质量、服饰各异的行人,从而达到自动化地大规模扩充行人检测数据集的目的。生成式对抗神经网络(GenerativeAdversarialNetwork,GAN)是一种深度学习网络结构,它包含两个基本部分:生成器和判别器。在利用GAN进行图片生成的过程中,生成器的目标是生成尽可能真实的图片,判别器的目标是判断出哪些数据是真实的,哪些数据是生成的。通过训练网络,生成器和判别器不断地对抗,最终使网络学会生成与真实图片足够相近的图片。近年来,基于GAN网络进行数据扩充成为了一个研究热点,已有的研究有生成植物图片用于植物识别的、生成医学CT图片用于辅助智能诊断的等等,但行人图片生成的研究还比较少,生成的行人图片质量也有待提高。前人工作基于GAN网络的行人生成方法主要思路是:给出一幅背景图(如街道图片),在背景图片中希望生成行人的位置上添加一个行人框,将框内的背景图替换成噪声(如高斯噪声),将其作为GAN网络的输入,基于U-net网络结构构建生成器,使用一个局部判别器来判断生成的行人是否真实,使用一个全局判别器来判断整幅行人图片是否真实,使用空间金字塔池化技术(SpatialPyramidPooling)来处理大小各异的多分辨率行人。这种方法存在几点问题:第一,添加的方框和背景的交界处有明显的边缘痕迹,生成的图片看起来像是在背景上贴了一个方形贴纸,不真实。第二,模型生成的行人细节粗糙,质量不高,这在大尺寸的高分辨率行人上尤其严重。第三,该方法训练的模型缺乏多样性,生成的行人衣着、颜色相似,这对数据扩充来说不够好。
技术实现思路
本专利技术所要解决的技术问题是:1.解决生成的行人图片中行人框与背景融合时边缘痕迹明显的问题;2.解决生成的行人细节粗糙的问题;3.解决大尺寸的高分辨率行人质量低的问题;4.解决生成的行人图片缺乏多样性的问题。针对上述存在的问题,提供了一种基于生成式对抗网络的行人检测数据扩充方法。本专利技术采用的技术方案如下:一种基于生成式对抗网络的行人检测数据扩充方法,包括:S1、搭建三层级联生成式对抗神经网络模型,并设定模型训练的目标函数;每层生成式对抗神经网络均采用BicycleGAN的结构,生成器采用残差U-net结构,后一层的网络的输入为行人实例掩码图片和前一层网络的输出;S2、训练数据预处理;S3、采用预处理后的数据训练三层级联生成式对抗神经网络模型;S4、通过三层级联生成式对抗神经网络模型完成行人检测数据的扩充。进一步的,所述S1中,搭建三层级联生成式对抗神经网络模型具体过程包括:S11、构建残差U-net结构的生成器,生成器的编码器部分加入多尺度残差块,生成器的解码器部分加入通道注意力残差块;具体的,所述残差U-net结构的生成器在U-net的基础上进行改进,在编码器部分,将U-net的每个基本块中第二个3×3卷积替换为一个多尺度残差块作为新的基本块;在解码器部分,将U-net的每个基本块中第一个3×3卷积替换为一个通道注意力残差块作为新的基本块;向编码器的每个中间层注入一个经掩码遮掩的16维隐层向量。S12、基于PatchGAN的判别器进行构建判别器;S13、基于残差网络构建编码器;S14、级联网络每一层采用S11、S12、S13构建的生成器、判别器和编码器,第一层输入的图片分辨率为64*64,第二层为128*128,第三层为256*256;两层生成式对抗网络之间通过一个卷积层相连,形成三层级联生成式对抗神经网络;S15、基于BicycleGAN的目标函数加入基于VGG-19的感知损失作为三层级联生成式对抗神经网络模型的目标函数。进一步的,所述步骤11中,生成器的编码器部分的每个中间层注入一个16维的隐层向量z,所述隐层向量z经过行人实例掩码遮掩。进一步的,所述步骤15中三层级联生成式对抗神经网络模型的目标函数具体为:其中,G*,E*分别代表生成器和编码器,Dwhole是全局判别器,Dlocal是局部判别器,和LGAN(·)分别代表BicycleGAN网络结构中的cVAE-GAN和cLR-GAN的对抗损失目标函数;是L1损失,它使生成器的输入尽可能与行人样本图片相似;也是L1损失,它使编码器的输出尽可能贴近高斯分布;LKL是cLR-GAN中的KL距离,LVGG是感知损失;λ、λKL、λlatent、λVGG是超参数,控制对应项的权重。进一步的,所述S2的具体包括:S21、从Cityscapes数据集从取出每层生成对抗网络所需像素大小的行人样本图,得到行人样本图集合;S22、根据Cityscapes的实例标签图集合和步骤S1得到的行人样本图集合,获取每张行人样本图对应的实例标签图,将每个标签图与对应样本图对齐并剪裁,重复该过程,得到行人样本图集合对应的实例标签图集合L;S23、将每张实例标签图中最中间的行人的像素点值置为1,其他像素点值置为0,得到每张样本图的行人实例掩码M;S24、利用得到的行人实例掩码对对应行人样本图进行处理,得到经行人实例掩码后的图像BM;S25、将Cityscapes数据集的实例标签图与步骤S1获得的行人样本图集合对齐,将实例标签图中实例与实例的交界处像素值置为1,实例内的像素值置为0,则得到对应的实例边缘图E;S26、将步骤S22、S23、S24、S25得到的集合中每张图片所对应的BM,M,L,E依次拼接,获得三层级联生成式对抗神经网络模型输入集合A,A={BM,M,L,E}。进一步的,所述步骤21中,针对每层生成对抗式神经网格提取不同的行人样本图,对于第一层网络,取出数据集中高度在[64,256]像素的行人样本,每一个行人样本是一张正方形图片,边长与行人等高,图片的中心为行人的中心,调整取出图片的大小(resize)为64*64像素;对于第二层网络,取出高度在[100,1024]像素的行人样本,调整图片大小到128*128像素;对于第三层网络,取出高度在[150,1024]像素的行人样本,调整图片大小到256*256*像素。进一步的,所述S3的具体包括:在训练级联网络时,训练N轮,...

【技术保护点】
1.一种基于生成式对抗网络的行人检测数据扩充方法,其特征在于,包括:/nS1、搭建三层级联生成式对抗神经网络模型,并设定模型训练的目标函数;每层生成式对抗神经网络均采用BicycleGAN的结构,生成器采用残差U-net结构,后一层的网络的输入为行人实例掩码图片和前一层网络的输出;/nS2、训练数据预处理;/nS3、采用预处理后的数据训练三层级联生成式对抗神经网络模型;/nS4、通过三层级联生成式对抗神经网络模型完成行人检测数据的扩充。/n

【技术特征摘要】
1.一种基于生成式对抗网络的行人检测数据扩充方法,其特征在于,包括:
S1、搭建三层级联生成式对抗神经网络模型,并设定模型训练的目标函数;每层生成式对抗神经网络均采用BicycleGAN的结构,生成器采用残差U-net结构,后一层的网络的输入为行人实例掩码图片和前一层网络的输出;
S2、训练数据预处理;
S3、采用预处理后的数据训练三层级联生成式对抗神经网络模型;
S4、通过三层级联生成式对抗神经网络模型完成行人检测数据的扩充。


2.根据权利要求1所述的基于生成式对抗网络的行人检测数据扩充方法,其特征在于,所述S1中,搭建三层级联生成式对抗神经网络模型具体过程包括:
S11、构建残差U-net结构的生成器,生成器的编码器部分加入多尺度残差块,生成器的解码器部分加入通道注意力残差块;所述生成器在第一层、第二层、第三层网络中包含的基本块个数分别为n1=12,n2=14,n3=16,在每层的第j个和第n-j个基本块之间跳连;所述基本块包括多尺度残差块和通道注意力残差块;
S12、基于PatchGAN的判别器进行构建判别器;
S13、基于残差网络构建编码器;
S14、级联网络每一层采用S11、S12、S13构建的生成器、判别器和编码器,第一层输入的图片分辨率为64*64,第二层为128*128,第三层为256*256;两层生成式对抗网络之间通过一个卷积层相连,形成三层级联生成式对抗神经网络;
S15、基于BicycleGAN的目标函数加入基于VGG-19的感知损失作为三层级联生成式对抗神经网络模型的目标函数。


3.根据权利要求2所述的基于生成式对抗网络的行人检测数据扩充方法,其特征在于,所述步骤11中,生成器的编码器部分的每个中间层注入一个16维的隐层向量z,所述隐层向量z经过行人实例掩码遮掩。


4.根据权利要求3所述的基于生成式对抗网络的行人检测数据扩充方法,其特征在于,所述步骤15中三层级联生成式对抗神经网络模型的目标函数具体为:



其中,G*,E*分别代表生成器和编码器,Dwhole是全局判别器,Dlocal是局部判别器,和LGAN(·)分别代表BicycleGAN网络结构中的cVAE-GAN和cLR-GAN的对抗损失目标函数;是L1损失,它使生成器的输入尽可能与行人样本图片相似;也是L1损失,它使编码器的输出尽可能贴近高斯分布;LKL是cLR-GAN中的KL距离,LVGG是感知损失;λ、λKL、λlatent、λVGG是超参数,控制对应项的权重。


5.根据权利要求1或4所述的基于生成式对抗网络的行人检测数据扩充方法,其特征在于,所述S2的具体包括:
S21、从Cityscapes数据集从取出每层生成对抗网络所需像素大小的行人样本图,得到行人样本图集合;
S22、根据Cityscapes的实例标签图集合和步骤S1得到的行人样本图集合,获取每张行人样本图对应的实例标签图,将每个标签图与对应样本图对齐并剪裁,重复该过程,得到行人样本图集合对应的实例标签图集合L;
S23、将每张实例标签图中最中间的行人的像素点值置为1,其他像素点值置为0,得到每张样本图的行人实例掩码M;
S24、利用得到的行人实例掩码对对应行人样本图进行处理,得到经行人实例掩码后的图像BM;
S25、将Cityscapes数据集的实例标签图与步骤S1获得的行人样本图集合对齐,将实例标签图中实例与实例的交界处像素值置为1,实例内的像素值置为0,则得到对应的实例边缘图E;
S26、将步骤S22、S23、S24、S...

【专利技术属性】
技术研发人员:彭滢吴杰
申请(专利权)人:中国电子科技网络信息安全有限公司
类型:发明
国别省市:四川;51

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1