一种基于生成式对抗网络的行人检测数据扩充方法技术

技术编号：26377777 阅读：27 留言：0更新日期：2020-11-19 23:46

本发明专利技术涉及一种基于生成式对抗网络的行人检测数据扩充方法，包括：S1、搭建三层级联生成式对抗神经网络模型，并设定模型训练的目标函数；每层生成式对抗神经网络均采用BicycleGAN的结构，生成器采用残差U‑net结构，后一层的网络的输入为行人实例掩码图片和前一层网络的输出；S2、训练数据预处理；S3、采用预处理后的数据训练三层级联生成式对抗神经网络模型；S4、通过三层级联生成式对抗神经网络模型完成行人检测数据的扩充。采用本发明专利技术的方案生成的行人与背景融合更加自然，通过生成器的U‑net结构进行改进，使生成的行人细节更加精细；基于级联结构生成多尺度的行人图片，提高了大尺寸、高分辨率行人图片的质量；能够生成多样化的行人，提高了数据扩充的效率。

全部详细技术资料下载

【技术实现步骤摘要】
一种基于生成式对抗网络的行人检测数据扩充方法
本专利技术涉及图像处理领域，特别涉及一种基于生成式对抗网络的行人检测数据扩充方法。
技术介绍
本专利技术涉及行人检测是视频处理中的一项基本任务，广泛应用于智能视频监控、自动驾驶、机器人自动化等场景中，训练高精度的行人检测模型需要大规模、高质量的行人图片数据集。目前，行人检测相关研究主要是使用已有的公开数据集，这些数据集大多来自巨头互联网公司，他们投入了大量的人工标注和矫正成本来保证数据集的可靠性。在这些公开数据集上训练模型时，研究者们常使用传统数据扩充方法，例如图片翻转、随机剪裁、调整颜色等对训练集图片进行扩充。然而，这些方法本质上并没能丰富数据集的内容，数据扩充的效果有限。面对这个问题，我们提出了一种级联结构的生成式对抗神经网络，它能够自动生成多尺寸、高质量、服饰各异的行人，从而达到自动化地大规模扩充行人检测数据集的目的。生成式对抗神经网络(GenerativeAdversarialNetwork，GAN)是一种深度学习网络结构，它包含两个基本部分：生成器和判别器。在利用GAN进行图片生成的过程中，生成器的目标是生成尽可能真实的图片，判别器的目标是判断出哪些数据是真实的，哪些数据是生成的。通过训练网络，生成器和判别器不断地对抗，最终使网络学会生成与真实图片足够相近的图片。近年来，基于GAN网络进行数据扩充成为了一个研究热点，已有的研究有生成植物图片用于植物识别的、生成医学CT图片用于辅助智能诊断的等等，但行人图片生成的研究还比较少，生成的行人图片质量也有

【技术保护点】
1.一种基于生成式对抗网络的行人检测数据扩充方法，其特征在于，包括：/nS1、搭建三层级联生成式对抗神经网络模型，并设定模型训练的目标函数；每层生成式对抗神经网络均采用BicycleGAN的结构，生成器采用残差U-net结构，后一层的网络的输入为行人实例掩码图片和前一层网络的输出；/nS2、训练数据预处理；/nS3、采用预处理后的数据训练三层级联生成式对抗神经网络模型；/nS4、通过三层级联生成式对抗神经网络模型完成行人检测数据的扩充。/n

【技术特征摘要】
1.一种基于生成式对抗网络的行人检测数据扩充方法，其特征在于，包括：
S1、搭建三层级联生成式对抗神经网络模型，并设定模型训练的目标函数；每层生成式对抗神经网络均采用BicycleGAN的结构，生成器采用残差U-net结构，后一层的网络的输入为行人实例掩码图片和前一层网络的输出；
S2、训练数据预处理；
S3、采用预处理后的数据训练三层级联生成式对抗神经网络模型；
S4、通过三层级联生成式对抗神经网络模型完成行人检测数据的扩充。

2.根据权利要求1所述的基于生成式对抗网络的行人检测数据扩充方法，其特征在于，所述S1中，搭建三层级联生成式对抗神经网络模型具体过程包括：
S11、构建残差U-net结构的生成器，生成器的编码器部分加入多尺度残差块，生成器的解码器部分加入通道注意力残差块；所述生成器在第一层、第二层、第三层网络中包含的基本块个数分别为n1＝12，n2＝14，n3＝16，在每层的第j个和第n-j个基本块之间跳连；所述基本块包括多尺度残差块和通道注意力残差块；
S12、基于PatchGAN的判别器进行构建判别器；
S13、基于残差网络构建编码器；
S14、级联网络每一层采用S11、S12、S13构建的生成器、判别器和编码器，第一层输入的图片分辨率为64*64，第二层为128*128，第三层为256*256；两层生成式对抗网络之间通过一个卷积层相连，形成三层级联生成式对抗神经网络；
S15、基于BicycleGAN的目标函数加入基于VGG-19的感知损失作为三层级联生成式对抗神经网络模型的目标函数。

3.根据权利要求2所述的基于生成式对抗网络的行人检测数据扩充方法，其特征在于，所述步骤11中，生成器的编码器部分的每个中间层注入一个16维的隐层向量z，所述隐层向量z经过行人实例掩码遮掩。

4.根据权利要求3所述的基于生成式对抗网络的行人检测数据扩充方法，其特征在于，所述步骤15中三层级联生成式对抗神经网络模型的目标函数具体为：

其中，G*,E*分别代表生成器和编码器，Dwhole是全局判别器，Dlocal是局部判别器，和LGAN(·)分别代表BicycleGAN网络结构中的cVAE-GAN和cLR-GAN的对抗损失目标函数；是L1损失，它使生成器的输入尽可能与行人样本图片相似；也是L1损失，它使编码器的输出尽可能贴近高斯分布；LKL是cLR-GAN中的KL距离，LVGG是感知损失；λ、λKL、λlatent、λVGG是超参数，控制对应项的权重。

5.根据权利要求1或4所述的基于生成式对抗网络的行人检测数据扩充方法，其特征在于，所述S2的具体包括：
S21、从Cityscapes数据集从取出每层生成对抗网络所需像素大小的行人样本图，得到行人样本图集合；
S22、根据Cityscapes的实例标签图集合和步骤S1得到的行人样本图集合，获取每张行人样本图对应的实例标签图，将每个标签图与对应样本图对齐并剪裁，重复该过程，得到行人样本图集合对应的实例标签图集合L；
S23、将每张实例标签图中最中间的行人的像素点值置为1，其他像素点值置为0，得到每张样本图的行人实例掩码M；
S24、利用得到的行人实例掩码对对应行人样本图进行处理，得到经行人实例掩码后的图像BM；
S25、将Cityscapes数据集的实例标签图与步骤S1获得的行人样本图集合对齐，将实例标签图中实例与实例的交界处像素值置为1，实例内的像素值置为0，则得到对应的实例边缘图E；
S26、将步骤S22、S23、S24、S...

【专利技术属性】
技术研发人员：彭滢，吴杰，
申请(专利权)人：中国电子科技网络信息安全有限公司，
类型：发明
国别省市：四川;51

全部详细技术资料下载我是这个专利的主人