【技术实现步骤摘要】
一种基于生成式对抗网络的行人检测数据扩充方法
本专利技术涉及图像处理领域,特别涉及一种基于生成式对抗网络的行人检测数据扩充方法。
技术介绍
本专利技术涉及行人检测是视频处理中的一项基本任务,广泛应用于智能视频监控、自动驾驶、机器人自动化等场景中,训练高精度的行人检测模型需要大规模、高质量的行人图片数据集。目前,行人检测相关研究主要是使用已有的公开数据集,这些数据集大多来自巨头互联网公司,他们投入了大量的人工标注和矫正成本来保证数据集的可靠性。在这些公开数据集上训练模型时,研究者们常使用传统数据扩充方法,例如图片翻转、随机剪裁、调整颜色等对训练集图片进行扩充。然而,这些方法本质上并没能丰富数据集的内容,数据扩充的效果有限。面对这个问题,我们提出了一种级联结构的生成式对抗神经网络,它能够自动生成多尺寸、高质量、服饰各异的行人,从而达到自动化地大规模扩充行人检测数据集的目的。生成式对抗神经网络(GenerativeAdversarialNetwork,GAN)是一种深度学习网络结构,它包含两个基本部分:生成器和判别器。在利用GAN进行图片生成的过程中,生成器的目标是生成尽可能真实的图片,判别器的目标是判断出哪些数据是真实的,哪些数据是生成的。通过训练网络,生成器和判别器不断地对抗,最终使网络学会生成与真实图片足够相近的图片。近年来,基于GAN网络进行数据扩充成为了一个研究热点,已有的研究有生成植物图片用于植物识别的、生成医学CT图片用于辅助智能诊断的等等,但行人图片生成的研究还比较少,生成的行人图片质量也有
【技术保护点】
1.一种基于生成式对抗网络的行人检测数据扩充方法,其特征在于,包括:/nS1、搭建三层级联生成式对抗神经网络模型,并设定模型训练的目标函数;每层生成式对抗神经网络均采用BicycleGAN的结构,生成器采用残差U-net结构,后一层的网络的输入为行人实例掩码图片和前一层网络的输出;/nS2、训练数据预处理;/nS3、采用预处理后的数据训练三层级联生成式对抗神经网络模型;/nS4、通过三层级联生成式对抗神经网络模型完成行人检测数据的扩充。/n
【技术特征摘要】
1.一种基于生成式对抗网络的行人检测数据扩充方法,其特征在于,包括:
S1、搭建三层级联生成式对抗神经网络模型,并设定模型训练的目标函数;每层生成式对抗神经网络均采用BicycleGAN的结构,生成器采用残差U-net结构,后一层的网络的输入为行人实例掩码图片和前一层网络的输出;
S2、训练数据预处理;
S3、采用预处理后的数据训练三层级联生成式对抗神经网络模型;
S4、通过三层级联生成式对抗神经网络模型完成行人检测数据的扩充。
2.根据权利要求1所述的基于生成式对抗网络的行人检测数据扩充方法,其特征在于,所述S1中,搭建三层级联生成式对抗神经网络模型具体过程包括:
S11、构建残差U-net结构的生成器,生成器的编码器部分加入多尺度残差块,生成器的解码器部分加入通道注意力残差块;所述生成器在第一层、第二层、第三层网络中包含的基本块个数分别为n1=12,n2=14,n3=16,在每层的第j个和第n-j个基本块之间跳连;所述基本块包括多尺度残差块和通道注意力残差块;
S12、基于PatchGAN的判别器进行构建判别器;
S13、基于残差网络构建编码器;
S14、级联网络每一层采用S11、S12、S13构建的生成器、判别器和编码器,第一层输入的图片分辨率为64*64,第二层为128*128,第三层为256*256;两层生成式对抗网络之间通过一个卷积层相连,形成三层级联生成式对抗神经网络;
S15、基于BicycleGAN的目标函数加入基于VGG-19的感知损失作为三层级联生成式对抗神经网络模型的目标函数。
3.根据权利要求2所述的基于生成式对抗网络的行人检测数据扩充方法,其特征在于,所述步骤11中,生成器的编码器部分的每个中间层注入一个16维的隐层向量z,所述隐层向量z经过行人实例掩码遮掩。
4.根据权利要求3所述的基于生成式对抗网络的行人检测数据扩充方法,其特征在于,所述步骤15中三层级联生成式对抗神经网络模型的目标函数具体为:
其中,G*,E*分别代表生成器和编码器,Dwhole是全局判别器,Dlocal是局部判别器,和LGAN(·)分别代表BicycleGAN网络结构中的cVAE-GAN和cLR-GAN的对抗损失目标函数;是L1损失,它使生成器的输入尽可能与行人样本图片相似;也是L1损失,它使编码器的输出尽可能贴近高斯分布;LKL是cLR-GAN中的KL距离,LVGG是感知损失;λ、λKL、λlatent、λVGG是超参数,控制对应项的权重。
5.根据权利要求1或4所述的基于生成式对抗网络的行人检测数据扩充方法,其特征在于,所述S2的具体包括:
S21、从Cityscapes数据集从取出每层生成对抗网络所需像素大小的行人样本图,得到行人样本图集合;
S22、根据Cityscapes的实例标签图集合和步骤S1得到的行人样本图集合,获取每张行人样本图对应的实例标签图,将每个标签图与对应样本图对齐并剪裁,重复该过程,得到行人样本图集合对应的实例标签图集合L;
S23、将每张实例标签图中最中间的行人的像素点值置为1,其他像素点值置为0,得到每张样本图的行人实例掩码M;
S24、利用得到的行人实例掩码对对应行人样本图进行处理,得到经行人实例掩码后的图像BM;
S25、将Cityscapes数据集的实例标签图与步骤S1获得的行人样本图集合对齐,将实例标签图中实例与实例的交界处像素值置为1,实例内的像素值置为0,则得到对应的实例边缘图E;
S26、将步骤S22、S23、S24、S...
【专利技术属性】
技术研发人员:彭滢,吴杰,
申请(专利权)人:中国电子科技网络信息安全有限公司,
类型:发明
国别省市:四川;51
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。