一种基于关键框点检测的图像样本生成方法技术

技术编号:39746556 阅读:7 留言:0更新日期:2023-12-17 23:45
本发明专利技术公开的一种基于关键框点检测的图像样本生成方法,属于计算机视觉领域

【技术实现步骤摘要】
一种基于关键框点检测的图像样本生成方法


[0001]本专利技术涉及一种用于扩增目标检测的图像样本生成方法,特别涉及一种基于关键框点检测的带标签

可编辑目标检测样本生成方法,属于计算机视觉领域


技术介绍

[0002]目标检测是计算机领域的一项重要研究内容

在很多领域都有着广泛应用,如:视频监控,人机交互,无人驾驶等

通过使用深度学习和计算机视觉技术,目标检测能够准确地检测和定位图像中的目标物体,从而实现自动化和智能化的解决方案

这不仅提高了各个领域的效率和安全性,还推动了科技的不断进步和社会的持续发展

[0003]深度学习在目标检测上有着很大的优势,但是其需要大量的样本数据进行驱动,并且在网络结构一定的情况下,样本数量越多,训练后的检测能力就越强

然而,在实际应用中,特别是一些特殊领域,无法获得大量样本,或者需要大量的人力物力财力才能获取大量的数据样本,这使得无止境的对大数据量样本的需求,与难以满足要求的实际获取量相矛盾

这使得在目标检测和跟踪的应用中,小样本问题成为研究的热点和难点

样本数量过少时,模型容易过拟合,训练后的模型泛化能力较差,这将直接影响最终检测网络的性能

过拟合的本质是样本数量与模型复杂程度的不匹配

因此,防止过拟合的问题实际上是防止样本数量与模型复杂程度的不匹配问题

[0004]样本增强算法是一种用于改善基于深度学习的目标检测和跟踪算法性能的技术,通过对原始图像进行一系列变换和扭曲操作来增加训练数据的多样性和数量

这些操作包括图像旋转

缩放

平移

镜像翻转

亮度调整

色彩变换和添加噪声等

通过随机组合和变换原始图像,样本增强算法能够生成多样性的新样本,提供更多不同角度

尺度

光照条件和背景环境下的图像

[0005]作为样本增强的一种有效途径,生成图像样本是
GAN
最基本的应用

对于约束良好的领域,如
MNIST
手写数据集
、CIFAR

10
小件图片
、LSUN Bedroom
数据集和
CelebA
人脸数据集,利用
StyleGAN、SPADE
算法等已经实现了照片真实感的新的样本生成
。StyleGAN
能够无监督地分离高级属性,例如人脸上训练时的表情

身份特征和生成图像中的随机变化
(
例如雀斑和头发
)。
但是,即使可以对不同的部分进行调节,但是这些调节是不可控的
。SPADE
算法能够在生成逼真图像的同时,根据输入的条件信息
(
如语义标签
)
来生成符合期望的图像

这使得
SPADE
在生成各种风格

类别的图像以及图像编辑方面具有很大的潜力,使图像生成过程更加可控和灵活

但是,作为语义信息的语意标签或者类别等不容易获取

并且,图像面向的是目标检测时的遮挡

形变

光照条件和背景环境变化等的问题时,生成的样本不仅要保证多样性,也要保证生成数据的实用性

然而,可控的图像生成和生成图像的标注工作仍然是阻碍
GAN
在目标检测任务中的应用

因此,使得这种图像生成具有可编辑

自带标注的特性,更能适用于目标检测中样本补充的需求


技术实现思路

[0006]为了解决现在基于深度学习的目标检测任务的图像样本生成中,样本无法可控生成和无法带标签生成的问题

本专利技术的目的是提供一种基于关键框点检测的图像样本生成方法,能够有效补充用于目标检测模型训练所需的图像样本,同时具有可控生成和带标签生成的优点

所述可控生成指能够直接解耦图像中物体坐标信息,将图像分解为物体的位置和外观,便于对以目标检测为目的图像样本进行空间位置编辑,通过重新定位和交换关键点重新排列生成图像,所述带标签生成指能够直接保存关键框位置作为目标位置信息,避免人工标注过程

对少样本数据库中的带标签图像样本进行补充,缓解目标检测网络由于缺乏样本而造成的目标检测模型过拟合问题,提升目标检测准确率

[0007]本专利技术的目的是通过以下技术方案来实现的:
[0008]本专利技术公开的基于关键框点检测的图像样本生成方法,为基于关键框点检测的带标签

可编辑目标检测样本生成方法,利用独立的噪声向量,通过一个关键框点生成网络生成
K
个关键点位置和关键框宽

高,指定矩形关键框四个点的坐标位置以及对应于关键点的外观
(
根据关键框点的所围成矩形的半对角线长度计算各关键框点指定
part
的尺寸
)
;使用马氏

高斯
heatmap

SPADE
生成器对局部
part
进行建模,结合关键点坐标位置以及关键框点所围成矩形的半对角线长度,生成与关键点位置相对应的掩膜;基于生成的掩膜和嵌入使用
SwinTransformer

SPADE
生成器生成样本图像

判别器在通过比较生成图像和真实图像,不断辅助图像生成网络生成更加真实的图像样本,所述图像生成网络由关键框点生成网络

掩膜生成网络

前景生成网络和背景生成网络组成

经过训练得到的图像生成模型能够生成可编辑和带标签的图像样本在生成样本图像的基础上,通过移动关键点的位置操纵相对应物体的位置,并通过修改嵌入改变物体特征;同时,关键框点的位置直接对应物体的生成位置,故无需进行后续标注工作,对少样本数据库中的带标签图像样本进行补充,缓解目标检测网络由于缺乏样本而造成的目标检测模型过拟合问题,提升目标检测准确率

[0009]本专利技术公开的一种基于关键框点检测的图像样本生成方法,包括以下步骤:
[0010]步骤0:制作目标检测图像样本数据集,对数据集中的图片进行图像预处理达到数据增强的目的

所述图像预处理包括随机水平旋转

裁剪

随机区域裁剪

缩放和标准化

[0011]输入包本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.
基于关键框点检测的图像样本生成方法,其特征在于:包括以下步骤,步骤0:制作目标检测图像样本数据集,对数据集中的图片进行图像预处理达到数据增强的目的;所述图像预处理包括随机水平旋转

裁剪

随机区域裁剪

缩放和标准化;输入包含真实图像的数据集,对数据集中图像进行预处理:随机水平旋转,裁剪至相同大小的正方形,随机裁剪一块区域并缩放至前述正方形大小,进行标准化处理,得到标准化处理后的图像;步骤1:利用独立的噪声向量,通过关键框点生成网络生成
K
个关键点位置,每个关键点位置对应一个关键框宽和关键框宽高,根据每个关键点位置

关键框宽和关键框宽高确定矩形关键框四个点的坐标位置;根据每个关键框点所围成矩形的半对角线长度确定每个关键点指定部件的尺度;利用关键框点生成网络生成每个部件的随机外观向量,该外观向量点乘固定嵌入向量得到每个部件的外观嵌入;步骤2:根据步骤1确定的关键框点坐标位置和部件尺寸,使用马氏

高斯
heatmap
计算各部件初始掩膜,并与对应部件嵌入相乘得到各部件嵌入图,各部件嵌入图相加得到单个掩码嵌入图,结合初始位置编码使用
SPADE
生成器生成与预测部件位置相对应的掩膜;步骤3:根据步骤1得到的关键点位置进行初始位置编码,与对应部件嵌入相乘得到各部件嵌入图,各部件嵌入图相加得到单个前景嵌入图,结合步骤2得到的掩膜使用
SPADE
生成器生成图像样本前景;使用独立噪声生成背景嵌入,结合背景初始位置编码使用
AdaIN ConvBlock
生成样本背景;将前景和背景线性混合生成样本图像;步骤4:搭建用于对真实图像和图像生成网络生成的图像进行判别的判别网络,通过判别网络判别图像是否为真实图像;判别网络由多个
DiscriminatorBlock
组成,
DiscriminatorBlock
由一系列卷积层和
LeakyReLU
激活函数构成;通过全连接层对输入图像是否真实进行判别;判别网络训练时根据
batch size
,将经过步骤0预处理后的真实图像输入判别网络对判别网络进行训练,将图像生成网络生成的图像和真实图像分别输入判网络器计算判别结果,并得到判别损失;将判别损失进行反向传播,计算梯度,累积判别损失值;并更新判别网络参数;训练生成网络,将经过步骤0预处理后的真实图像和图像生成网络器生成的图像分别输入判别网络计算判别结果,并得到生成损失;将生成损失进行反向传播,计算梯度,累积生成损失值;判别器在通过比较生成图像和真实图像,不断辅助图像生成网络生成更加真实的图像样本,所述图像生成网络由关键框点生成网络

掩膜生成网络

前景生成网络和背景生成网络组成;达到指定训练轮次后停止训练,得到训练好的图像生成模型,所述图像生成模型基于图像生成网络实现;步骤5:使用步骤4训练得到的图像生成模型,输入噪声进行图像样本生成;在得到关键点位置和对应嵌入向量的基础上,保持嵌入向量不变,移动关键点位置进行图像生成,得到物体位置移动前后图像样本,并保存相应关键框的位置;保持关键点位置不动,交换各物体嵌入向量,得到物体外观编辑前后图像样本,同时保存关键框位置,得到带标签图像样本,对少样本数据库中的带标签图像样本进行补充,缓解目标检测网络由于缺乏样本而造成的目标检测模型过拟合问题,提升目标检测准确率
。2.
如权利要求1所述的基于关键框点检测的图像样本生成方法,其特征在于:步骤1中,关键框点生成网络,通过利用独立的噪声向量生成
K
个部件的位置和外观;为了防止位
置和外观信息相互干扰,将三组独立的噪声向量
z
keypoint
,z
WH
,
作为输入,使用多层感知机
MLP
将独立噪声
z
keypoint

z
WH
生成
K
个关键点和
K
组宽
W、

H
;该网络使用
MLP
的每个隐藏层都为全连接层并使用
LeakyReLU
作为激活函数,在输出层仍然使用全连接层控制输出维度;则每个关键点对应的关键框点的位置为指定关键框点为矩形,关键点为关键框点位置的中心点,4×
K
个关键框点的位置为此外,部件尺度表示为
{
σ1,...,
σ
K
}
,则,,则,,则,,则,其中,
k

1,...,K

(x
row
,x
col
)
代表每个关键点坐标的横坐标和纵坐标;使用
MLP

z
app
映射到部件外观向量给每个部件定义一个固定的嵌入向量该固定嵌入使用
nn.Embeddings
随机生成,用于编码关键点的语义信息,在训练阶段持续更新;将与进行元素点乘得到的部件嵌入
w
dynamic

MLP
app
(z
app
)
以上外观和位置的噪声源相互独立
。3.
如权利要求2所述的基于关键框点检测的图像样本生成方法,其特征在于:步骤2中,基于马氏

高斯
heatmap
和...

【专利技术属性】
技术研发人员:宋勇白亚烁周雅何雨昕武喜艳廖一钊刘淑淇栗心怡
申请(专利权)人:北京理工大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1