【技术实现步骤摘要】
一种基于关键框点检测的图像样本生成方法
[0001]本专利技术涉及一种用于扩增目标检测的图像样本生成方法,特别涉及一种基于关键框点检测的带标签
、
可编辑目标检测样本生成方法,属于计算机视觉领域
。
技术介绍
[0002]目标检测是计算机领域的一项重要研究内容
。
在很多领域都有着广泛应用,如:视频监控,人机交互,无人驾驶等
。
通过使用深度学习和计算机视觉技术,目标检测能够准确地检测和定位图像中的目标物体,从而实现自动化和智能化的解决方案
。
这不仅提高了各个领域的效率和安全性,还推动了科技的不断进步和社会的持续发展
。
[0003]深度学习在目标检测上有着很大的优势,但是其需要大量的样本数据进行驱动,并且在网络结构一定的情况下,样本数量越多,训练后的检测能力就越强
。
然而,在实际应用中,特别是一些特殊领域,无法获得大量样本,或者需要大量的人力物力财力才能获取大量的数据样本,这使得无止境的对大数据量样本的需求,与难以满足要求的实际获取量相矛盾
。
这使得在目标检测和跟踪的应用中,小样本问题成为研究的热点和难点
。
样本数量过少时,模型容易过拟合,训练后的模型泛化能力较差,这将直接影响最终检测网络的性能
。
过拟合的本质是样本数量与模型复杂程度的不匹配
。
因此,防止过拟合的问题实际上是防止样本数量与模型复杂程度的不匹配问题
。
[0 ...
【技术保护点】
【技术特征摘要】
1.
基于关键框点检测的图像样本生成方法,其特征在于:包括以下步骤,步骤0:制作目标检测图像样本数据集,对数据集中的图片进行图像预处理达到数据增强的目的;所述图像预处理包括随机水平旋转
、
裁剪
、
随机区域裁剪
、
缩放和标准化;输入包含真实图像的数据集,对数据集中图像进行预处理:随机水平旋转,裁剪至相同大小的正方形,随机裁剪一块区域并缩放至前述正方形大小,进行标准化处理,得到标准化处理后的图像;步骤1:利用独立的噪声向量,通过关键框点生成网络生成
K
个关键点位置,每个关键点位置对应一个关键框宽和关键框宽高,根据每个关键点位置
、
关键框宽和关键框宽高确定矩形关键框四个点的坐标位置;根据每个关键框点所围成矩形的半对角线长度确定每个关键点指定部件的尺度;利用关键框点生成网络生成每个部件的随机外观向量,该外观向量点乘固定嵌入向量得到每个部件的外观嵌入;步骤2:根据步骤1确定的关键框点坐标位置和部件尺寸,使用马氏
‑
高斯
heatmap
计算各部件初始掩膜,并与对应部件嵌入相乘得到各部件嵌入图,各部件嵌入图相加得到单个掩码嵌入图,结合初始位置编码使用
SPADE
生成器生成与预测部件位置相对应的掩膜;步骤3:根据步骤1得到的关键点位置进行初始位置编码,与对应部件嵌入相乘得到各部件嵌入图,各部件嵌入图相加得到单个前景嵌入图,结合步骤2得到的掩膜使用
SPADE
生成器生成图像样本前景;使用独立噪声生成背景嵌入,结合背景初始位置编码使用
AdaIN ConvBlock
生成样本背景;将前景和背景线性混合生成样本图像;步骤4:搭建用于对真实图像和图像生成网络生成的图像进行判别的判别网络,通过判别网络判别图像是否为真实图像;判别网络由多个
DiscriminatorBlock
组成,
DiscriminatorBlock
由一系列卷积层和
LeakyReLU
激活函数构成;通过全连接层对输入图像是否真实进行判别;判别网络训练时根据
batch size
,将经过步骤0预处理后的真实图像输入判别网络对判别网络进行训练,将图像生成网络生成的图像和真实图像分别输入判网络器计算判别结果,并得到判别损失;将判别损失进行反向传播,计算梯度,累积判别损失值;并更新判别网络参数;训练生成网络,将经过步骤0预处理后的真实图像和图像生成网络器生成的图像分别输入判别网络计算判别结果,并得到生成损失;将生成损失进行反向传播,计算梯度,累积生成损失值;判别器在通过比较生成图像和真实图像,不断辅助图像生成网络生成更加真实的图像样本,所述图像生成网络由关键框点生成网络
、
掩膜生成网络
、
前景生成网络和背景生成网络组成;达到指定训练轮次后停止训练,得到训练好的图像生成模型,所述图像生成模型基于图像生成网络实现;步骤5:使用步骤4训练得到的图像生成模型,输入噪声进行图像样本生成;在得到关键点位置和对应嵌入向量的基础上,保持嵌入向量不变,移动关键点位置进行图像生成,得到物体位置移动前后图像样本,并保存相应关键框的位置;保持关键点位置不动,交换各物体嵌入向量,得到物体外观编辑前后图像样本,同时保存关键框位置,得到带标签图像样本,对少样本数据库中的带标签图像样本进行补充,缓解目标检测网络由于缺乏样本而造成的目标检测模型过拟合问题,提升目标检测准确率
。2.
如权利要求1所述的基于关键框点检测的图像样本生成方法,其特征在于:步骤1中,关键框点生成网络,通过利用独立的噪声向量生成
K
个部件的位置和外观;为了防止位
置和外观信息相互干扰,将三组独立的噪声向量
z
keypoint
,z
WH
,
作为输入,使用多层感知机
MLP
将独立噪声
z
keypoint
和
z
WH
生成
K
个关键点和
K
组宽
W、
高
H
;该网络使用
MLP
的每个隐藏层都为全连接层并使用
LeakyReLU
作为激活函数,在输出层仍然使用全连接层控制输出维度;则每个关键点对应的关键框点的位置为指定关键框点为矩形,关键点为关键框点位置的中心点,4×
K
个关键框点的位置为此外,部件尺度表示为
{
σ1,...,
σ
K
}
,则,,则,,则,,则,其中,
k
=
1,...,K
,
(x
row
,x
col
)
代表每个关键点坐标的横坐标和纵坐标;使用
MLP
将
z
app
映射到部件外观向量给每个部件定义一个固定的嵌入向量该固定嵌入使用
nn.Embeddings
随机生成,用于编码关键点的语义信息,在训练阶段持续更新;将与进行元素点乘得到的部件嵌入
w
dynamic
=
MLP
app
(z
app
)
以上外观和位置的噪声源相互独立
。3.
如权利要求2所述的基于关键框点检测的图像样本生成方法,其特征在于:步骤2中,基于马氏
‑
高斯
heatmap
和...
【专利技术属性】
技术研发人员:宋勇,白亚烁,周雅,何雨昕,武喜艳,廖一钊,刘淑淇,栗心怡,
申请(专利权)人:北京理工大学,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。