复杂装卸场景目标物标注数据集生成方法、系统和存储介质技术方案

技术编号:35658198 阅读:19 留言:0更新日期:2022-11-19 16:55
本发明专利技术是复杂装卸场景目标物标注数据集生成方法、系统和存储介质,针对复杂场景下无人起重装卸目标物的深度学习标注数据耗时问题,通过在GAN网络架构上融合改进的StyleGAN与DatasetGAN网络来设计适合本发明专利技术的货物图像检测生成对抗网络,构成准确的含语义标注和关键点标注的数据集,实现通过标记少数示例来合成大型高质量标记数据集的方法和技术,解决训练数据匮乏问题和目标物标注耗时问题,与其他解决数据集匮乏问题的方法相比,本发明专利技术方法生成的可用于监督网络训练的标签数据集,有相当优秀的结果,并为后续利用有监督学习模型提供充足的数据支撑。供充足的数据支撑。供充足的数据支撑。

【技术实现步骤摘要】
复杂装卸场景目标物标注数据集生成方法、系统和存储介质


[0001]本专利技术涉及人工智能和计算机视觉识别
,特别是涉及复杂装卸场景目标物标注数据集生成方法和系统的研究。

技术介绍

[0002]传统的起重装卸操作是依靠起重机司机观察识别目标物并操控大小车使吊钩运动至目标物上方进行起吊和卸载。企业使用起重机对包装产品进行人工装车作业,至少需要起重司机、地面辅助扶位人员、车厢辅助扶位人员、装车指挥工等4个工人协同进行。随着人工智能技术的迅猛发展,以人工智能为核心的计算机视觉技术已经在制造业等行业逐步开始深度应用,如何分析和识别复杂场景下采集的图像并作出准确指令控制是行业主要面对的问题。比如,装卸场景存在照明不均匀、场景范围大、物品类型多并混杂等诸多情况时,如何应用机器视觉技术准确识别及精确测量定位包装产品,以控制大小车和吊钩自动操作;又比如,物体纹理灰度特征随时间和天气随机变化大,起重机作业时对光线的遮挡会在目标物上呈现不定形的阴影,如何使得在智能装卸场景下通过机器视觉对目标进行准确检测等。
[0003]要解决这类问题,对起重自动装卸目标物识别过程中使用有监督模型进行训练时,需要构建大型标注数据集,并建立数据的过程十分耗时。因此,相对于标准训练网络的开源数据训练集,通常研究对象的场景图像类别(尤其复杂场景图像)都带有自身特点并且数量有限,如何解决训练数据匮乏问题和目标物标注耗时问题,是行业急需解决的难点痛点。
[0004]无监督学习指根据类别未知的训练样本解决模式识别的各种问题,“监督”的意思可以直观理解为“是否有标注的数据”。在无监督学习任务中,Goodfellow等人在2014年提出GAN生成对抗网络,是目前最有前途的技术之一,迄今为止,GAN在图像生成、语音合成、风格迁移等已经有不错的研究与应用。迄今为止,GAN在图像生成、语音合成、风格迁移等已经有不错的研究与应用。经过多个文献研究得出,GAN专注于使用对抗目标在大型数据集上进行训练后合成高质量图像或模型,可用于扩充目标原始图像数据。由于没有标签,将数据集用在实例分割模型训练上时,后续仍需人工进行类别和掩码标注工作。
[0005]半监督学习技术指给定大量未标记图像和少量注释图像,旨在学习比单独使用标记数据更好的分割网络。这些半监督方法将分割网络视为生成器,并使用少量真实注释对其进行对抗性训练,从而提高语义分割的准确率。David Berthelot等人统一了用于半监督学习的主要方法,为未标记数据引入了一个统一的损失项,可以无缝地降低熵,同时保持一致性并与传统的正则化技术保持兼容。这类基于GAN、一致性正则化和伪标签等半监督方法的关键思想是在小型标记数据集上进行训练,并使用混合真实的标记数据和对未标记图像的高度自信的预测。
[0006]机器视觉准确识别目标物的关键是实例分割。目前实现高准确率的实例分割技术均是基于有监督的深度学习技术。该技术通过自适应学习带标签内容的大量图像数据,最
终预测图像中目标位置和类别。但由于有监督的深度学习方法中建立带真值标签数据十分困难,导致在工业上应用推广时受到限制。比如,使用像素级标签(语义或实例分割)来管理图像数据集时非常费时费力,而且成本高昂,这显然是实现需要的数据集规模的瓶颈。

技术实现思路

[0007]本专利技术主要目标是,针对上述问题,设计基于生成对抗网络的目标货物标注数据集生成系统、方法和存储介质,来解决复杂装卸场景下的目标物识别技术难题。通过设计针对复杂场景图像目标物标注数据集生成方法,实现通过标记少数示例来合成大型高质量标记数据集,解决训练数据匮乏问题和目标物标注耗时问题,为后续利用有监督学习模型提供充足的数据支撑。
[0008]本专利技术采用的技术方案如下:
[0009]复杂装卸场景目标物标注数据集生成系统,其特征在于,包括生成器模块、判别器模块、生成图像模块、真实图像模块、真伪判别模块、更新参数模块;
[0010]所述生成器模块用于建立货物图像检测生成对抗网络并构成准确的含语义标注和关键点标注的数据集;
[0011]所述判别器模块用于搭建有监督深度学习语义分割模型的训练框架,将真实图像与生成器生成的图像进行判别;
[0012]所述生成图像模块为所述生成器模块搭建训练框架后所得的含标注的图像的数据集,包括合成的高清图像、生成的语义标签、生成的关键点标签;
[0013]所述真实图像模块为真实图像数据含被标注后所得的图像数据集,包括真实图像、真实语义标签、真实关键点标签;
[0014]所述真伪判别模块用于将所述判别器得到的判别结果后计算判别损失,对生成图像模块所得数据集进行真伪判定;
[0015]所述更新参数模块用于将生成器模型和判别器模型进行参数更新,反复迭代,直至判别器收敛;
[0016]所述生成器模块由基于样式生成对抗网络StyleGAN框架和DataGAN网络框架组成;
[0017]所述基于样式生成对抗网络StyleGAN框架用于生成可控制的高质量和特征的图像;所述StyleGAN框架包括合成块,所述合成块由上采样模块、调制、解调、1*1卷积块和自适应样本归一化层AdaIN组成;
[0018]所述DataGAN网络框架用于以少量详细标注的图像生成大量的准确的带语义标签的数据集,所述数据集包括语义分割和关键点预测两部分;
[0019]所述判别器模块采用深度卷积

降采样

LeakyReLU非线性激活的网络结构。
[0020]进一步的,所述基于样式生成对抗网络StyleGAN框架的合成块网络改为傅里叶特征输入方式,替换标准StyleGAN框架的常数输入方式,进行特征映射的无限的空间范围的固定,所述傅里叶特征输入方式先通过引入一个固定大小的边界作为近似范围,每一层操作之后再对权重参数进行裁剪。
[0021]进一步的,所述基于样式生成对抗网络StyleGAN框架对其自适应样本归一化层AdaIN进行修改,包括去除均值、修改噪声模块B输入位置、修改样式控制向量A输入位置,从
而解决生成图像存在语义特征变形的问题;所述样式控制向量A包括放缩因子wi和偏差因子bi;修改后AdaIN层工作过程如(1)式所示:
[0022][0023]x
i
为特征,y为样式,y包含放缩因子wi和偏差因子bi,w

ij
为经过调制和卷积后的解调,i为第i个输入特征图,σ(x)为标准差。
[0024]进一步的,所述DataGAN网络框架采用WGAN

GP代替最小化JS散度实现最小化生成器的损失函数,所述WGAN

GP目标函数如式(2)所示:
[0025][0026]式中,P
data
是真实分布,P
G
是生成器分布,隐含定义了从P
data
和P
G
采样的点对之间的直线均匀采样的P
penalty<本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.复杂装卸场景目标物标注数据集生成系统,其特征在于,包括生成器模块、判别器模块、生成图像模块、真实图像模块、真伪判别模块、更新参数模块;所述生成器模块用于建立货物图像检测生成对抗网络并构成准确的含语义标注和关键点标注的数据集;所述判别器模块用于搭建有监督深度学习语义分割模型的训练框架,将真实图像与生成器生成的图像进行判别;所述生成图像模块为生成器模块搭建训练框架后所得的含标注的图像的数据集,包括合成的高清图像、生成的语义标签和关键点标签;所述真实图像模块为真实图像数据含被标注后所得的图像数据集,包括真实图像、真实语义标签和关键点标签;所述真伪判别模块用于将经过判别器模块得到的判别结果计算判别损失,对生成图像模块所得数据集进行真伪判定;所述更新参数模块用于将生成器模型和判别器模型进行参数更新,反复迭代,直至判别器收敛;所述生成器模块由基于样式生成对抗网络StyleGAN框架和DatasetGAN网络框架组成;所述基于样式生成对抗网络StyleGAN框架用于生成可控制的高质量和特征的图像;所述StyleGAN框架包括合成块,所述合成块由上采样模块、调制、解调、1*1卷积块和自适应样本归一化层AdaIN组成;所述DatasetGAN网络框架用于以少量详细标注的图像生成大量的准确的带语义标签的数据集,所述数据集包括语义分割和关键点预测两部分;所述判别器模块采用深度卷积

降采样

LeakyReLU非线性激活的网络结构。2.根据权利要求1所述的复杂装卸场景目标物标注数据集生成系统,其特征在于,所述基于样式生成对抗网络StyleGAN框架的合成块网络改为傅里叶特征输入方式,替换标准StyleGAN框架的常数输入方式,进行特征映射的无限的空间范围的固定,所述傅里叶特征输入方式先通过引入一个固定大小的边界作为近似范围,每一层操作之后再对权重参数进行裁剪。3.根据权利要求1所述的复杂装卸场景目标物标注数据集生成系统,其特征在于,所述基于样式生成对抗网络StyleGAN框架对其自适应样本归一化层AdaIN进行修改,包括去除均值、修改噪声模块B输入位置、修改样式控制向量A输入位置,从而解决生成图像存在语义特征变形的问题;所述样式控制向量A包括放缩因子wi和偏差因子bi;修改后AdaIN层工作过程如(1)式所示:x
i
为特征,y为样式,y包含放缩因子wi和偏差因子bi,w

ij
为经过调制和卷积后的解调,i为第i个输入特征图,σ(x)为标准差。4.根据权利要求1所述的复杂装卸场景目标物标注数据集生成系统,其特征在于,所述DatasetGAN网络框架采用WGAN

GP目标函数代替最小化JS散度实现最小化生成器的损失函数;所述WGAN

GP目标函数如式(2)所示:
式中,P
data
是真实分布,P
G
是生成器分布,隐含定义了从P
data
和P
G
采样的点对之间的直线均匀采样的P
penalty
。5.复杂装卸场景目标物标注数据集生成方法,采用权利要求1

4任一项所述的标注数据集生成系统进行,其特征在于,包括以下步骤:步骤S1:生成器前半部分采用基于样式生成对抗网络StyleGAN框架;在StyleGAN框架中,给定输入潜在空间Z中的潜码z,进行归一化处理后输入到8个全连接层FC组成的映射网络f,将输入向量学习的仿射变换得到中间向量w,并将特征解缠后的中间向量w变换为样式控制向量A;步骤S2:生成器StyleGAN框架经9次上采样完成,即由9个合成块组成,最终得到特征向量S;所述合成块由调制、解调、1*1卷积块和归一化层AdaIN、上采样模块组成;首先输入傅里叶特征,经上采样后进行裁剪crop操作,并受样式和噪音模块B施加影响,其中一个样式控制向量A在归一化之后对其影响一次,另外一...

【专利技术属性】
技术研发人员:王国桢王桂棠陈永彬吴佳毅陈建强吴黎明
申请(专利权)人:广州沧恒自动控制科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1