当前位置: 首页 > 专利查询>上海大学专利>正文

一种无监督学习物体外观的算法制造技术

技术编号:25044068 阅读:31 留言:0更新日期:2020-07-29 05:34
本发明专利技术公开了一种无监督学习物体外观的算法,涉及学习物体外观领域,要解决的是没有显式的学会该类物体的具体边界以及分割掩模的问题。本发明专利技术步骤如下:步骤一,准备一张包含充分多目标类别物体的图片;步骤二,对步骤一的图片进行数据预处理;步骤三,对步骤二的图片使用生成对抗网络训练学习前景外观和分割掩模。本发明专利技术只用到了一张密集同类物体随机堆积的图片,利用了其中包含的丰富的该类别物体的外观信息,生成四通道图片进而合成多物体堆叠图像,通过对抗训练优化合成图像的真实程度,从而优化每个图层学习到的外观,惩罚每个图层分割掩模的面积,使得每个图层只学习单个对象,并且除了能学到生成物体的外观还能学到物体的分割掩模。

【技术实现步骤摘要】
一种无监督学习物体外观的算法
本专利技术涉及学习物体外观的领域,具体是一种无监督学习物体外观的算法。
技术介绍
无监督地学习物体的外观需要能对高维数据分布建立生成模型,这种技术直到最近几年才得到发展。现有方法主要有以下三种:生成对抗网络GAN通过对抗的方式来训练判别器网络和生成器网络,在只有真实图片的情况下,生成器可以通过判别器提供的鉴别信息来逐渐优化生成图片的真实度;变分自编码器VAE,通过训练自编码器并约束隐藏因子的分布实现以可控的隐藏分布和解码器来映射出真实分布;以及基于流的可逆生成模型Glow,通过可逆函数的雅克比矩阵直接算出映射分布的解析式,从而直接优化映射分布,以逼近真实分布。但是GAN、VAE和Glow都需要大量样本来体现数据的真实分布,因此要想无监督地学习特定类别物体的外观并能生成该类物体的逼真图片都需要大量包含该类物体的图片。这些生成模型虽然能够生成逼真的图片,但其中的前景和背景是混合在一起输出的,具体哪些像素属于前景仍然不知道,因此即使模型见过大量的该类物体,但仍然没有显式的学会该类物体的具体边界,分割掩模。
技术实现思路
本专利技术的目的在于提供一种无监督学习物体外观的算法,以解决上述
技术介绍
中提出的问题。为实现上述目的,本专利技术提供如下技术方案:一种无监督学习物体外观的算法,具体步骤如下:步骤一,准备一张包含充分多目标类别物体的图片;步骤二,对步骤一的图片进行数据预处理;步骤三,对步骤二的图片生成对抗训练学习前景外观和分割。作为本专利技术进一步的方案:步骤一中准备一张包含充分多目标类别物体图片的方式为从互联网上找一张目标类别物体大量拥挤在一起的图片,目标类别物体空间分布越随机,背景面积越小越好;人工将该目标类别物体大量堆放在背景上,尽量让目标类别物体空间分布随机并覆盖住背景。作为本专利技术进一步的方案:背景采用纯色背景。作为本专利技术进一步的方案:步骤二中数据预处理的方式为根据图中目标类别物体的尺寸选择一个窗口,从原图中根据该窗口的大小随机采样出足够数量的图片方块并且统一缩放到固定尺寸。作为本专利技术进一步的方案:窗口的大小为1.5倍最大目标类别物体的宽度,图片方块的数量不少于1万个。作为本专利技术进一步的方案:生成对抗训练学习前景外观和分割的方式为:第一,人工观察所切出来的真实图片块中包含的目标类别物体数量,估计出目标类别物体数量上限N,理论上可以足够大,但出于计算资源和训练效果的考虑,应选择尽可能小的N;第二,从m维度(视对象丰富度而定,越丰富维度应越多)标准正态分布中独立地随机采样N个向量,分别经过同一个四通道图片生成器进行解码,得到N个具有独立外观的四通道图片(前三个通道为RGB表示物体颜色外观,第四个通道A表示物体分割掩模,合成图片时对应于图层的不透明度);将每个这样的图片进行在整个图像范围内随机平移后,按次序叠加成一张包含多个随机堆叠目标类别物体的合成图片块;第三,采样一个批次的合成图片块作为负样本,同时采样同样多的真实图片块作为正样本,以二分类的方式训练判别器一次;第四,根据判别器的分类得分,以对分类得分梯度上升和A通道面积梯度下降的方式对生成器执行一次权重更新,以提高合成图片块的真实程度;第五,重复第二至第四步,直到生成器生成的物体有可以接受的效果。作为本专利技术进一步的方案:一个批次的合成图片块的数量为32张。与现有技术相比,本专利技术的有益效果是:本专利技术只用到了一张密集同类物体随机堆积的图片,利用了其中包含的丰富的该类别物体的外观信息,因此不需要大量的数据,也不需要任何标注信息进行监督,人工成本几乎为零;本专利技术生成四通道图片进而合成多物体堆叠图像,通过对抗训练优化合成图像的真实程度,从而优化每个图层学习到的外观,惩罚每个图层分割掩模的面积,使得每个图层只学习单个对象,并且除了能学到生成物体的外观还能学到物体的分割掩模。附图说明图1为无监督学习物体外观的算法的流程图。具体实施方式下面结合具体实施方式对本专利的技术方案作进一步详细地说明。实施例1一种无监督学习物体外观的算法,具体步骤如下:步骤一,准备一张包含充分多目标类别物体的图片:从互联网上找一张目标类别物体大量拥挤在一起的图片,目标类别物体空间分布越随机,背景面积越小越好;人工将该目标类别物体大量堆放在纯色背景上,尽量让目标类别物体空间分布随机并覆盖住纯色背景;步骤二,对步骤一的图片进行数据预处理:根据图中目标类别物体的尺寸选择一个窗口,从原图中根据该窗口的大小随机采样出足够数量的图片方块并且统一缩放到固定尺寸;步骤三,对步骤二的图片使用生成对抗网络训练学习前景外观和分割掩模,可以减小对训练图片数量的需求,并同时学得特定类别物体的分割掩模。实施例2一种无监督学习物体外观的算法,具体步骤如下:步骤一,准备一张包含充分多目标类别物体的图片:从互联网上找一张目标类别物体大量拥挤在一起的图片,目标类别物体空间分布越随机,背景面积越小越好;人工将该目标类别物体大量堆放在纯色背景上,尽量让目标类别物体空间分布随机并覆盖住纯色背景;步骤二,对步骤一的图片进行数据预处理:根据图中物体的尺寸选择一个窗口,从原图中根据该窗口的大小随机采样出足够数量的图片方块并且统一缩放到固定尺寸,窗口的大小为1.5倍最大目标类别物体的宽度,图片方块的数量不少于1万个;步骤三,对步骤二的图片使用生成对抗网络训练学习前景外观和分割掩模:第一,人工观察所切出来的真实图片块中包含的目标类别物体数量,估计出目标类别物体数量上限N,理论上可以足够大,但出于计算资源和训练效果的考虑,应选择尽可能小的N;第二,从m维度(视对象丰富度而定,越丰富维度应越多)标准正态分布中独立地随机采样N个向量,分别经过同一个四通道图片生成器进行解码,得到N个具有独立外观的四通道图片(前三个通道为RGB表示物体颜色外观,第四个通道A表示物体分割掩模,合成图片时对应于图层的不透明度);将每个这样的图片进行在整个图像范围内随机平移后,按次序叠加成一张包含多个随机堆叠目标类别物体的合成图片块,因此能从目标物体高度堆叠遮挡的图像中学习,并且除了能学到生成物体的外观还能学到物体的分割掩模;第三,采样一个批次的合成图片块作为负样本,同时采样同样多的真实图片块作为正样本,以二分类的方式训练判别器一次,一个批次的合成图片块的数量为32张;第四,根据判别器的分类得分,以对分类得分梯度上升和A通道面积梯度下降的方式对生成器执行一次权重更新,以提高合成图片块的真实程度;第五,重复第二至第四步,直到生成器生成的物体有可以接受的效果,通过每个图层生成一个对象,然后将这些图层符合成一张图片,本专利技术通过对抗训练优化合成结果的真实程度,进而优化每个图层学习到的外观和分割掩模的质量,为避免每个图层直接生成多个物体,需要在对抗训练的同时使用掩模面积惩罚,使本文档来自技高网...

【技术保护点】
1.一种无监督学习物体外观的算法,其特征在于,具体步骤如下:/n步骤一,准备一张包含充分多目标类别物体的图片;/n步骤二,对步骤一的图片进行数据预处理;/n步骤三,对步骤二的图片使用生成对抗网络训练学习前景外观和分割掩模。/n

【技术特征摘要】
1.一种无监督学习物体外观的算法,其特征在于,具体步骤如下:
步骤一,准备一张包含充分多目标类别物体的图片;
步骤二,对步骤一的图片进行数据预处理;
步骤三,对步骤二的图片使用生成对抗网络训练学习前景外观和分割掩模。


2.根据权利要求1所述的无监督学习物体外观的算法,其特征在于,所述步骤一中准备一张包含充分多目标类别物体图片的方式为从互联网上找一张目标类别物体大量拥挤在一起的图片,人工将该目标类别物体大量堆放在背景上,让目标类别物体空间分布随机并覆盖住背景。


3.根据权利要求2所述的无监督学习物体外观的算法,其特征在于,所述背景采用纯色背景。


4.根据权利要求1所述的无监督学习物体外观的算法,其特征在于,所述步骤二中数据预处理的方式为根据图中目标类别物体的尺寸选择一个窗口,从原图中根据该窗口的大小随机采样出足够数量的图片方块并且统一缩放到固定尺寸。


5.根据权利要求4所述的无监督学习物体外观的算法,其特征在于,所述窗口的大小为1.5倍最大...

【专利技术属性】
技术研发人员:李晓强戴松民
申请(专利权)人:上海大学
类型:发明
国别省市:上海;31

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1