基于生成对抗网络和注意力网络的细粒度图像分类方法技术

技术编号:22817678 阅读:40 留言:0更新日期:2019-12-14 13:21
本发明专利技术公开了一种基于生成对抗网络和注意力网络的细粒度图像分类方法,确定图像分类类别,建立相应类别的训练图像集;设计图像细粒度分类的深度注意力卷积网络,该网络包含VGG16全卷积层、SS注意力区域生成、空间金字塔池化层ROI pooling layer、整体与局部特征结合分类全连接层四部分;设计生成对抗网络DAC‑GAN的结构,生成网络与判别网络;使用训练样本集,进行训练DAC‑GAN网络,保存判别网络模型;使用判别网络模型,进行图像类别进行分类预测。本发明专利技术提高了图像分类网络的准确度,解决了小样本量的数据不足的问题。

Fine-grained image classification method based on generative countermeasure network and attention network

【技术实现步骤摘要】
基于生成对抗网络和注意力网络的细粒度图像分类方法
本专利技术涉及一种细粒度图像分类方法,特别是一种基于生成对抗网络和注意力网络的细粒度图像分类方法,属于图像处理领域。
技术介绍
随着深度学习的技术研究深入,卷积神经网络(CNN)作为神经网络的一种,它能够提取输入的不同特征并进行分类,准确度不断提高,由80%提升到95%。CNN的网络结构由输入层、卷积层、池化层和全连接层、输出层组成。其中,卷积层通过卷积操作提取输入的不同特征,浅层的卷积层提取诸如边缘、线条的低级特征,深层的卷积层提取高级特征;池化层接在卷积层之后,对局部接受域进行池化操作以获取具有空间不变性的特征;全连接层一般位于多个卷积层和池化层之后,整合卷积层或池化层中具有类别区分性的局部信息。卷积神经网络在图像分类上取得了良好的成果,但目前的分类比较粗,在大类下细分的子类间分类识别率较低。细粒度图像分析任务相对通用图像任务的区别和难点在于其图像所属类别的粒度更为精细。通用图像分类其任务诉求是将物体大类分开,可见无论从样貌、形态等方面,二者还是能很容易被区分;而细粒度图像分类任务则要求对一个类类别下细粒度的子类图像分辨开来。相同的子类中物体的动作姿态可能大不相同,不同的子类中物体可能又有着相同的动作姿态,这是识别的一大难点。正因同类别物种的不同子类往往仅在耳朵形状、毛色等细微处存在差异,可谓“差之毫厘,谬以千里”。不止对计算机,对普通人来说,细粒度图像任务的难度和挑战无疑也更为巨大。因此,细粒度图像识别作为现在图像分类中一个颇具挑战性的任务,它的目标是在一个大类中的数百数千个子类中正确识别目标,其的关键点在寻找一些存在细微差别的局部区域。如何有效地对前景对象进行检测,并从中发现重要的局部区域信息,成为了细粒度图像分类算法要解决的关键问题。CN201810167949“一种基于卷积神经网络的细粒度车型识别方法”是基于常规的卷积神经网络进行分类,然而常规的卷积网络对细类物体的细小的地方差别并不敏感,因此无法捕获细类类之间的差异。同时,对于图像分类,训练集的建立的难度和成本也比较大。专利CN201711249014“细粒度图像识别模型训练及识别方法、装置及存储介质”公开是对于每张图像,使用每个分支分别针对所述图像中的一个物体部位进行特征提取,训练完成,各分支分别学习到图像中的不同关键物体部位,以便结合各分支提取出的特征完成细粒度图像分类。但该专利使用了图像局部特征,没有阐述特征区域获取原理,如果特征区域过多,整体计算量就较大;同时,过多强调了局部图像特征,没有很好兼容整体的特征。
技术实现思路
本专利技术所要解决的技术问题是提供一种基于生成对抗网络和注意力网络的细粒度图像分类方法,提高图像分类的准确度。为解决上述技术问题,本专利技术所采用的技术方案是:一种基于生成对抗网络和注意力网络的细粒度图像分类方法,其特征在于包含以下步骤:步骤一:确定图像分类类别,建立相应类别的训练图像集;步骤二:设计图像细粒度分类的深度注意力卷积网络,该网络包含VGG16全卷积层、SS注意力区域生成、空间金字塔池化层ROIpoolinglayer、整体与局部特征结合分类全连接层四部分;步骤三:设计生成对抗网络DAC-GAN的结构,生成网络与判别网络;步骤四:使用训练样本集,进行训练DAC-GAN网络,保存判别网络模型;步骤五:使用判别网络模型,进行图像类别进行分类预测。进一步地,所述步骤一具体为1.1确定要分类图像类别的清单;1.2对每个类别建立图像文件夹,向文件夹收集包含目标的图像,基本保证每种类别图像样本数至少为10000张;1.3使用目标检测的方法,将目标从图像中检测其位置,基于位置将各个子类别图像从全局图像中分割出来。进一步地,所述步骤二中VGG16全卷积层:基于经典的VGG16模型,该网络一共有五段卷积,每段卷积之后紧接着最大池化层;深度网络中LRN的作用并不明显,去掉了LRN层;采用更小的卷积核3x3;池化核变小,VGG中的池化核是2x2,stride为2;VGG是一个良好的特征提取器,充分利用其卷积部分;SS注意力区域生成:采用SelectiveSearch策略生成200个局部区域;首先图像上n个预分割的区域,R={R1,R2,...,Rn},计算每个region与它相邻region的相似度,得到一个n*n的相似度矩阵;然后从矩阵中找出最大相似度值对应的两个区域,合二为一,图像上还剩下n-1个区域;重复上面的过程,直到所有的区域合并为同一个区域;空间金字塔池化层ROIpoolinglayer:在最后一个卷积层与全连接层之间,对最后一个卷积层特征进行pool操作并产生固定大小featuremap,进而匹配后续的全连接层;根据空间对应关系得到相应200个局部区域的特征,维度为256;整体与局部特征结合分类全连接层:将VGG16全卷积层特征map,经过1*1卷积,得到一维4096特征,同时将200局部特征与4096全局特征组合,从而得到55296维度特征向量;经过全连接层,进行分类得到相应类别的分值。进一步地,所述步骤三中生成网络,用于模拟真实的图像来生成疑似图像,一个100维度的均匀分布z映射到一个有很多特征映射的小空间范围卷积,一连串的四个微步幅卷积,将高层表征转换为227*227像素的图像;判别网络,采用深度注意力卷积网络。进一步地,所述步骤四具体为4.1训练生成对抗网络DAC-GAN:定义网络参数、输入层与输出层参数;设置训练批次,批次大小参数;4.2输入噪声,经过生成网络,生成合成图像;4.3将合成图像与真实图像及标注,交给判别网络,进行判别;计算合成图像判别的信息熵,进而判别其真实与虚假,对于真实的,判别其类别分值;计算真实图像的类别分值;4.4实时保存判别网络模型。本专利技术与现有技术相比,具有以下优点和效果:1.本专利技术模仿人观察图像,针对不同图像,既观察整体情况,又仔细对比局部差异;创新设计了细粒度注意力卷积网络,采用全局与局部特征结合的方法,既能描绘整体图像特征,又能捕获局部的细微变化;基于注意力的机制,提取显著性高的局部区域的特征;2.在进行图像分类时,模型准确度不仅受网络结构影响,还受数据量及数据全面性的应用,但是在实际获取标注图像的成本太高,因此本专利技术创新设计了DAC-GAN网络,结合当前热门的生成对抗网络GAN,结合卷积DC-GAN与标签AC-GAN,来模拟生成目标图像和判别图像真伪与类别。附图说明图1是本专利技术的基于生成对抗网络和注意力网络的细粒度图像分类方法的细粒度注意力卷积网络结构图。图2是本专利技术的基于生成对抗网络和注意力网络的细粒度图像分类方法的DAC-GAN的整体结构图。具体实施方式下面通过实施例对本专利技术作进一步的详细说明,以下实施例是对本专利技术的解释而本专利技术并不局限于以下实施例。一本文档来自技高网
...

【技术保护点】
1.一种基于生成对抗网络和注意力网络的细粒度图像分类方法,其特征在于包含以下步骤:/n步骤一:确定图像分类类别,建立相应类别的训练图像集;/n步骤二:设计图像细粒度分类的深度注意力卷积网络,该网络包含VGG16全卷积层、SS注意力区域生成、空间金字塔池化层ROI pooling layer、整体与局部特征结合分类全连接层四部分;/n步骤三:设计生成对抗网络DAC-GAN的结构,生成网络与判别网络;/n步骤四:使用训练样本集,进行训练DAC-GAN网络,保存判别网络模型;/n步骤五:使用判别网络模型,进行图像类别进行分类预测。/n

【技术特征摘要】
1.一种基于生成对抗网络和注意力网络的细粒度图像分类方法,其特征在于包含以下步骤:
步骤一:确定图像分类类别,建立相应类别的训练图像集;
步骤二:设计图像细粒度分类的深度注意力卷积网络,该网络包含VGG16全卷积层、SS注意力区域生成、空间金字塔池化层ROIpoolinglayer、整体与局部特征结合分类全连接层四部分;
步骤三:设计生成对抗网络DAC-GAN的结构,生成网络与判别网络;
步骤四:使用训练样本集,进行训练DAC-GAN网络,保存判别网络模型;
步骤五:使用判别网络模型,进行图像类别进行分类预测。


2.按照权利要求1所述的基于生成对抗网络和注意力网络的细粒度图像分类方法,其特征在于:所述步骤一具体为
1.1确定要分类图像类别的清单;
1.2对每个类别建立图像文件夹,向文件夹收集包含目标的图像,基本保证每种类别图像样本数至少为10000张;
1.3使用目标检测的方法,将目标从图像中检测其位置,基于位置将各个子类别图像从全局图像中分割出来。


3.按照权利要求1所述的基于生成对抗网络和注意力网络的细粒度图像分类方法,其特征在于:所述步骤二中
VGG16全卷积层:基于经典的VGG16模型,该网络一共有五段卷积,每段卷积之后紧接着最大池化层;深度网络中LRN的作用并不明显,去掉了LRN层;采用更小的卷积核3x3;池化核变小,VGG中的池化核是2x2,stride为2;VGG是一个良好的特征提取器,充分利用其卷积部分;
SS注意力区域生成:采用SelectiveSearch策略生成200个局部区域;首先图像上n个预分割的区域,R={R1,R2,...,Rn},计算每个reg...

【专利技术属性】
技术研发人员:车少帅刘大伟胡笳
申请(专利权)人:江苏鸿信系统集成有限公司
类型:发明
国别省市:江苏;32

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1