本发明专利技术公开了一种图像的细粒度识别方法,具体包括以下步骤:根据图像数据获取原始图片集和扰乱图片集,扰乱图片集由图像数据中随机扰乱处理后的图片构成,记录图片对应的随机扰乱顺序;原始图片集和扰乱图片集分别输入深度神经网络,获取原始特征图和扰乱特征图;根据随机扰乱顺序将扰乱特征图还原为新的扰乱特征图;对原始特征图和新的扰乱特征图执行池化操作后输入softmax分类器进行分类,得到原始损失函数和扰乱损失函数并计算二者之间的欧式距离;根据原始损失函数、扰乱损失函数以及二者之间的欧式距离计算总的损失函数。将输入图像划分为很多局部区域,采用混淆并还原的方法,使网络学习局部区域特征和语义信息,有助于完成细粒度识别任务。
A fine-grained image recognition method
【技术实现步骤摘要】
一种图像的细粒度识别方法
本专利技术涉及深度学习
,特别是指一种图像的细粒度识别方法。
技术介绍
深度学习做分类识别任务的流程通常是:目标检测,检测到的目标进行位置矫正,然后送入神经网络提取特征,最后进行分类。现有的技术中,通常都是基于全局特征进行分类。全局特征进行分类的缺点是,可能会忽略一些细微的特征,一些属于某一类别独有的特征。比如,需要做车的唯一性识别,两款同样的奥迪车,其区别只有年检标签粘贴位置的不同,若使用全局特征进行表示,就有可能会忽略掉年检标签这一细微的特征,因此便有了细粒度的图像识别任务,其主要用于识别哪些看起来很相似,却又有细微差别的物体。过去几年得益于大规模的标注数据集,具有高速运算能力的硬件以及复杂的神经网络在通用物体识别方面取得了长足的进展,但细粒度物体识别依旧具有很大的挑战性。细粒度物体看起来虽然差别不大,但依然能根据具有判别性的局部区域的细节信息被正确识别出来。比如,2019年中国科学院自动化研究所举办了车纹识别技术挑战赛。从外观上来说,车辆具有车型车款、车身颜色、车牌类型、车牌号码、天窗、年检标、挂件、摆件、喷涂以及驾乘人员等属性特征,这些所有的属性信息组合起来形成了车辆独一无二的“车纹”,可以作为车辆身份的唯一性判定依据,比单纯的车牌号码更加可靠。车纹识别即从车辆图片外观中提取车辆的唯一性判定特征,并从图片库中找到与查询车辆身份一致的车辆图片的过程。这即是一个典型的细粒度识别任务。细粒度图像识别任务的研究主要沿着两个维度进行。一个是直接从原始图像中学习更好的视觉表示,例如,通过优化网络结构和损失函数,增强模型的特征表示能力;另一个是使用基于感兴趣区域或注意力的方法,来获得图形中的判别区域并学习基于区域的特征表示。从判别性区域学习判别性特征表示在细粒度图像分类中扮演着关键角色。目前细粒度方法可大致分为两类。一:首先定位判别区域,然后基于这些区域分类,这类方法的缺点是需要对象或局部区域上的标注信息,这些信息难以收集或者需要大量的人工成本去标注;二:通过注意力机制以一种无监督方式来自动定位到判别性区域,虽然不需要额外标注信息,但是需要额外的网络结构,比如注意力机制,从而在训练和推理阶段引入了额外的计算开销。目前细粒度方法具有以下缺点:方法一需要对象或局部区域上的标注信息,这些信息难以收集或者需要大量的人工成本去标注,代价太大。方法二虽不需要额外标注信息,但是需要额外的网络结构,比如注意力机制等,从而在训练和推理节点引入了额外的计算开销。
技术实现思路
本专利技术提出一种图像的细粒度识别方法,解决了现有技术中需要对象或局部区域上的标注信息,需要大量的人工成本去标注,代价太大;或者需要额外的网络结构,比如注意力机制等,从而在训练和推理节点引入了额外的计算开销的问题。本专利技术的技术方案是这样实现的:一种图像的细粒度识别方法,具体包括以下步骤:步骤1,根据图像数据获取原始图片集和扰乱图片集,扰乱图片集由图像数据中随机扰乱处理后的图片构成,记录图片对应的随机扰乱顺序;步骤2,原始图片集和扰乱图片集分别输入深度神经网络,获取原始特征图和扰乱特征图;步骤3,根据随机扰乱顺序将扰乱特征图还原为新的扰乱特征图;步骤4,对原始特征图和新的扰乱特征图执行池化操作后输入softmax分类器进行分类,得到原始损失函数和扰乱损失函数并计算二者之间的欧式距离;步骤5,根据原始损失函数、扰乱损失函数以及二者之间的欧式距离计算总的损失函数。作为本专利技术的一个优选实施例,步骤1中对图片进行随机扰乱处理具体包括以下步骤:步骤101,将图片平均划分为若干块子图并标记,随机组合成新图片;步骤102,给每一张新图片命名,新图片的标签和原始图片相同,并记录每一张新图片的组合顺序。作为本专利技术的一个优选实施例,步骤3具体包括以下步骤:步骤301,将扰乱特征图平均划分为若干块子特征图并标记;步骤302,按照新图片的组合顺序将子特征图进行组合,得到新的扰乱特征图。作为本专利技术的一个优选实施例,在步骤1和步骤3中,分别将图片和扰乱特征图平均划分为4块。作为本专利技术的一个优选实施例,步骤4中对原始特征图和新的扰乱特征图执行全局池化操作。作为本专利技术的一个优选实施例,图像数据为StanfordCars,深度神经网络采用ResNet50网络。作为本专利技术的一个优选实施例,步骤5中总的损失函数由原始损失函数、扰乱损失函数、二者的欧式距离对应的损失函数相加后获得。本专利技术的有益效果在于:将输入图像划分为很多局部区域,然后通过随机扰乱的方式,破坏图像原始的位置信息,并记录下扰乱的顺序,学习得到的特征图按照原始图像的扰乱顺序进行还原,这种混淆并还原的方法,不仅可以使网络学习更关键的局部区域特征,还能学习到不同区域的语义信息,有助于完成细粒度识别任务。附图说明为了更清楚地说明本专利技术实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本专利技术的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。图1为本专利技术一种图像的细粒度识别方法一个实施例的流程图。具体实施方式下面将结合本专利技术实施例中的附图,对本专利技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本专利技术一部分实施例,而不是全部的实施例。基于本专利技术中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本专利技术保护的范围。本专利技术使用ResNet50网络作为backbone,训练数据使用StanfordCars,图片尺寸resize至256*256大小。StanfordCars数据集主要用于细粒度分类任务。数据集中一共包含16185张不同型号的汽车图片,其中8144张为训练集,8041张为测试集。损失函数使用softmaxloss。如图1所示,本专利技术提出了一种图像的细粒度识别方法,具体包括以下步骤:步骤1,根据图像数据获取原始图片集和扰乱图片集,扰乱图片集由图像数据中随机扰乱处理后的图片构成,记录图片对应的随机扰乱顺序;步骤1中对图片进行随机扰乱处理具体包括以下步骤:步骤101,将图片平均划分为4块子图并标记,每块的大小为64*224,四个子块分别标记为1、2、3、4四个子图,然后打乱顺序,随机组合成一张新的图片,可以组合出24种新的图片。步骤102,给每一张新图片命名,新图片的标签和原始图片相同,并记录每一张新图片的组合顺序。步骤2,原始图片集和扰乱图片集分别输入深度神经网络,获取原始特征图和扰乱特征图;图片1.jpg(原始图片)经过ResNet50网络的A支路得到8*8的特征图feature_map_A,1.jpg(原始图片)随机扰乱处理后的图片confused_1.jpg经过ResN本文档来自技高网...
【技术保护点】
1.一种图像的细粒度识别方法,其特征在于,具体包括以下步骤:/n步骤1,根据图像数据获取原始图片集和扰乱图片集,扰乱图片集由图像数据中随机扰乱处理后的图片构成,记录图片对应的随机扰乱顺序;/n步骤2,原始图片集和扰乱图片集分别输入深度神经网络,获取原始特征图和扰乱特征图;/n步骤3,根据随机扰乱顺序将扰乱特征图还原为新的扰乱特征图;/n步骤4,对原始特征图和新的扰乱特征图执行池化操作后输入softmax分类器进行分类,得到原始损失函数和扰乱损失函数并计算二者之间的欧式距离;/n步骤5,根据原始损失函数、扰乱损失函数以及二者之间的欧式距离计算总的损失函数。/n
【技术特征摘要】
1.一种图像的细粒度识别方法,其特征在于,具体包括以下步骤:
步骤1,根据图像数据获取原始图片集和扰乱图片集,扰乱图片集由图像数据中随机扰乱处理后的图片构成,记录图片对应的随机扰乱顺序;
步骤2,原始图片集和扰乱图片集分别输入深度神经网络,获取原始特征图和扰乱特征图;
步骤3,根据随机扰乱顺序将扰乱特征图还原为新的扰乱特征图;
步骤4,对原始特征图和新的扰乱特征图执行池化操作后输入softmax分类器进行分类,得到原始损失函数和扰乱损失函数并计算二者之间的欧式距离;
步骤5,根据原始损失函数、扰乱损失函数以及二者之间的欧式距离计算总的损失函数。
2.根据权利要求1所述的一种图像的细粒度识别方法,其特征在于,步骤1中对图片进行随机扰乱处理具体包括以下步骤:
步骤101,将图片平均划分为若干块子图并标记,随机组合成新图片;
步骤102,给每一张新图片命名,新图片的标签和原始图片相同,并记录每一张新图片的组合顺序。...
【专利技术属性】
技术研发人员:代笃伟,赵威,申建虎,王博,张伟,
申请(专利权)人:北京精诊医疗科技有限公司,
类型:发明
国别省市:北京;11
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。