基于最近邻与困难样本挖掘的无监督图像嵌入学习方法技术

技术编号:33710879 阅读:28 留言:0更新日期:2022-06-06 08:43
本发明专利技术是一种基于最近邻与困难样本挖掘的无监督图像嵌入学习方法,包括步骤1:搭建深度学习框架运行环境;步骤2:搭建执行无监督嵌入学习任务的网络模型;步骤3:使用数据集通过端到端的方式对网络进行训练;步骤4:将步骤3完成训练后的图像输入到无监督嵌入学习任务的网络模型中,根据图像特征之间的余弦相似性检索出相似度最近的图像,如检索到的图像属于同一类别,则检索成功。该方法利用深度神经网络对图像提取特征,然后根据特征之间的余弦相似性,挖掘样本的最近邻域,从而将图像分为若干个邻域,邻域内的样本图像共享伪类别信息,使得模型能够学习到图像的高判别性特征。使得模型能够学习到图像的高判别性特征。

【技术实现步骤摘要】
基于最近邻与困难样本挖掘的无监督图像嵌入学习方法


[0001]本专利技术属于模式识别与计算机视觉中无监督图像嵌入学习领域,具体的说是涉及了一种基于最近邻与困难样本挖掘的无监督图像嵌入学习方法。

技术介绍

[0002]深度神经网络由于其强大的视觉特征学习能力,已经被用作许多计算机视觉任务的基本结构,如目标检测,人脸识别,图像检索,行人重识别等等。深度神经网络的性能在很大程度上取决于其自身能力和训练数据量。为了增加网络模型的容量,科研人员开发了不同种类的网络体系结构,同时,像ImageNet等大规模数据集也已经被收集并用来训练非常深的神经网络。凭借复杂的体系结构和大规模数据集,深度卷积神经网络的性能不断地突破计算机视觉任务的最先进水平。
[0003]深度嵌入学习旨在利用深度神经网络从图像中学习一种具有判别性的低维嵌入特征,这种嵌入特征具有两种属性:1)正集中:属于同一类别的样本的嵌入特征应当彼此靠近;2)负分离:属于不同类别的样本的嵌入特征应当尽可能的彼此远离。深度嵌入学习具有许多广泛且重要的应用,如图像检索,人脸识别,目标跟踪,行人重识别等等。然而,为不同的任务收集和标注数据集是一项耗时且昂贵的工程。作为计算机视觉最广泛使用的数据集之一,ImageNet包含覆盖1000个类别的大约130万个标记图像,而每个图像由人工用一个类标签标记。在对如此大规模数据集收集和标注时,耗费了许多工作人员的大量时间。尤其对于大规模细粒度数据集的标注,往往更需要领域内的专家才能完成。因此,以无监督的方式直接、自动地从图像中学习特征是一项非常重要而又富有挑战性的任务,且已经成为机器学习和计算机视觉领域的研究热点。
[0004]无监督嵌入学习要求学习到的嵌入特征之间的相似性与输入样本的视觉相似性或类别关系保持一致。相比之下,广泛研究的无监督特征学习旨在使用不同的监督信号来学习良好的“中间”特征表示,通过学习一个线性分类器或者目标检测器,将其学习到的特征推广到下游任务,其中目标任务仍然需要有标注的样本。然而,学习到的特征可能无法保持视觉相似性,因此对于基于视觉相似性的任务,其性能显著的下降,如最近邻搜索。

技术实现思路

[0005]为了解决上述问题,本专利技术提出了一种记忆最近邻与困难样本挖掘的无监督图像嵌入学习方法,该方法利用深度神经网络对图像提取特征,然后根据特征之间的余弦相似性,挖掘样本的最近邻域,从而将图像分为若干个邻域,邻域内的样本图像共享伪类别信息,使得模型能够学习到图像的高判别性特征。
[0006]为了达到上述目的,本专利技术是通过以下技术方案实现的:
[0007]本专利技术是一种基于最近邻与困难样本挖掘的无监督图像嵌入学习方法,包括如下步骤:
[0008]步骤1:搭建基于Pytorch的深度学习框架运行环境,包含Numpy、Scipy等第三方运
行库;
[0009]步骤2:在步骤1搭建好的深度学习框架运行环境下搭建执行无监督嵌入学习任务的网络模型,所述网络模型主要包含五个模块:特征提取模块,规范化模块,最近邻挖掘模块,困难样本挖掘模块,嵌入学习模块。
[0010]所述特征提取模块采用在ImageNet上预训练过的GoogLeNet网络作为特征提取器,在GoogLeNet的第五个池化层之后增加一个128维到的全连接层作为特征嵌入层,在提取特征的过程中,将无监督嵌入学习任务给定的数据集里的训练图像随机裁剪为227
×
227来进行数据增强。
[0011]规范化模块连接在特征提取器末端,提取无监督嵌入学习任务给定的数据集里的图像特征,所述规范化模块将特征提取模块提取到的图像特征的深度特征向量的每个元素除以向量的模进行规范化,将深度特征规范成模为1的向量,便于优化网络参数。
[0012]将这些规范后的深度特征向量输入到最近邻挖掘模块,形成若干个邻域,邻域内的样本共享类别信息,并为每个样本分配一个类别标签。
[0013]根据挖掘到的样本特征,在嵌入学习模块,对每个样本特征,将其与同类样本特征拉近,并将其与其他类样本特征远离,也就是说嵌入学习模块将困难样本挖掘模块困难正负样本结合为一体进行优化,更新网络参数,使得模型学习到高判别性图像特征;
[0014]步骤3:使用数据集通过端到端的方式对步骤2的网络进行训练:将所有图像随机裁剪为227
×
227来进行数据增强,使用0.9动量的SGD优化器并将权重衰减设置为5*10^

4,直到网络参数达到最优状态停止训练。
[0015]步骤4:各项权重参数训练达到最优之后,要输入全新的图像对模型进行测试,即在测试阶段,将从未出现过的测试图像进行中心裁剪之后作为输入,根据特征的余弦相似性检索到与测试图像相似性最小的图像,检索到的图像若与输入的测试图像属于同一类,则为检索成功,反之失败。
[0016]本专利技术的进一步改进在于:训练所采用的数据集包括CUB200和Cars196。
[0017]CUB200数据集是美国加州理工学院于2011年发布的一个包含200种鸟类照片的细粒度图像数据集,该数据集共有11788张鸟类图像,每张图像均提供了图像类标记信息。其中前100个类别的5864张图像用来训练,其余100个类别的5924张图像用来测试。因此,训练图像类别与测试图像类别是完全不同的。
[0018]Cars196是美国斯坦福大学于2013年发布的一个包含196种汽车类,共计16185张图像的细粒度图像数据集,每张图像均提供了图像类标记信息。其中前98个类别的8054张图像用来训练,其余98个类别的8131张图像用来测试。同样,训练图像类别与测试图像类别也是完全不同的。
[0019]本专利技术的有益效果是:该方法利用深度神经网络对图像提取特征,然后根据特征之间的余弦相似性,挖掘样本的最近邻域,从而将图像分为若干个邻域,邻域内的样本图像共享伪类别信息,为了能够使模型快速收敛,使用困难样本挖掘策略来选择更有价值和意义的样本,为了达到正集中和负分离的目的,对每个样本,让其在特征空间中靠近同类样本的特征,并远离其他类样本特征,通过优化目标函数来调整网络模型,使得模型能够学习到图像的高判别性特征。
附图说明
[0020]图1是本专利技术无监督图像嵌入学习方法的流程图。
具体实施方式
[0021]以下将以图式揭露本专利技术的实施方式,为明确说明起见,许多实务上的细节将在以下叙述中一并说明。然而,应了解到,这些实务上的细节不应用以限制本专利技术。也就是说,在本专利技术的部分实施方式中,这些实务上的细节是非必要的。
[0022]如图1所示,进行基于最近邻挖掘与困难样本挖掘的无监督图像嵌入学习方法时,首先搭建基于Pytorch的深度学习框架运行环境,包含Numpy、Scipy等第三方运行库,在搭建好的深度学习框架运行环境下搭建执行无监督嵌入学习任务的网络模型,所述网络模型主要包含五个模块:特征提取模块,规范化模块,最近邻挖掘模块,困难样本挖掘模块,嵌入学习模块。<本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于最近邻与困难样本挖掘的无监督图像嵌入学习方法,其特征在于:所述无监督图像嵌入学习方法包括如下步骤:步骤1:搭建基于Pytorch的深度学习框架运行环境;步骤2:在步骤1搭建好的深度学习框架运行环境下搭建执行无监督嵌入学习任务的网络模型,所述网络模型主要包含五个模块:特征提取模块,规范化模块,最近邻挖掘模块,困难样本挖掘模块,嵌入学习模块;特征提取模块提取无监督嵌入学习任务给定的数据集里的图像特征,所述规范化模块将特征提取模块提取到的图像特征的深度特征向量的每个元素除以向量的模进行规范化,最近邻挖掘模块对规范化后的特征执行样本特征的邻域挖掘,使用困难样本挖掘模块对样本进行选择,嵌入学习模块将困难样本挖掘模块困难正负样本结合为一体进行优化,更新网络参数,使得模型学习到高判别性图像特征;步骤3:使用数据集通过端到端的方式对步骤2的网络进行训练;步骤4:将步骤3完成训练后的图像输入到步骤2的无监督嵌入学习任务的网络模型中,根据图像特征之间的余弦相似性检索出相似度最近的图像,如检索到的图像属于同一类别,则检索成功。2.根据权利要求1所述基于最近邻与困难样本挖掘的无监督图像嵌入学习方法,其特征在于:步骤2中所述最近邻挖掘模块是通过构建最近邻形成邻域图,在邻域图内运用深度优先搜索策略挖掘强连通图,以此构成邻域,邻域内的样本共享类别信息。3.根据权利要求1所述基于最近邻与困难样本挖掘的无监督图像嵌入学习方法,其特征在于:所述步骤2中使用困难样本挖掘模块对困难...

【专利技术属性】
技术研发人员:王彩玲杨建伟蒋国平
申请(专利权)人:南京邮电大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1