一种基于结构保持零样本学习的鸟类濒危物种识别方法技术

技术编号:23162197 阅读:92 留言:0更新日期:2020-01-21 22:04
本发明专利技术公开了一种基于结构保持零样本学习的鸟类濒危物种识别方法,包括如下步骤:数据输入步骤,输入数据集包括常见鸟类图像视觉特征、语义信息、标签信息等,以及鸟类濒危物种的语义信息;训练步骤,学习视觉特征空间到语义空间的双向映射,同时使用流形一致性对该映射作进一步的约束。将优化问题归结成Sylvester方程求解问题,求解过程简单易实现,求解的结果为映射矩阵P;预测步骤,利用训练步骤得到的映射矩阵P对给定语义信息的鸟类濒危物种图像做出识别。本发明专利技术保留了数据间的结构信息,解决了领域漂移的问题,提高了图像分类的精确度,使之能够应用到复杂的鸟类图像识别的问题中,并能够对没有已知标签信息的濒危物种进行识别。

【技术实现步骤摘要】
一种基于结构保持零样本学习的鸟类濒危物种识别方法
本专利技术涉及图像分类
,具体涉及一种基于结构保持零样本学习的鸟类濒危物种识别方法。
技术介绍
鸟类是动物界的一个重要组成部分,由于它们的种类繁多,外观近似,如何准确高效地对其进行识别一直是一个重要的研究问题。传统计算机视觉领域需要大量的人工标记的鸟类图像进行训练以获得良好的分类精度。然而,由于自然环境变化、人类活动影响等原因,许多鸟类的数量急剧减少,有关图像变得难以获得,只能从古籍、知情人描述中获得关于它们外观、习性的信息。由于带标记图像数据的匮乏,传统计算机视觉领域的方法无法解决鸟类图像数据精准分类的问题。针对以上带标签图像数据匮乏的问题,目前亟待提出用零样本学习的方法解决濒危鸟类图像分类问题。零样本图像分类方法模仿人类根据已知事物,以及未知事物的描述,实现判别与分类未知事物的能力。以常见的可获得其标签信息的鸟类为可见类别,数据匮乏的濒危鸟类为不可见类别,可见类别和不可见类别之间没有重叠。人类对于鸟类外观、习性等特征的描述称为语义信息。零样本学习方法利用可见类别鸟类的视觉特征信息和语义信息完成对不可见类别鸟类图像的识别与分类任务。零样本学习的关键在于如何建立可见类别与不可见类别之间的关联,以实现知识的共享与迁移。传统基于映射的零样本学习方法旨在学习一个视觉特征空间到语义空间的映射,或是学习一个将视觉特征和语义共同映射到中间层的映射。这类方法不可避免地存在领域漂移的问题,即由于可见类别与不可见类别没有重叠,虽然他们共享同一个语义空间,但相同的语义描述对应的视觉特征表示却有很大不同。在这种情况下,从可见类别数据学习到的映射直接应用到不可见类别的分类任务将导致精确度的降低。基于上述问题,提出一种能够克服现有零样本方法存在的不足,实现对濒危鸟类图像准确识别与分类的方法是目前迫切需要解决的问题。
技术实现思路
本专利技术的目的是为了克服现有技术中的上述缺陷,提供一种基于结构保持零样本学习的鸟类濒危物种识别方法。本专利技术的目的可以通过采取如下技术方案达到:一种基于结构保持零样本学习的鸟类濒危物种识别方法,所述的鸟类濒危物种识别方法包括:图像数据输入步骤,输入的图像数据分为可见类别数据和不可见类别数据,其中,所述的可见类别数据指常见的可获得其标签信息的鸟类,包括可见类别鸟类图像视觉特征、语义信息、标签信息;所述的不可见类别数据指数据匮乏的濒危鸟类,包括濒危鸟类的语义信息;训练步骤,接收输入数据后,基于可见类别数据学习视觉特征空间到语义空间的双向映射,同时增加对映射矩阵P的两种流形一致性约束,得到最终模型并求其最优解。可以将该求解过程归结为Sylvester问题,通过调用MATLAB中的工具箱函数,即可求得该方程的解,得到映射矩阵P。预测步骤,将待分类的濒危鸟类物种作为测试样本,输入测试样本的视觉特征以及不可见类别的语义,将每个测试样本用所述的映射矩阵P作映射,得到其在语义空间的映射结果,将得到的结果与给定的类别语义在语义空间作近邻计算,找出最近邻的语义,其对应的类别即为得到的预测值。进一步地,所述的视觉特征即鸟类图像经过GoogleNet等网络提取的特征;所述的语义信息指人类对于鸟类外观、习性等特征的描述,分为视觉属性和词向量两种,其中,所述的视觉属性由人工标记而来,词向量可以通过网络爬虫等手段获得;所述的标签信息即图像所属的类别信息;以上数据可以自己收集提取,也可以从公开的数据集中获得。进一步地,所述的图像数据输入步骤中,可见类别共CS个,可见类别的样本共nS个,可见类别的视觉特征矩阵为其中d为视觉特征维度,可见类别的语义矩阵为其中m为语义维度,AS的每行代表一个样本对应的一组语义,每一组语义对应一个类别,对应地,不可见类别共CU个,不可见类别样本共nU个。进一步地,所述的图像数据输入步骤中,还包括:对输入的视觉特征矩阵XS归一化处理,归一化为[-1,1]之间,以获得更好的训练效果。进一步地,所述的训练步骤中得到的最终模型如下:其中,表示矩阵-范数的平方,P为学习的映射矩阵,PT表示映射矩阵P的转置,λ、β和γ为超参数,用于权衡各项权重,LX和LA分别为视觉特征矩阵和语义矩阵的拉普拉斯图矩阵,LX=DX-WX,LA=DA-WA,DX和DA是对角矩阵,其计算方法为(DX)ii=∑j(WX)ij,(DA)ii=∑j(WA)ij,WX和WA分别指建立在视觉特征矩阵和语义矩阵上的相似度矩阵,(WX)ij指矩阵WX第i行、第j列的元素,(WA)ij指矩阵WA第i行、第j列的元素,其计算方式如下:其中,xi和xj分别表示视觉特征矩阵的第i行和第j行,即第i个样本和第j个样本的视觉特征,ai和aj分别表示语义矩阵的第i行和第j行,即第i个样本和第j个样本的语义,表示和xi属于同一类且是xi的k近邻的样本,表示和ai属于同一类且是ai的k近邻的样本。进一步地,所述的训练步骤中,求解最终模型,将最终模型关于P求导,令导数值为零,得到以下Sylvester方程:通过调用MATLAB中的工具箱函数,即可求得该方程的解,得到映射矩阵P。进一步地,所述的预测步骤中,输入测试样本的视觉特征xj,语义特征空间ai表示的第i行,即第i个类别对应的语义,目标领域对应的CU个不可见类别,将每个测试样本用映射矩阵P作映射,得到其对应在语义空间的映射结果,将得到的结果与给定的类别语义在语义空间作近邻计算,找出最近邻的语义,其对应的类别即为得到的预测值,然后用下式得出对测试样本的标签判断结果:其中,表示矩阵-范数的平方。本专利技术相对于现有技术具有如下的优点及效果:(1)本专利技术旨在解决濒危鸟类物种的识别问题。本专利技术能够在无法获得濒危鸟类图像信息的情况下,利用常见的可获得其标签信息的鸟类图像特征,根据鸟类濒危物种的描述性信息,实现对鸟类濒危物种的识别。(2)本专利技术学习了视觉特征空间到语义空间的双向映射,即正向可以实现视觉特征空间到语义空间的映射,反向可以实现语义空间到视觉特征空间的映射,从而极大地保留了视觉特征数据所带有的信息,解决了领域漂移问题。(3)本专利技术在学习双向映射的基础上,添加了流形一致性约束。即正向映射和反向映射的结果都能保持映射前样本间的近邻关系,保留视觉特征及语义所带有的结构信息,实现分类精确度的提升。附图说明图1是本专利技术公开的一种基于结构保持零样本学习的鸟类濒危物种识别方法整体流程的示意图;图2是本专利技术公开的鸟类濒危物种识别模型核心算法的示意图,图中展示了训练过程和测试过程的主要思路,主要在于映射矩阵P的学习与迁移。具体实施方式为使本专利技术实施例的目的、技术方案和优点更加清楚,下面将结合本专利技术实施例中的附图,对本专利技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本专利技术一部分实施例,而不是全部的实施例。基于本专利技术中的实本文档来自技高网
...

【技术保护点】
1.一种基于结构保持零样本学习的鸟类濒危物种识别方法,其特征在于,所述的鸟类濒危物种识别方法包括:/n图像数据输入步骤,输入的图像数据分为可见类别数据和不可见类别数据,其中,所述的可见类别数据指常见的可获得其标签信息的鸟类,包括可见类别鸟类图像视觉特征、语义信息、标签信息;所述的不可见类别数据指数据匮乏的濒危鸟类,包括濒危鸟类的语义信息;/n训练步骤,接收输入的图像数据后,基于可见类别数据学习视觉特征空间到语义空间的双向映射,同时增加对映射矩阵P的两种流形一致性约束,得到最终模型并求其最优解,将该过程归结为Sylvester问题,通过调用MATLAB中的工具箱函数,即可求得该方程的解,得到映射矩阵P;/n预测步骤,将待分类的濒危鸟类物种作为测试样本,输入测试样本的视觉特征以及不可见类别的语义,将每个测试样本用所述的映射矩阵P作映射,得到其在语义空间的映射结果,将得到的结果与给定的类别语义在语义空间作近邻计算,找出最近邻的语义,其对应的类别即为得到的预测值。/n

【技术特征摘要】
1.一种基于结构保持零样本学习的鸟类濒危物种识别方法,其特征在于,所述的鸟类濒危物种识别方法包括:
图像数据输入步骤,输入的图像数据分为可见类别数据和不可见类别数据,其中,所述的可见类别数据指常见的可获得其标签信息的鸟类,包括可见类别鸟类图像视觉特征、语义信息、标签信息;所述的不可见类别数据指数据匮乏的濒危鸟类,包括濒危鸟类的语义信息;
训练步骤,接收输入的图像数据后,基于可见类别数据学习视觉特征空间到语义空间的双向映射,同时增加对映射矩阵P的两种流形一致性约束,得到最终模型并求其最优解,将该过程归结为Sylvester问题,通过调用MATLAB中的工具箱函数,即可求得该方程的解,得到映射矩阵P;
预测步骤,将待分类的濒危鸟类物种作为测试样本,输入测试样本的视觉特征以及不可见类别的语义,将每个测试样本用所述的映射矩阵P作映射,得到其在语义空间的映射结果,将得到的结果与给定的类别语义在语义空间作近邻计算,找出最近邻的语义,其对应的类别即为得到的预测值。


2.根据权利要求1所述的一种基于结构保持零样本学习的鸟类濒危物种识别方法,其特征在于,所述的视觉特征即鸟类图像经过GoogleNet网络提取的特征;所述的语义信息指人类对于鸟类外观、习性特征的描述,分为视觉属性和词向量两种,其中,视觉属性由人工标记而来,词向量通过网络爬虫获得;所述的标签信息即图像所属的类别信息。


3.根据权利要求1所述的一种基于结构保持零样本学习的鸟类濒危物种识别方法,其特征在于,所述的图像数据输入步骤中,可见类别共CS个,可见类别的样本共nS个,可见类别的视觉特征矩阵为其中d为视觉特征维度,可见类别的语义矩阵为其中m为语义维度,AS的每行代表一个样本对应的一组语义,每一组语义对应一个类别,对应地,不可见类别共CU个,不可见类别样本共nU个。


4.根据权利要求3所述的一种基于结构保持零样本学习的鸟类濒危物种识别方法,其特征在于,所述的图像数据输入步骤中,还包括:对输入的视觉特征矩阵XS归一化处理,归一化为[-1,1]...

【专利技术属性】
技术研发人员:周智恒牛畅尚俊媛黄俊楚张鹏宇
申请(专利权)人:华南理工大学
类型:发明
国别省市:广东;44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1