一种图像识别方法及装置制造方法及图纸

技术编号:25044427 阅读:23 留言:0更新日期:2020-07-29 05:34
本发明专利技术提供了一种图像识别方法,包括:S1,获取训练图像集,将训练图像集中的各训练图像与该训练图像对应的类别索引进行训练,学习提取无语义视觉表达;S2,将训练图像集中各训练图像与该训练图像所对应的语义标签对齐,学习提取语义对齐的视觉表达;S3,同时对无语义视觉表达及语义对齐的视觉表达进行识别分析,得到视觉偏见消除模型;S4,将待识别图像输入视觉偏见消除模型,进行识别。本发明专利技术提供的图像识别方法通过建立视觉偏见消除模型,可以提升对已知域和未知域样本的感知效果,进而实现无偏差零样本的准确识别。

【技术实现步骤摘要】
一种图像识别方法及装置
本专利技术涉及一种基于域感知的偏见消除技术实现无偏差零样本图像的识别的应用,具体涉及一种图像识别方法及装置。
技术介绍
零样本学习旨在同时识别已知类别(已知域)或未知类别(未知域)的图像样本。最近的方法侧重于学习一种语义对齐的视觉表达来将已知域的知识迁移到未知域。然而由于语义知识的弱区分性,这种语义对齐的视觉表达很难将两个域分开,因此,会导致未知域的图像更倾向于被识别成已知域类别。
技术实现思路
(一)要解决的技术问题本专利技术提供的一种图像识别方法及装置,用于至少解决上述问技术题。(二)技术方案本专利技术一方面提供一种图像识别方法,包括:S1,获取训练图像集,将所述训练图像集中的各训练图像与该训练图像对应的类别索引进行训练,学习提取无语义视觉表达;S2,将所述训练图像集中各训练图像与该训练图像所对应的语义标签对齐,学习提取语义对齐的视觉表达;S3,同时对所述无语义视觉表达及所述语义对齐的视觉表达进行识别分析,得到视觉偏见消除模型;S4,将待识别图像输入所述视觉偏见消除模型,进行识别。可选地,步骤S1中,所述学习提取无语义视觉表达,包括:提取所述训练图像集中的各训练图像的视觉信息的二阶统计量,增强所述训练图像集中各训练图像之间的类间可区分性。可选地,步骤S1中,所述增强所述训练图像集中各图像之间的类间可区分性,包括:设置一损失函数,所述损失函数包含一预设范围大小的边缘系数,所述边缘系数的大小取决于所述训练图像的类间决策边界距离;使所述边缘系数可自适应学习,进而增强所述训练图像集中各图像之间的类间可区分性。可选地,步骤S2中,所述将所述训练图像集中各训练图像与该训练图像所对应的语义标签对齐,包括:通过自动搜索网络框架生成所述训练图像的语义对齐视觉表达,使所述语义对齐视觉表达与所述语义标签对齐。可选地,通过自动搜索网络框架生成所述训练图像的语义对齐视觉表达,包括:通过有向无环图训练所述训练图像,所述有向无环图中包括至少两个节点;自动搜索所述至少两个节点之间的操作,得到所述训练图像的语义对齐视觉表达。可选地,自动搜索所述至少两个节点之间的操作,得到所述训练图像的语义对齐视觉表达,包括:自动搜索所述至少两个节点之间的全连接、图卷积、直接映射以及无操作中的任一种操作,得到所述训练图像的语义对齐视觉表达。可选地,步骤S4中,所述将待识别图像输入所述视觉偏见消除模型,进行识别,包括:将待识别图像输入所述视觉偏见消除模型,通过所述视觉偏见消除模型判断所述待识别图像来自已知域或未知域,根据判断结果使用特定域进行识别。可选地,通过所述视觉偏见消除模型判断所述待识别图像来自已知域或未知域,包括:通过所述视觉偏见消除模型计算图像无语义视觉特征的分类分数的熵;判断所述熵是否大于一预设值,若是,则所述图像来自于未知域,若否,则判定所述训练图像来自于已知域。可选地,根据判断结果使用特定域进行识别,包括:若所述待识别图像来自于已知域,则使用无语义视觉特征对所述待识别图像进行识别;若所述待识别图像来自于未知域,则使用语义对齐的视觉特征对所述待识别图像进行识别。本专利技术另一方面还提供了一种图像识别装置,包括:自适应二阶嵌入模块,用于获取训练图像集,将所述训练图像集中的各训练图像与该训练图像对应的类别索引进行训练,学习提取无语义视觉表达;自动语义嵌入模块,用于将所述训练图像集中各训练图像与该训练图像所对应的语义标签对齐,学习提取语义对齐的视觉表达;分析模块,用于同时对所述无语义视觉表达及所述语义对齐的视觉表达进行识别分析,得到视觉偏见消除模型;识别模块,用于将待识别图像输入所述视觉偏见消除模型,进行识别。(三)有益效果1、本专利技术通过构造两个互补的视觉表达形式,即无语义视觉表达和语义对齐视觉表达来分别处理已知域和未知域样本,进而实现无偏差的零样本识别应用;2、本专利技术通过设计二阶嵌入模块以生成高度可区分的无语义视觉表达,从而提升通过无语义视觉表达对已知域样本的识别能力和未知域样本的感知效果;3、本专利技术通过设计一种自动搜索的语义-视觉嵌入模块,能够自动搜索最优的网络架构来生成鲁棒的语义对齐视觉表达。附图说明图1示意性示出了本专利技术实施例中提供的一种图像识别方法流程图;图2示意性示出了本专利技术实施例中基于域感知的偏见消除模型训练结构图;图3示意性示出了本专利技术实施例中基于域感知的偏见消除模型推理框图;图4示意性示出了本专利技术实施例中图像识别装置的结构图。具体实施方式为使本专利技术的目的、技术方案和优点更加清楚明白,以下结合具体实施例,并参照附图,对本专利技术进一步详细说明。本专利技术实施例提出了一种新的基于域感知的偏见消除技术来实现无偏差的零样本图像识别应用。其核心思想为构建两个互补的视觉表达,也即,无语义的视觉表达和有语义的视觉表达来分别处理已知域和未知域样本。对于无语义视觉表达,可设计一种自适应二阶嵌入模块来提取视觉信息中的二阶统计量,并通过自适应的边缘Softmax来最大化其类间差异。这使得无语义视觉表达具有足够的可区别性,能同时进行已知域样本的类别预测和未知域样本的准确感知。对于感知到的未知域样本,本专利技术实施例提出了一个自动语义嵌入模块来生成鲁棒的语义对齐视觉表达,从而进行具体的未知域类别预测。通过准确地感知未知域样本,可有效地防止未知域样本被识别成已知域类别。该方法在五个包括分类和分割的基准数据集上都取得了目前最好的效果。下面进行详细介绍。参阅图1,图1示意性示出了本专利技术实施例中提供的一种图像识别方法流程图,包括:S1,获取训练图像集,将训练图像集中的各训练图像与该训练图像对应的类别索引进行训练,学习提取无语义视觉表达。本专利技术实施例中的训练图像集来自零样本数据集,该零样本数据集例如可以包括:数据集Caltech-UCSDbirds(CUB-200),该CUB-200数据集包含200种鸟的类别,共11788张图片。其中150类鸟作为可见类别进行训练,剩下的50类作为未知类别进行验证,语义知识采用312维的属性向量作为类别描述。数据集AnimalswithAttributes2(AWA2),该AWA2数据集包括50种动物类别的37322张图片,其中40类动物作为已知类别进行训练,剩下的10类作为未知类别进行验证。语义知识采用85维类别属性作为描述。数据集AttributePascalandYahoo(aPY),该aPY数据集包括32类带有属性标注的15339张图片。其中,20类作为可见类别,12类作为未知类别,类别属性标注为64维。数据集SUN,该SUN数据集包括20类动物的图像分割数据集,其中的14类作为可见类别,剩下的6类作为未知类别,采用300维的类别属性作为描述。数据集PascalVOC,该PascalVOC数据集包括20类物体的图像分割数据集。其中的14种类别作为可见类别进行训练,剩下的6类作为未知类别进行测本文档来自技高网...

【技术保护点】
1.一种图像识别方法,包括:/nS1,获取训练图像集,将所述训练图像集中的各训练图像与该训练图像对应的类别索引进行训练,学习提取无语义视觉表达;/nS2,将所述训练图像集中各训练图像与该训练图像所对应的语义标签对齐,学习提取语义对齐的视觉表达;/nS3,同时对所述无语义视觉表达及所述语义对齐的视觉表达进行识别分析,得到视觉偏见消除模型;/nS4,将待识别图像输入所述视觉偏见消除模型,进行识别。/n

【技术特征摘要】
1.一种图像识别方法,包括:
S1,获取训练图像集,将所述训练图像集中的各训练图像与该训练图像对应的类别索引进行训练,学习提取无语义视觉表达;
S2,将所述训练图像集中各训练图像与该训练图像所对应的语义标签对齐,学习提取语义对齐的视觉表达;
S3,同时对所述无语义视觉表达及所述语义对齐的视觉表达进行识别分析,得到视觉偏见消除模型;
S4,将待识别图像输入所述视觉偏见消除模型,进行识别。


2.根据权利要求1所述的方法,其中,步骤S1中,所述学习提取无语义视觉表达,包括:
提取所述训练图像集中的各训练图像的视觉信息的二阶统计量,增强所述训练图像集中各训练图像之间的类间可区分性。


3.根据权利要求2所述的方法,其中,步骤S1中,所述增强所述训练图像集中各图像之间的类间可区分性,包括:
设置一损失函数,所述损失函数包含一预设范围大小的边缘系数,所述边缘系数的大小取决于所述训练图像的类间决策边界距离;
使所述边缘系数可自适应学习,以增强所述训练图像集中各图像之间的类间可区分性。


4.根据权利要求1所述的方法,其中,步骤S2中,将所述训练图像集中各训练图像与该训练图像所对应的语义标签对齐,包括:
通过自动搜索网络框架生成所述训练图像的语义对齐视觉表达,使所述语义对齐视觉表达与该训练图像语义标签对齐。


5.根据权利要求4所述的方法,其中,所述通过自动搜索网络框架生成所述训练图像的语义对齐视觉表达,包括:
通过有向无环图训练所述训练图像,所述有向无环图中包括至少两个节点;
自动搜索所述至少两个节点之间的操作,得到所述训练图像的语义对齐视觉表达。


6.根据权利要求5所述的方...

【专利技术属性】
技术研发人员:张勇东闵少波谢洪涛
申请(专利权)人:中国科学技术大学北京中科研究院
类型:发明
国别省市:安徽;34

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1