当前位置: 首页 > 专利查询>中山大学专利>正文

一种用于物体精细识别的层次语义嵌入模型及其实现方法技术

技术编号:19935155 阅读:29 留言:0更新日期:2018-12-29 04:53
本发明专利技术公开了一种用于物体精细识别的层次语义嵌入模型及其实现方法,所述层次语义嵌入模型包括:主干网络,用于对输入图像的浅层特征进行提取,以特征图的形式输出至各分支网络;若干分支网络,用于对主干网络输出的图像浅层特征图进行进一步的深层特征提取,使其输出的特征图适用于分支网络所对应层级的识别任务,并通过引入语义知识嵌入机制,实现上层语义知识对下层分支网络特征学习的指导,本发明专利技术解决依赖额外信息引导学习的物体精细化识别技术方案中的额外信息标注成本高的问题。

【技术实现步骤摘要】
一种用于物体精细识别的层次语义嵌入模型及其实现方法
本专利技术涉及物体精细识别
,特别是涉及一种用于物体精细识别的层次语义嵌入(HierarchicalSemanticEmbedding,HSE)模型及其训练方法。
技术介绍
近年来,深度视觉计算的变革引爆了各个领域对视觉理解、分析技术的需求,如电商急需在线精准检索服饰图片、安防行业急需精确匹配涉案车辆、以及农林环保界急需精细识别野生动植物等等。这些需求往往要求识别算法能够细致地区分出某一基本类别的从属类别,通常把这种技术称为物体的精细识别。一般来说,物体的精细化识别的技术难点在于:1)难以区分的类间差别:对于从相似类别得到的物体,很多情况下他们的视觉差别是非常微小的,有些甚至是人都难以区分;2)明显的类内差异:对于从同一类别得到的物体,由于尺度、视角、遮挡以及多样化的背景,这些物体呈现出非常大的视觉差异。目前,精细化识别技术主要基于若干判别性区域对物体进行区分,现有主要有以下两类方案:一是,利用注意力机制自动挖掘判别性区域;二是,利用额外信息引导模型学习,以更好地对判别性区域进行特征表达。然而,前者通常利用多个网络实现,反复的运算提高了模型的复杂度,同时,也因为缺乏有效的监督或引导从而导致判别性区域的定位模糊;而后者虽然有效提高了关键区域的可判别性,但所引入额外信息的标注成本往往很高。
技术实现思路
为克服上述现有技术存在的不足,本专利技术之目的在于提供一种用于物体精细识别的层次语义嵌入模型及其实现方法,以解决依赖额外信息引导学习的物体精细化识别技术方案中的额外信息标注成本高的问题。为达上述及其它目的,本专利技术提出一种用于物体精细识别的层次语义嵌入模型,包括:主干网络,用于对输入图像的浅层特征进行提取,以特征图的形式输出至各分支网络;若干分支网络,用于对主干网络输出的图像浅层特征图进行进一步的深层特征提取,使其输出的特征图适用于分支网络所对应层级的识别任务,并通过引入语义知识嵌入机制,实现上层语义知识对下层分支网络特征学习的指导。优选地,所述分支网络对来自所述主干网络的特征图进行二次特征化表达,产生新的分支特征图,通过结合上级预测的得分向量及其下级的分支特征图,学习得到注意力权重图,将所述注意力权重图作用在分支特征图之上,最终产生加权的分支特征图,以此预测该层级类型的标签分布。优选地,所述主干网络采用ResNet-50网络结构的layer4_x层及其之前的输入层,其参数层共有41层,所述主干网络的参数为各层级的预测网络所共享。优选地,所述分支网络包括:深层特征提取子模块,用于对所述主干网络输出的特征图进行深层特征提取,并输出上级语义知识引导下的特征表达以及无引导的特征表达;上级语义知识嵌入子模块,将上级预测的得分向量si-1经过一全连接层,映射成语义知识表达向量,并将该向量将与所述深层特征提取子模块输出的特征图的W×H平面上的每个位点拼接,将拼接之后的特征图,通过一注意力模型学习到一个注意力系数向量,将该注意力系数向量作用到所述深层特征提取子模块输出的特征图,得到加权的特征图,其中,W和H分别指宽和高;分值融合子模块,用于将所述上级语义知识嵌入子模块和深层特征提取子模块输出的特征图通过分值融合操作,输出相应的分值向量。优选地,所述深层特征提取子模块采用ResNet-50网络中的layer5_x层结构,所述layer5_x层结构由3个残差模块构成,所述layer5_x层结构被复用两次,一处面向所述上级语义知识嵌入子模块,另一处面向全局特征的表达。优选地,所述注意力模型对拼接特征图W×H平面上每个位点,连续用两个全连接层逐步将其映射为相应维数,最后得到所述注意力系数向量。优选地,所述分值融合子模块的分值融合过程如下:S=(fc_1+fc_2+fc_cat)/3其中,fc_1,fc_2,fc_cat均为c×1维向量,前两者直接通过将所述上级语义知识嵌入子模块和深层特征提取子模块输出的特征图分别经一全连接层得到,后者通过将fc_1和fc_2串联连接,再通过一个全连接层fc_concate运算,得到与fc_1,fc_2相同的维度。优选地,所述分支网络的最顶层的类别的网络结构除了最后一层全连接层要与该层级的类别数对应外,其它层的参数设置与原始的ResNet-50网络一致。为达到上述目的,本专利技术还提供一种用于物体精细识别的层次语义嵌入模型的实现方法,包括如下步骤:步骤S1,对每一条训练数据进行层次化标注;步骤S2,采用分类损失函数和正则化约束损失函数的加权组合作为优化HSE模型的目标函数,依次从第1个层次类别到第N个层次类别,逐步地训练该类别对应的分支网络;步骤S3,在所有分支网络都得到初步的训练后,对整个完整的HSE模型所有的参数进行联合优化。优选地,所述分支网络的优化目标函数为:其中,γ为一个平衡参数,用于平衡分类损失函数项与正则化约束损失函数项对网络参数的影响。与现有技术相比,本专利技术一种用于物体精细识别的层次语义嵌入模型及其实现方法采用物体分类的层次结构作为一种语义信息,并将这种语义信息嵌入到深度神经网络模型中的特征表达,解决了依赖额外信息引导学习的物体精细化识别技术方案中的额外信息标注成本高的问题,降低了模型的复杂度。附图说明图1为本专利技术一种用于物体精细识别的层次语义嵌入模型的系统架构图;图2为本专利技术具体实施例中主干网络的示意图;图3为ResNet-50与本专利技术之分支网络结构对比图;图4为本专利技术具体实施例中上层语义嵌入表达过程示意图;图5为本专利技术具体实施例中分支网络的注意力机制原理图;图6为本专利技术具体实施例中最顶层级的分支网络结构示意图;图7为本专利技术一种用于物体精细识别的层次语义嵌入模型的实现方法的步骤流程图。具体实施方式以下通过特定的具体实例并结合附图说明本专利技术的实施方式,本领域技术人员可由本说明书所揭示的内容轻易地了解本专利技术的其它优点与功效。本专利技术亦可通过其它不同的具体实例加以施行或应用,本说明书中的各项细节亦可基于不同观点与应用,在不背离本专利技术的精神下进行各种修饰与变更。图1为本专利技术一种用于物体精细识别的层次语义嵌入模型的系统架构图。在本专利技术中,所述层次化语义知识嵌入算法模型(HierarchicalSemanticEmbedding,,简称HSE)包括三个方面:图像深度特征的提取、语义知识嵌入表达学习和语义知识对预测结果语义空间的约束。本专利技术之HSE模型是一种基于深度学习技术的算法模型,其依赖于深度神经网络,深度表达学习贯穿整个HSE框架,HSE框架通过两种方式利用层次化的语义知识,分别体现在特征表达时的语义知识的嵌入和模型训练时利用语义知识引导正则化预测结果。具体地,如图1所示,本专利技术一种用于物体精细识别的层次语义嵌入(HierarchicalSemanticEmbedding,,简称HSE)模型,包括:主干网络1,用于对输入图像的浅层特征进行提取,以特征图的形式输出至各分支网络2,也就是说,输入图像通过主干网络1的初步提取图像特征,以特征图的形式输出至分支网络2;若干分支网络2,用于对主干网络输出的图像浅层特征图进行进一步的深层特征提取,使其输出的特征图适用于分支网络所对应层级的识别任务,并通过引入语义知识嵌入机制,实现上层语义知识对下层本文档来自技高网...

【技术保护点】
1.一种用于物体精细识别的层次语义嵌入模型,包括:主干网络,用于对输入图像的浅层特征进行提取,以特征图的形式输出至各分支网络;若干分支网络,用于对主干网络输出的图像浅层特征图进行进一步的深层特征提取,使其输出的特征图适用于分支网络所对应层级的识别任务,并通过引入语义知识嵌入机制,实现上层语义知识对下层分支网络特征学习的指导。

【技术特征摘要】
1.一种用于物体精细识别的层次语义嵌入模型,包括:主干网络,用于对输入图像的浅层特征进行提取,以特征图的形式输出至各分支网络;若干分支网络,用于对主干网络输出的图像浅层特征图进行进一步的深层特征提取,使其输出的特征图适用于分支网络所对应层级的识别任务,并通过引入语义知识嵌入机制,实现上层语义知识对下层分支网络特征学习的指导。2.如权利要求1所述的一种用于物体精细识别的层次语义嵌入模型,其特征在于:所述分支网络对来自所述主干网络的特征图进行二次特征化表达,产生新的分支特征图,通过结合上级预测的得分向量及其下级的分支特征图,学习得到注意力权重图,将所述注意力权重图作用在分支特征图之上,最终产生加权的分支特征图,以此预测该层级类型的标签分布。3.如权利要求1所述的一种用于物体精细识别的层次语义嵌入模型,其特征在于:所述主干网络采用ResNet-50网络结构的layer4_x层及其之前的输入层,其参数层共有41层,所述主干网络的参数为各层级的预测网络所共享。4.如权利要求1所述的一种用于物体精细识别的层次语义嵌入模型,其特征在于,所述分支网络包括:深层特征提取子模块,用于对所述主干网络输出的特征图进行深层特征提取,并输出上级语义知识引导下的特征表达以及无引导的特征表达;上级语义知识嵌入子模块,将上级预测的得分向量si-1经过一全连接层,映射成语义知识表达向量,并将该向量将与所述深层特征提取子模块输出的特征图的W×H平面上的每个位点拼接,将拼接之后的特征图,通过一注意力模型学习到一个注意力系数向量,将该注意力系数向量作用到所述深层特征提取子模块输出的特征图,得到加权的特征图,其中,W和H分别指宽和高;分值融合子模块,用于将所述上级语义知识嵌入子模块和深层特征提取子模块输出的特征图通过分值融合操作,输出相应的分值向量。5.如权利要求4所述的一种用于物体精细识别的层次语义嵌入模型,其特征在...

【专利技术属性】
技术研发人员:聂琳吴文熙陈添水王青
申请(专利权)人:中山大学
类型:发明
国别省市:广东,44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1