【技术实现步骤摘要】
一种基于先验信息的语义补充网络的多标签图像分类方法
[0001]本专利技术涉及计算机视觉、模式识别领域,尤其是涉及一种基于先验信息的语义补充网络的多标签图像分类方法。
技术介绍
[0002]多标签图像识别在计算机视觉领域是一个十分重要且富有挑战的任务,因为现实世界的图像通常会包含丰富的语义信息与图像物体。而且上述这些丰富的语义信息难以在一次分类任务中全部被识别出来。因此相对于单标签图像分类问题而言,多标签图像分类问题具体更高的难度,识别也较低。
[0003]目前,多标签图像识别的一种主流方式是通过将整个图像输入进循环递归网络中,并在每轮迭代中依次输出当前预测的标签,并在最后的特征融合层合并每轮迭代的预测结果。尽管这个方法可以促使网络更多的关注图像内潜在的语义联系,但其对标签的输出顺序具有一定的要求,该类算法通常需要一定的搜索算法的约束才能使标签的输出顺序达到最优。
[0004]另一种方式就是引入物体候选框区域;通过对特征图像的区域提取,使物体候选框尽可能的包含图像中的每一个物体,并输入到循环递归网络中进行识别 ...
【技术保护点】
【技术特征摘要】
1.一种基于先验信息的语义补充网络的多标签图像分类方法,其特征在于,包括:步骤S1,获取待分类的图像;步骤S2,将多标签图像缩放至224x224大小,然后将其送入神经网络中进行卷积操作,经过多次卷积后,得到多标签图像的特征信息feature
conv
;步骤S3,将上述所得的图像特征信息进行提取,得到高级语义信息;步骤S4,将上述所得的图像特征信息输入多视角网络进行信息提取,得到细节语义信息;步骤S5,将上述所得的细节语义信息输入到长短时记忆网络LSTM中,得到当前长短时记忆网络LSTM的状态值,并将当前长短时记忆网络LSTM作为语义补充模块的先验信息;步骤S6,基于作为语义补充模块的先验信息,多次调用已训练好的语义补充模块,并生成新的高级语义补充信息;步骤S7,将高级语义补充信息与步骤S3中获得的高级语义信息融合,获得当前模型的输出结果;步骤S8,融合每一次模型的输出结果,获得最终的标签分布,输出最终结果。2.根据权利要求1所述的一种基于先验信息的语义补充网络的多标签图像分类方法,其特征在于:所述的多视角网络,其网络包含卷积核大小为(1,1)的卷积层、(1,1)、(3,3)、(5,5)、(7,7)的自适应池化层和2048维度的全连接层,其输入为步骤S2中的特征信息,输出为各个视角下对图像特征进行提取得到细节语义信息,并将其作为部分先验信息。3.如权利要求1所述的一种基于先验信息的语义补充网络的多标签图像分类方法,其特征在于,所述的步骤S5进一步包括:首先利用长短时记忆网络LSTM将长短时记忆网络LSTM的上一次状态值以及步骤S7所得的当前模型的输出结果作为输入,输出为长短时记忆网络LSTM的当前次状态值,该过程不断重复直到达到最大运行次数,并获得每一次更新后的状态值。4.如权利要求1所述的一种基于先验信息的语义补充网络的多标签图像分类方法,其特征在于,所述的语义补充模块的输入应包含步骤S4获得的细节语义信息以及步骤S3提取得到的高级语义信息,输出为当前模型的输出结果,并同时输入到长短时记忆网络LSTM中用作长短时记忆网络LSTM状态值的更新。5.如权利要求1所...
【专利技术属性】
技术研发人员:王喆,李冬冬,方仲礼,杨孟平,杜文莉,杨海,
申请(专利权)人:华东理工大学,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。