【技术实现步骤摘要】
一种基于卷积神经网络和递归自动编码器模型的场景识别方法
本专利技术涉及图像场景理解领域,尤其涉及一种基于卷积神经网络和递归自动编码器模型的场景识别方法。
技术介绍
如何准确、有效的识别输入图像中的场景,已经成为一个重要的研究课题。在传统的图像理解算法技术中,图像分类,相似图像索引是主要的研究方向。图像分类问题需要更好的获得输入图像的特征向量,并基于特征向量学习优化。传统的算法中使用常见的图像特征是HOG特征。HOG特征是将归一化的图像分割成若干个像素块,计算每个像素块的亮度梯度并将所有的像素块的亮度梯度进行串联。传统的图像分类算法包括KNN(k-NearestNeighbor)和SVM(SupportVectorMachine)两种主要的方法。在传统的图像分类算法常使用的全局特征有Gabor特征,LBP特征,HOG梯度方向直方图,GIST特征等特征,局部特征有SIFT特征(ScaleInvariantFeatureTransform),SURF特征(SpeededUpRobustFeatures),DAISY特征等。特征描述子和特征检测子关系相对紧密,其中检测子越 ...
【技术保护点】
1.一种基于卷积神经网络和递归自动编码器模型的场景识别方法,其特征在于,包括:构建卷积神经网络,构建递归自动编码器,数据预处理和场景预测分类;所述构建卷积神经网络,是利用大规模场景数据集构建并改进卷积神经深度网络;所述构建递归自动编码器,是利用卷积神经网络提取的图像特征和场景标签构建并改进递归自动编码器;所述数据预处理,是将图像进行数据增强的操作,同时将场景的文本标签实现嵌入操作完成数据预处理;所述场景预测分类,构建预测图像场景分类器,将图像特征输入训练完成的模型中进行场景预测分类。
【技术特征摘要】
1.一种基于卷积神经网络和递归自动编码器模型的场景识别方法,其特征在于,包括:构建卷积神经网络,构建递归自动编码器,数据预处理和场景预测分类;所述构建卷积神经网络,是利用大规模场景数据集构建并改进卷积神经深度网络;所述构建递归自动编码器,是利用卷积神经网络提取的图像特征和场景标签构建并改进递归自动编码器;所述数据预处理,是将图像进行数据增强的操作,同时将场景的文本标签实现嵌入操作完成数据预处理;所述场景预测分类,构建预测图像场景分类器,将图像特征输入训练完成的模型中进行场景预测分类。2.根据权利要求1所述的一种基于卷积神经网络和递归自动编码器模型的场景识别方法,其特征在于,所述构建卷积神经网络包括以下步骤:S11:获取公开的场景数据构建大规模场景标注数据集;S12:将所述数据集处理为固定大小的224*224RGB图像,作为卷积神经网络的输入;S13:输入图像通过多个卷积层,卷积核大小为3*3,步长为1个像素,填充为1个像素;S14:空间池化由五个最大池化层进行,步长为2,网络最后是三个全连接层,将最后的全连接层输出向量作为后续的递归自动编码器的部分输入。3.根据权利要求2所述的一种基于卷积神经网络和递归自动编码器模型的场景识别方法,其特征在于,所述神经网络中所有隐藏层采用ReLU作为激活函数。4.根据权利要求1所述的一种基于卷积神经网络和递归自动编码器模型的场景识别方法,其特征在于,所述构建递归自动编码器包括以下步骤:S21:特征向量输入:获取卷积神经网络中提取的特征向量,将其分割成若干个512维向量,用于编码器的输入序列;S22:构建递归自动编码器:对输入序列的二叉树中前两个叶子节点进行重构,然后依次对后续的叶子节点及前一个隐藏节点进行重构,最终完成重构原始序列,隐藏节点满足:yi=f(W(1)[xi;ci-1]+b(i))其中,xi表示输入序列节点,ci-1表示节点,其中i=1时,ci-1=x2,i>1时,ci-1=yi-1,且i∈[1,m-1],m表示输入序列长度,W表示子节点之间的连接向量,b表示偏移量;重构过程是将父子节点yi反向重构子节点,真实值和重构过程的差异使用[x′i;c′i-1]=W(1)′yi+b(1)′表示,还原计算过程满足:S23:优化递...
【专利技术属性】
技术研发人员:花福军,陆文斌,张应福,周正斌,李成伟,
申请(专利权)人:创意信息技术股份有限公司,
类型:发明
国别省市:四川,51
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。