一种基于深度自编码卷积神经网络的多任务分层图像检索方法技术

技术编号:17248827 阅读:33 留言:0更新日期:2018-02-11 07:05
本发明专利技术公开一种基于深度自编码卷积神经网络的多任务分层图像检索方法,其特征在于:主要包括一个用于深度学习和训练识别的多任务端到端的卷积神经网络、一种基于RPN网络对感兴趣区域二次筛选模块的快速视觉分割检测和定位方法、一种全图稀疏哈希码的粗检索、一种基于最大响应的区域感知语义特征和矩阵h的精准比对检索、一种对感兴趣区域选着性比较的算法。本发明专利技术能实现端到端的训练,自动选出更高质量的感兴趣区域,有效提高以图搜图的自动化和智能化水平,且用较少的存储空间,较快的检索速度来满足大数据时代的图像检索要求。

【技术实现步骤摘要】
一种基于深度自编码卷积神经网络的多任务分层图像检索方法
本专利技术涉及计算机视觉、模式识别、信息检索、多任务学习、相似度测量、深度自编码卷积神经网络和深度学习技术在图像检索领域的应用,尤其涉及一种基于深度自编码卷积神经网络的多任务分层图像检索方法。
技术介绍
图像检索的目的是通过分析输入的查询图像内容来检索相似图像的技术,为用户提供了一种关于图形图像信息检索的搜索技术,该技术包含了图像处理、计算机视觉、多任务学习、模式识别和认知心理等多门学科。其相关技术主要包括图像表示的获取和相似性测量。在大数据时代的背景下图像检索、视频侦查、互联、购物搜索引擎等多种领域都有广泛应用。对于内容的图像检索技术,常用的传统方法一般基于图像的颜色信息、形状特点、纹理特征等,这类技术属于前深度学习时代的图像检索技术,一般可分为三个步骤:1)提取目标图像的特征表示,对获取图像算法中最普遍的是的SIFT描述算子、颜色或几何不变矩、哈希函数、Fisher向量描述等。2)将图像特征表示进行再编码用于海量图像查找表。对于分辨率较大的目标图像可对其进行降采样处理再进行编码获取图像特征表示,这样可减少搜索过程的运算负担,本文档来自技高网...
一种基于深度自编码卷积神经网络的多任务分层图像检索方法

【技术保护点】
一种基于深度自编码卷积神经网络的多任务分层图像检索方法,其特征在于:所述方法包括以下步骤:1)构建用于深度学习和训练识别的多任务端到端卷积神经网络;所述的卷积神经网络,共要分为三个模块组成:共享卷积模块、感兴趣区域二次筛选模块、感兴趣区域坐标回归和识别模块,这些模块由卷积层、激活层和下采样层交替构成的深度卷积神经网络;输入图像在网络中进行逻辑回归、层层映射,得到各层对于图像不同的表现形式,实现感兴趣区域的深度表示;2)基于RPN网络对感兴趣区域二次筛选模型的快速视觉分割检测和定位,采用以RPN网络为基础添加初次和再次筛选网络,对RPN产生的初始建议框进行评分和多重过滤,根据得分的高低和最大响应...

【技术特征摘要】
1.一种基于深度自编码卷积神经网络的多任务分层图像检索方法,其特征在于:所述方法包括以下步骤:1)构建用于深度学习和训练识别的多任务端到端卷积神经网络;所述的卷积神经网络,共要分为三个模块组成:共享卷积模块、感兴趣区域二次筛选模块、感兴趣区域坐标回归和识别模块,这些模块由卷积层、激活层和下采样层交替构成的深度卷积神经网络;输入图像在网络中进行逻辑回归、层层映射,得到各层对于图像不同的表现形式,实现感兴趣区域的深度表示;2)基于RPN网络对感兴趣区域二次筛选模型的快速视觉分割检测和定位,采用以RPN网络为基础添加初次和再次筛选网络,对RPN产生的初始建议框进行评分和多重过滤,根据得分的高低和最大响应区域的过滤确定最后感兴趣区域;3)进行全图稀疏哈希码的粗检索,通过对初次筛选网络,首先RPN产生的建议框的属性概率向量进行二值化编码,然后通过向量融合方式对二维向量进行扁平化成一维向量得到全图的稀疏哈希码;最后通过余弦距离对这种紧凑的二进制编码向量进行快速图像对比;4)基于最大响应的区域感知语义特征和矩阵h的精准比对检索,通过再次筛选网络,对初次筛选网络结果和全连接层最大响应提取建议框的高层语义信息,结合在快速对比方法中得到的返回图像使用修正余弦距离进行有选择性的比较、排序,前k个图像最为最后返回结果。2.如权利要求1所述的基于深度自编码卷积神经网络的多任务分层检索相似图像的方法,其特征在于:所述步骤1)中,共享卷积模块:共享网络由5个卷积模块组成,其中conv2_x到conv5_x的最深层分别为{42,82,162,162}作为特征图的输出尺寸,conv1作为输入层只含有单层卷积层;感兴趣区域坐标回归和识别模块:RPN网络将一个任意尺度图像作为输入,输出矩形目标建议框的集合,每个框包含4个位置坐标变量和一个得分;为了生成区域建议框,首先输入图像经过卷积共享层生成特征图,然后,在特征图上进行多尺度卷积操作,实现为:在每一个滑动窗口的位置使用3种尺度和3种长宽比,以当前滑动窗口中心为中心,并对应一种尺度和长宽比,则可以在原图上映射得到9种不同尺度的候选区域,如对于大小为w×h的共享卷积特征图,则总共有w×h×9个候选区域;最后,分类层输出w×h×9×2个候选区域的得分,即对每个区域是目标/非目标的估计概率,回归层输出w×h×9×4个参数,即候选区域的坐标参数;训练RPN网络时,给每个候选区域分配一个二进制的标签,以此来标注该区域是不是目标,操作如下:1)与某个真正目标区域(GroundTruth,GT)有最高的IoU(Intersection-over-Union,交集并集之比)重叠的候选区域;2)与任意GT包围盒有大于0.7的IoU交叠的候选区域,分配负标签给与所有GT包围盒的IoU比率都低于0.3的候选区域;3)介于两者之间的舍弃;有了这些定义,遵循FasterRCNN中的多任务损失,最小化目标函数,对一个图像的损失函数定义为:其中,i是第i个候选区域的索引,是候选区域是第i类的概率;如果候选区域的标签为正,为1,如果候选区域标签为0,就是0;ti是一个向量,表示预测的包围盒的4个参数化坐标,是对应的GT包围盒的坐标向量,Ncls和Nreg分别为分类损失函数与位置回归损失函数的归一化系数,λ为两者之间的权重参数,分类损失函数Lcls是两个类别的对数损失,两个类别为目标和非目标:对于位置回归损失函数Lreg,用以下函数定义:其中,R是鲁棒的损失函数smoothL1:感兴趣区域二次筛选模块:根据RPN网络输出的I个感兴趣的建议框的图像特征,首先送入初次筛选层去除2/3背景框增大正样本比例,且能有效减少背景区域的产生;然后再将初次筛选过后的感兴趣的建议框的图像特征进行卷积和ReLU处理,得到I个含有4096维的特征图,接着分别送入分类层和窗口回归层进行处理;最后为了获取最大响应的区域感知语义特征,将得到的I个4096维特征图接入再次筛选网络,最后再次反选出最精确建议框的区域感知语义特征;卷积神经网络训练是一个反向传播过程,与BP算法类似,通过误差函数反向传播,利用随机梯度下降法对卷积参数和偏置进行优化调整,直到网络收敛或者达到最大迭代次数停止;该神经网络训练是一个反向传播过程,通过误差函数反向传播,利用随机梯度下降法对卷积参数和偏置进行优化调整,直到网络收敛或者达到最大迭代次数停止;反向传播需要通过对带有标签的训练样本进行比较,采用平方误差代价函数,对于c个类别,N个训练样本的多类别进行识别,网络最终输出误差函数用公式(5)来计算误差,式中,EN为平方误差代价函数,为第n个样本对应标签的第k维,为第n个样本对应网络预测的第k个输出;对误差函数进行反向传播时,采用传统的BP算法类似的计算方法,如公式(6)所示,δl=(Wl+1)TδL+1×f′(ul)(ul=Wlxl-1+bl)(6)式中,δl代表当前层的误差函数,δl+1代表上一层的误差函数,Wl+1为上一层映射矩阵,f'表示激活函数的反函数,即上采样,ul表示未通过激活函数的上一层的输出,xl-1表示下一层的输入,Wl为本层映射权值矩阵。3.如权利要求1或2所述的基于深度自编码卷积神经网络的多任务分层图像检索方法,其特征在于:所述步骤2)中,从视频或相机中获取的图像包含多个目标区域,利用概率层对RPN每个建议框坐标输出及得分输出先后经过非极大值抑制和阈值筛选得到最终坐标框及得分,最后再次经过再筛选网络选出最精确建议框的区域,通过对建议框的两次筛选保证对目标对象的准确检测及识别。4.如权利要求2所述的基于深度自编码卷积神经网络的多任务分层图像检索方法,其特征在于:所述步骤3)中,哈希方法的...

【专利技术属性】
技术研发人员:何霞汤一平王丽冉陈朋袁公萍金宇杰
申请(专利权)人:浙江工业大学
类型:发明
国别省市:浙江,33

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1