基于结构相似度的非负稀疏编码的图像分类方法技术

技术编号:12587338 阅读:107 留言:0更新日期:2015-12-24 04:06
本发明专利技术基于结构相似度的非负稀疏编码的图像分类方法,包括以下步骤:对待处理的图像数据集中所有图像分别稠密地提取SIFT特征;随机地选取若干SIFT特征用于求待处理的图像数据集的码书;建立基于结构相似度的非负稀疏编码模型;用随机选取的SIFT特征来求解出该图像数据集的码书;固定码书,对所有的SIFT特征进行编码;对图像数据集中每张图像的编码进行空间金字塔最大池化方法整合,得到每张图像的特征向量;将图像数据集划分为训练集和测试集,用训练集的空间金字塔最大池化的图像特征向量和图像相应的标签,训练一个分类器;对于任意一张图像,将其空间金字塔最大池化后特征向量输入到已经训练好的分类器中,得到了该张图像预测类别。

【技术实现步骤摘要】

: 本专利技术属于计算机视觉图像分类
,具体涉及一种基于结构相似度的非负 稀疏编码的图像分类方法。
技术介绍
: 生物视觉系统初级阶段的一个重要功能就是尽可能去除输入刺激的统计冗余。初 级视皮层对外界刺激的响应满足稀疏性,即只有少数的神经元被激活,相应的编码为稀疏 编码。稀疏编码,通俗地说,就是就是将一个信号表示为一组基的组合,而且要求只需要少 数的几个基就可以将信号重构出来。稀疏编码已经广泛应用到计算机视觉、图像信号处理 等领域,例如,信号重构、信号去噪、图像特征提取、以及分类等应用。 结构相似度指数将结构信息定义为独立于亮度、对比度的,反映信号结构的属性, 并将失真建模为亮度、对比度和结构三个不同因素的组合。用均值作为亮度的估计,标准差 作为对比度的估计,协方差作为结构相似程度的度量。 传统的稀疏编码方法是基于最小均方误差意义下的重构,也就是使得重构误差的 平方和尽可能小,同时,尽可能使得相应的编码稀疏化,稀疏表现在编码里就是编码的特征 向量的元素尽可能多的为零。目前的基于稀疏编码的图像分类方法,大部分都是基于最小 化重构误差平方和的编码模型来做的,误差平方和作为失真的评判标准不符合人眼的视觉 特性。最近的研究表明,人眼视觉系统的主要功能是从视觉区域提取图像和视频中的结构 化信息,而误差平方和没有充分地考虑人眼的视觉特性,因此传统的稀疏编码重构不能很 好地评价重构图像与原图像的结构相似度。
技术实现思路
: 本专利技术的目的在于针对现有技术的不足,提供了一种基于结构相似度的非负稀疏 编码的图像分类方法。 为达到上述目的,本专利技术采用如下技术方案: ,包括以下步骤: 1)对待处理的图像数据集中所有图像分别稠密地提取SIFT特征; 2)对待处理的图像数据集中所有图像提取完SIFT特征后,随机地选取5万至50 万的SIFT特征用于求待处理的图像数据集的码书; 3)建立基于结构相似度的非负稀疏编码模型; 4)根据步骤2)和步骤3),用随机选取的SIFT特征来求解出该图像数据集的码 书; 5)该图像数据集的码书求解出来后,固定码书,对所有的SIFT特征进行编码; 6)对图像数据集中每张图像的编码进行空间金字塔最大池化方法整合,得到每张 图像的特征向量; 7)将图像数据集划分为训练集和测试集,用训练集的空间金字塔最大池化的图像 特征向量和图像相应的标签,训练一个分类器; 8)对于任意一张图像,将其空间金字塔最大池化后特征向量输入到已经训练好的 分类器中,得到了该张图像预测类别。 本专利技术进一步的改进在于,步骤1)中,对待处理的图像数据集中所有图像按照16 至32的像素块以及6至10的滑动步长,稠密地提取每个图像的SIFT特征。 本专利技术进一步的改进在于,步骤3)中,设码书为A = Iia1, a2,…,ak],A的每一列表 示一个基向量,码书的列数为k,SIFT特征向量X1在码书A下相应的稀疏编码为s i,定义编 码矩阵S = [Sl,S2,…,sj,即编码矩阵S的每一列是相应的SIFT特征的结构相似度稀疏编 码;非负稀疏编码模型的目标函数如下: 其中,i = 1,2, ···,!!,η为随机挑选的SIFT特征的数目,j = 1,2,···,k,k为码书 A的列数,Sjl为稀疏编码为s i的第j个分量; 写成矩阵形式: 其中,I Ia1I I = 1,即码书每一列的模长或L-2范数为1,PL1表示矩阵S的叫范 数,Hl1范数等于矩阵的所有元素的绝对值的和; S彡0表示编码矩阵S中每一个元素都是非负的; λ为调节结构失真程度与编码稀疏性的权重系数,λ越大,相应的编码稀疏越稀 疏,且有〇· 05彡λ彡〇· 5 ; SS頂()为结构相似度指标函数。 本专利技术进一步的改进在于,步骤4)的具体实现方法如下: 401)根据步骤2)中随机地选取5万至50万的SIFT特征,给定权重系数λ的值; 402)初始化码书A : 随机初始化码书Aw,由将码书A的每一列的模长归一化成1,置t =I ;A(t)表示码书的第t次迭代值,A w表示码书初始值; 403)随机初始化相应的编码矩阵Sw,矩阵中的每一个元素都初始化为0到1之 间的一个随机数,S(t)表示编码矩阵S的第t次迭代值; 404)更新编码矩阵S,具体如下: 其中:符号一表不赋值符号,即将右边变量的值赋给左边的变量;符号發和?分 别表示Hardmard乘和除,即矩阵的点乘和点除;开方函数sqrtO作用于矩阵表示对相应 矩阵的每个分量元素都做开放运算;B+= max(B, 0),B = 0),同开方函数sqrt() 一样,max〇和min()这里分别把矩阵的每个元素与0作比较,取相应的最大或最小元素; CN 105184320 A I兄明 3/7 页H为与矩阵S同阶的元素全为I的矩阵; 405)更新码书A,具体如下: 其中,〇为优化码书的梯度下降步长,且h的取值范围为 0. 01~0. 1,分子max {I Ag I}表示码书A中元素绝对值的最大值,分母·表示E 关于码书A的梯度矩阵V4J?的所有元素绝对值的平均值,上标T表 示矩阵或向量的转置,P表示惩罚系数,F为非负稀疏编码模型的目标函数; 406)如果目标函数值前后两次的相对该变量小于10 6,或者达到预定的迭代次 数,就停止执行,得码书矩阵A ;否则,置t = t+Ι,转到步骤403)。 本专利技术进一步的改进在于,其中,即D是一个对角矩阵,它的对角元素分别是 ; I是与D同阶的单位矩阵。 本专利技术进一步的改进在于,步骤5)中,在目标函数中将码书固定,按照来计算SIFT特征X的基于结构相似度的非负稀疏编码s。 相对于现有技术,本专利技术具有如下的优点: 本专利技术通过将结构相似度指数引入到稀疏编码方法里面,改变传统的编码方式, 提高编码的质量,使得编码更符合人类视觉系统的编码方式,然后把相应的编码进行空间 金字塔最大池化的方式进行整合,可以得到图像的特征向量,进而将空间金字塔最大池化 后的特征向量应用于图像分类。 本专利技术去掉了传统稀疏编码方法中的基于最小均方误差的重构失真度量,用结构 相似度作为重构失真的度量,提出了基于结构相似度的非负稀疏编码模型,该方可以对任 何向量化的特征进行编码,是一种符合人眼视觉特性的编码方法。 本专利技术对图像稠密地提取SIFT特征,对SIFT特征进行基于结构相似的非负稀疏 编码,对编码进行空间金字塔最大池化便得到了整幅图像的一个特征向量,将得到的特征 向量用于图像分类。【附图说明】: 图1为本专利技术的流程图。 图2为空间金字塔最大池化示意图。【具体实施方式】: 以下结合附图和实施例对本专利技术作进一步的详细说明。 本专利技术试图从结构相似度的角度来寻找相应的稀疏编码,本专利技术引入结构相似度 作为信息保持程度的重要衡量指标,然后加上非负稀疏约束,给出了基于结构相似度的非 负稀疏编码模型。之所以要求编码的非负性,是因为非负的编码在应用中具有更好的稳定 性。 给定信号X和y,X,y e Rn,结构相似度的定义如下: 其中,r X1为信号X的第i个分量元素,I1为信号y 的第i个分量元素 ,σ .和σ y分别表示信号X和y的标准差,,表示信号X和y的协方差,(KC1, C2< < 1为避免分母为0而特设本文档来自技高网...

【技术保护点】
基于结构相似度的非负稀疏编码的图像分类方法,其特征在于,包括以下步骤:1)对待处理的图像数据集中所有图像分别稠密地提取SIFT特征;2)对待处理的图像数据集中所有图像提取完SIFT特征后,随机地选取5万至50万的SIFT特征用于求待处理的图像数据集的码书;3)建立基于结构相似度的非负稀疏编码模型;4)根据步骤2)和步骤3),用随机选取的SIFT特征来求解出该图像数据集的码书;5)该图像数据集的码书求解出来后,固定码书,对所有的SIFT特征进行编码;6)对图像数据集中每张图像的编码进行空间金字塔最大池化方法整合,得到每张图像的特征向量;7)将图像数据集划分为训练集和测试集,用训练集的空间金字塔最大池化的图像特征向量和图像相应的标签,训练一个分类器;8)对于任意一张图像,将其空间金字塔最大池化后特征向量输入到已经训练好的分类器中,得到了该张图像预测类别。

【技术特征摘要】

【专利技术属性】
技术研发人员:石伟伟王进军龚怡宏张世周
申请(专利权)人:西安交通大学
类型:发明
国别省市:陕西;61

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1