一种基于优化视觉词袋模型的图像场景分类方法技术

技术编号:27263100 阅读:25 留言:0更新日期:2021-02-06 11:24
本发明专利技术公开了一种基于优化视觉词袋模型的图像场景分类方法,涉及图像场景分类技术领域,首先,对BOVW模型的单词库,根据单词在不同场景的分布构造单词对于场景分类的可信度,以衡量单词对场景分类的表征性;其次,采用直方图交叉核衡量图像特征相似性,并采用单词可信度度修正直方图交叉核函数,提高图像相似性度量的准确度;最后利用相似性系数采用k近邻分类器进行场景分类识别。实验表明,所提方法能有效衡量图像相似性,对于干扰图像有较强的鲁棒性,可提高场景分类准确率。可提高场景分类准确率。可提高场景分类准确率。

【技术实现步骤摘要】
一种基于优化视觉词袋模型的图像场景分类方法


[0001]本专利技术涉及图像场景分类
,特别涉及一种基于优化视觉词袋模型的图像场景分类方法。

技术介绍

[0002]随着人类对生活品质追求的提高,人工智能技术的迅速发展,越来越多的智能设备如无人车、无人机、移动机器人等已逐渐走进人类生活,并协助完成各种任务,在农业、建筑、物流、家庭服务、军事、医疗领域得到广泛应用。图像由于信息量大、内容丰富成为智能装备的重要信息源,但同时由于图像数据爆发式的增长,依靠人工对海量图像进行分类和标注的管理方式己经远远无法满足应用的需求。依靠计算机技术和智能方法对图像包含的语义进行分析和理解显得十分有必要。
[0003]如近年来基于视觉信息的视觉slam(simultaneous localization and mapping)取得了极大的进展。图像场景识别是其中重要的研究方向之一。图像场景分类通常不需要具体了解场景中具体包含什么目标和细节,而侧重于对图像场景整体语义描述。其一般思路是建立高层场景语义描述与视觉特征之间的联系,而后通过模式识别方法进行场景分类。人类对于见过的场景有着及其精准的辨识能力,而基于计算机的段场景分类仍然面临着诸多困难,其主要原因有如下:(1)由于场景本身的复杂性和多样性,在同一类场景下拍摄到的图像内容本身差异很大;(2)由于采集图像的外部因素干扰,在同一场景下,不同视角、不同距离、不同光照条件会造成场景图像存在较大的视觉差异。这些因素给场景分类造成了极大困难,提高图像场景识别率对于人工智能环境感知十分重要。
[0004]图像场景分类问题的研究思路是采用颜色、纹理、形状等低层特征建立图像场景模型,再利用分类器对场景进行分类识别。然而这类方法低层特征不变性和泛化性较弱,对于复杂多变的场景适用性差。场景分类的关键是建立一种稳定的图像整体描述方法,该描述方法既能稳定的表达同类场景的结构信息,又能有效区分不同场景存在差异。为了达成这一目的,学者展开了大量的研究。在局部特征描述方面,先后提出了具有旋转缩放光照不变性的SIFT(Scale-invariant feature transform)特征、基于sift特征的快速方法SURF(Speed Up Robust Features)特征、基于快速特征定位和二进制描述的ORB(Oriented FAST and Rotated BRIEF)特征、基于图像局部梯度直方图统计的HOG(histograms of oriented gradients)特征,反映图像空间结构特性GIST特征等,其中sift特征因其良好的不变性而具有最好的图像局部特征描述稳定性,被大量应用于图像配准、图像拼接等算中。
[0005]而对于图像整体的描述,视觉词袋模型(BOVW,bag of visual words)逐渐成为研究的热点。BOVW来源于应用于文本分类的词袋模型(BOW,bag of words),该方法先通过离线建立常见的图像特征的单词库,对具体的场景图像,通过图像局部特征与词袋库的比较,得到视觉单词分布,继而得到视觉单词的统计信息,以此来表达图像场景内容。该方法已在图像场景识别中取得了巨大成功。本申请在局部特征描述上也采用sift特征,并采用BOVW模型研究图像描述方法,不同于其它方法,本申请对词袋模型中每个单词的场景表征能力
进行计算,得到单词的可信度,在场景识别上,本申请提出基于单词可信度修正直方图核函数的相似度度量方法,表达测试图像与不同场景样本图像间的相似性。最后利用相似性系数采用k近邻分类器对图像进行场景识别,相比如支持向量机、神经网络等模式识别方法,可极大降低计算量。最后通过7类场景分类实验表明,本申请提供的一种基于优化视觉词袋模型的图像场景分类方法对不同场景具有较高的识别率,且对于图像中存在的干扰具有良好的鲁棒性。

技术实现思路

[0006]本专利技术的目的在于提供一种基于优化视觉词袋模型的图像场景分类方法,对不同场景具有较高的识别率,且对于图像中存在的干扰具有良好的鲁棒性。
[0007]本专利技术提供了一种基于优化视觉词袋模型的图像场景分类方法,包括以下步骤:
[0008]S1:确定图像中需要进行区分的场景类别数s,选定训练样本和测试样本,每一类场景分别采集kt张图像作为训练样本,并选定ks张图像作为测试样本;
[0009]S2:采用网格化均匀提取训练样本和测试样本的Sift特征点,设定网格图像块大小pt和块间隔dt,对训练样本和测试样本中每张图像进行均匀化网格划分,得到若干个图像块,计算每个图像块的中心点sift特征描述向量,得到每张图像的特征描述向量集合F
i

[0010]S3:设定Kmeans方法的聚类中心数c、迭代运算次数和收敛误差,对训练样本和测试样本中的所有特征描述向量F
i
进行K均值聚类,获得聚类中心向量集合,即词袋库W;
[0011]S4:Kmeans聚类过程得出每个单词包含的特征描述向量集,进而获得每个单词中特征点来源分布SW,计算每个单词对场景类别的表征能力,得到单词可信度向量R;
[0012]S5:根据词袋模型方法分别获得训练样本和测试样本的全局描述,即计算每张图像的特征直方图;
[0013]S6:基于修正直方图交叉核函数的相似性度量方法计算每个测试样本图像与每个训练样本的相似性,得到相似性矩阵I;
[0014]S7:对相似性矩阵进行降序排序,设置k近邻分类中邻域大小d,基于近邻分类器分别计算每个测试样本所属的场景类别。
[0015]进一步地,所述步骤S2中特征点的sift特征描述向量集合为:
[0016]F={f1,f2,

,f
p
}∈R
p
×
128
ꢀꢀꢀꢀꢀꢀꢀ
(1)
[0017]其中,f
i
表示表示特征点i的sift描述向量,p表示一张图像提取的sift特征点数,特征点由sift方法关键点检测确定,或通过图像均匀网格划分确定,128表示sift特征维数。
[0018]进一步地,所述步骤S3词袋库W的生成方式为:
[0019][0020]其中,W∈R
c
×
128
表示词袋库,通过对所有训练样本的sift特征集合进行k均值聚类获得,w
j
表示词袋库中的一个单词,c表示词袋库的大小,即单词的个数,每个单词128维。
[0021]进一步地,所述步骤S4单词可信度向量X
k
=hist(D
k
)/p,其中:
[0022][0023]其中,std(
·
)表示标准差,表示聚类成单词i的所有特征点的个数。
[0024]进一步地,所述步骤S5中生成图像特征直方图的方法如下:
[0025]对于任一样本图像,假设其sift特征描述集合为F
k
={f
k1...

【技术保护点】

【技术特征摘要】
1.一种基于优化视觉词袋模型的图像场景分类方法,其特征在于,包括以下步骤:S1:确定图像中需要进行区分的场景类别数s,选定训练样本和测试样本,每一类场景分别采集kt张图像作为训练样本,并选定ks张图像作为测试样本;S2:采用网格化均匀提取训练样本和测试样本的Sift特征点,设定网格图像块大小pt和块间隔dt,对训练样本和测试样本中每张图像进行均匀化网格划分,得到若干个图像块,计算每个图像块的中心点sift特征描述向量,得到每张图像的特征描述向量集合F
i
;S3:设定Kmeans方法的聚类中心数c、迭代运算次数和收敛误差,对训练样本和测试样本中的所有特征描述向量F
i
进行K均值聚类,获得聚类中心向量集合,即词袋库W;S4:Kmeans聚类过程得出每个单词包含的特征描述向量集,进而获得每个单词中特征点来源分布SW,计算每个单词对场景类别的表征能力,得到单词可信度向量R;S5:根据词袋模型方法分别获得训练样本和测试样本的全局描述,即计算每张图像的特征直方图;S6:基于修正直方图交叉核函数的相似性度量方法计算每个测试样本图像与每个训练样本的相似性,得到相似性矩阵I;S7:对相似性矩阵进行降序排序,设置k近邻分类中邻域大小d,基于近邻分类器分别计算每个测试样本所属的场景类别。2.如权利要求1所述的一种基于优化视觉词袋模型的图像场景分类方法,其特征在于,所述步骤S2中特征点的sift特征描述向量集合为:F={f1,f2,

,f
p
}∈R
p
×
128
ꢀꢀꢀ
(1)其中,f
i
表示表示特征点i的sift描述向量,p表示一张图像提取的sift特征点数,特征点由sift方法关键点检测确定,或通过图像均匀网格划分确定,128表示sift特征维数。3.如权利要求1所述的一种基于优化视觉词袋模型的图像场景分类方法,其特征在于,所述步骤S3词袋库W的生成方式为:其中,W∈R
c
×
128
表示词袋库,通过对所有训练样本的sift特征集合进行k均值聚类获得,w
j
表示词袋库中的一个单词,c表示词袋库的大小,即单词的个数,每个单词128维。4.如权利要求1所述的一种基于优化视觉词袋模型的图像场景分类方法,其特征在于,所述步骤S4单词可信度向量R=[r1,r2,

,r
c
],其中:其中,std(
·
)表示标准差,表示聚类成单词i的所有特征点的个数。5.如权利要求1所述的一种基于优化视觉词袋模型的图像场景分类方法,其特征在于,所述步骤S5中生成图像特征直方图的方法如下:对于任一样本图像,假设其sift特征描述集合为F

【专利技术属性】
技术研发人员:宋涛赵明富王瑜琳罗彬彬石胜辉吴德操巫涛江邹雪
申请(专利权)人:重庆能源职业学院
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1