【技术实现步骤摘要】
一种基于优化视觉词袋模型的图像场景分类方法
[0001]本专利技术涉及图像场景分类
,特别涉及一种基于优化视觉词袋模型的图像场景分类方法。
技术介绍
[0002]随着人类对生活品质追求的提高,人工智能技术的迅速发展,越来越多的智能设备如无人车、无人机、移动机器人等已逐渐走进人类生活,并协助完成各种任务,在农业、建筑、物流、家庭服务、军事、医疗领域得到广泛应用。图像由于信息量大、内容丰富成为智能装备的重要信息源,但同时由于图像数据爆发式的增长,依靠人工对海量图像进行分类和标注的管理方式己经远远无法满足应用的需求。依靠计算机技术和智能方法对图像包含的语义进行分析和理解显得十分有必要。
[0003]如近年来基于视觉信息的视觉slam(simultaneous localization and mapping)取得了极大的进展。图像场景识别是其中重要的研究方向之一。图像场景分类通常不需要具体了解场景中具体包含什么目标和细节,而侧重于对图像场景整体语义描述。其一般思路是建立高层场景语义描述与视觉特征之间的联系,而后通过模式识别方法进行场景分类。人类对于见过的场景有着及其精准的辨识能力,而基于计算机的段场景分类仍然面临着诸多困难,其主要原因有如下:(1)由于场景本身的复杂性和多样性,在同一类场景下拍摄到的图像内容本身差异很大;(2)由于采集图像的外部因素干扰,在同一场景下,不同视角、不同距离、不同光照条件会造成场景图像存在较大的视觉差异。这些因素给场景分类造成了极大困难,提高图像场景识别率对于人工智能环境感知十分重
【技术保护点】
【技术特征摘要】
1.一种基于优化视觉词袋模型的图像场景分类方法,其特征在于,包括以下步骤:S1:确定图像中需要进行区分的场景类别数s,选定训练样本和测试样本,每一类场景分别采集kt张图像作为训练样本,并选定ks张图像作为测试样本;S2:采用网格化均匀提取训练样本和测试样本的Sift特征点,设定网格图像块大小pt和块间隔dt,对训练样本和测试样本中每张图像进行均匀化网格划分,得到若干个图像块,计算每个图像块的中心点sift特征描述向量,得到每张图像的特征描述向量集合F
i
;S3:设定Kmeans方法的聚类中心数c、迭代运算次数和收敛误差,对训练样本和测试样本中的所有特征描述向量F
i
进行K均值聚类,获得聚类中心向量集合,即词袋库W;S4:Kmeans聚类过程得出每个单词包含的特征描述向量集,进而获得每个单词中特征点来源分布SW,计算每个单词对场景类别的表征能力,得到单词可信度向量R;S5:根据词袋模型方法分别获得训练样本和测试样本的全局描述,即计算每张图像的特征直方图;S6:基于修正直方图交叉核函数的相似性度量方法计算每个测试样本图像与每个训练样本的相似性,得到相似性矩阵I;S7:对相似性矩阵进行降序排序,设置k近邻分类中邻域大小d,基于近邻分类器分别计算每个测试样本所属的场景类别。2.如权利要求1所述的一种基于优化视觉词袋模型的图像场景分类方法,其特征在于,所述步骤S2中特征点的sift特征描述向量集合为:F={f1,f2,
…
,f
p
}∈R
p
×
128
ꢀꢀꢀ
(1)其中,f
i
表示表示特征点i的sift描述向量,p表示一张图像提取的sift特征点数,特征点由sift方法关键点检测确定,或通过图像均匀网格划分确定,128表示sift特征维数。3.如权利要求1所述的一种基于优化视觉词袋模型的图像场景分类方法,其特征在于,所述步骤S3词袋库W的生成方式为:其中,W∈R
c
×
128
表示词袋库,通过对所有训练样本的sift特征集合进行k均值聚类获得,w
j
表示词袋库中的一个单词,c表示词袋库的大小,即单词的个数,每个单词128维。4.如权利要求1所述的一种基于优化视觉词袋模型的图像场景分类方法,其特征在于,所述步骤S4单词可信度向量R=[r1,r2,
…
,r
c
],其中:其中,std(
·
)表示标准差,表示聚类成单词i的所有特征点的个数。5.如权利要求1所述的一种基于优化视觉词袋模型的图像场景分类方法,其特征在于,所述步骤S5中生成图像特征直方图的方法如下:对于任一样本图像,假设其sift特征描述集合为F
【专利技术属性】
技术研发人员:宋涛,赵明富,王瑜琳,罗彬彬,石胜辉,吴德操,巫涛江,邹雪,
申请(专利权)人:重庆能源职业学院,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。