当前位置: 首页 > 专利查询>南京大学专利>正文

一种整合特征字典结构与视觉特征编码的图像分类方法技术

技术编号:10994163 阅读:215 留言:0更新日期:2015-02-04 13:19
本发明专利技术公开了一种整合特征字典结构与视觉特征编码的图像分类方法,包含如下步骤:视觉特征提取;特征字典学习;视觉特征编码;特征编码的空间汇合;训练与分类。本发明专利技术能获取更为准确的图像特征表示,提升图像分类的准确率。此外,通过将特征字典中的结构信息整合到视觉特征编码过程,得到更有判别性的图像特征表示,因此使得对图像的分类更加有效。本发明专利技术实现了高效、准确的图像分类,因此具有较高的使用价值。

【技术实现步骤摘要】
【专利摘要】本专利技术公开了,包含如下步骤:视觉特征提取;特征字典学习;视觉特征编码;特征编码的空间汇合;训练与分类。本专利技术能获取更为准确的图像特征表示,提升图像分类的准确率。此外,通过将特征字典中的结构信息整合到视觉特征编码过程,得到更有判别性的图像特征表示,因此使得对图像的分类更加有效。本专利技术实现了高效、准确的图像分类,因此具有较高的使用价值。【专利说明】
本专利技术涉及图像分类领域,特别是基于码书模型(Bag-of-Words,BoW)的一种整 合特征字典结构与视觉特征编码的图像分类方法
技术介绍
随着信息技术的不断飞速发展,各个领域每天都在以惊人的速度产生各种类型的 数据,包括文字、图像、视频、音乐等。在丰富多彩的数据信息中,图像因其表现直观生动、内 容丰富、信息量大,以及存储与传输方便,备受青睐,并已经成为二十一世纪最重要的信息 载体之一。特别是随着照相机、手机、平板等具有拍照功能的移动设备的日益普及,以及社 交网络的兴起,人们获取图像的方式越来越多,也进一步促使图像数据急剧增长,快速准确 地查找所需图像和高效地管理却因此变得越来越困难。人们迫切希望计算机能帮助人类, 对互联网中海量图像所蕴含的语义进行分析,并充分理解图像所表达的内容,从而更有效 地对图像进行管理、分类标注,或检索感兴趣的图像。 图像分类作为计算机理解图像最主要的基础技术之一,已经受到了学术界和工业 界各研究机构的广泛研究,并在国内外各权威期刊和重要学术会议上作为重要主题,是计 算机视觉领域一个极重要的研究课题。图像分类是指按照一定的分类准则将图像智能化地 分到一组已有定义类别中的过程,包括物体识别、场景语义分类、行为识别等。图像分类已 经成为研究图像语义理解的重要技术手段。科学研究人员已经渐渐意识到以上问题的重要 性并不断深入分析。近几年,码书模型为图像高层语义表示带来新的启发,以码书模型为关 键技术的图像分类已取得了一定成果,但是仍有许多研究点尚未涉及,仍有巨大的突破空 间。基于码书模型的图像分类方法的研究,已经成为当前人工智能、计算机视觉、机器学习 和数据挖掘等诸多交叉领域中前沿性的热点,对积极推进社会信息化起到重要作用。在创 造了无可替代的社会价值的同时,该领域仍有许多关键技术问题尚未解决,仍有许多功能 实现需要进一步完善,因此,如何利用码书模型,更有效地理解和描述图像高层语义,以更 灵活地实现图像分类的研究,具有深远的意义。
技术实现思路
专利技术目的:本专利技术所要解决的技术问题是针对现有技术的不足,提供一种整合特 征字典结构与视觉特征编码的图像分类方法,利用特征字典中视觉单词的分布信息辅助视 觉特征编码,以使编码结果更具有判别性,从而提高图像分类的准确率。 为了解决上述技术问题,本专利技术公开了一种整合特征字典结构与视觉特征编码的 图像分类方法,包含如下步骤: 步骤1,提取图像的视觉特征:对每幅图像进行局部采样,得到一组区域块,提取 每块区域的视觉特征,得到每幅图像对应的视觉特征集合,称所有图像的视觉特征集合的 整体为所有图像的视觉特征集,记为集合X ; 步骤2,特征字典学习:以集合X为输入,使用特征字典学习方法,得到由一组具有 代表性的视觉单词组成的特征字典; 步骤3,视觉特征编码:将每幅图像的每个视觉特征表示成视觉单词的线性组合, 每个视觉单词对应一个系数,称这组系数为视觉特征的编码; 步骤4,视觉特征编码的空间汇合:以每幅图像的所有视觉特征的编码为输入,使 用统计方法,将每幅图像表示为一个向量,该向量就是对应图像的图像特征表示; 步骤5,将步骤4得到的每幅图像的编码作为输入,使用分类模型进行训练和分 类,得到分类结果。 步骤1具体包括如下步骤: 对每幅图像I进行局部采样,采用等步长的方式做密集采样,得到若干大小相 同的区域块,对每个区域块提取一个视觉特征,使用视觉特征提取方法得到表示该局部 块一个视觉特征,视觉特征提取方法包括:方向梯度直方图(Histogram of Oriented Gradient, H0G),尺度不变特征变换(Scale-invariant feature transform,SIFT)等。得 到图像I的视觉特征集合LFS1,最终得到所有图像的视觉特征集合的整体X = GRdXN,其中,d表示视觉特征的维度,其大小由视觉特征提取技术决定,N表示所有图像 的视觉特征的总数,Xi表示第i个视觉特征,i取值1?N。 步骤2具体包括如下步骤: 以集合X为输入,使用特征字典学习方法,得到一组具有代表性的视觉单词组成 的特征字典,将该特征字典记为:B= ERdXM,其中M为视觉单词的个数;bj 是一个维度d的列向量,表示第j个视觉单词,j取值1?M。常用的特征字典学习方法包 括:k-means,K-SVD 等。 步骤3具体包括如下步骤: 本步骤逐一对集合X中的每个视觉特征编码,对于视觉特征Xi,其编码过程如下: 首先,从特征字典B中选出Xi的?个最近邻的视觉单词,即与视觉特征Xi的距离最 小的P个视觉单词,记这P个视觉单词组成的特征字典为Bi, p取值1?M,i取值1?N,。 其次,求出特征字典Bi中各视觉单词之间的距离所表示的矩阵Di和计算视觉特 征Xi到特征字典Bi的各视觉单词的距离表示的列向量屯,i取值1?N。矩阵Di的第m 行s列的元素为Bi中对应视觉单词之间的距离,m,s = 1,2,…,p 的第n个分量din表示视觉特征Xi与Bi中第n个视觉单词之间的距离,n = 1,2,…,p。距离计算公式为: 【权利要求】1. ,其特征在于,包括如下步 骤: 步骤1,提取图像的视觉特征:对每幅图像进行局部采样,得到一组区域块,提取每块 区域的视觉特征,得到每幅图像对应的视觉特征集合,称所有图像的视觉特征集合的整体 为所有图像的视觉特征集,记为集合X; 步骤2,特征字典学习:以集合X为输入,使用特征字典学习方法,得到由一组具有代表 性的视觉单词组成的特征字典; 步骤3,视觉特征编码:将每幅图像的每个视觉特征表示成视觉单词的线性组合,每个 视觉单词对应一个系数,称这组系数为视觉特征的编码; 步骤4,视觉特征编码的空间汇合:以每幅图像的所有视觉特征的编码为输入,使用统 计方法,将每幅图像表示为一个向量,该向量就是对应图像的图像特征表示; 步骤5,将步骤4得到的每幅图像的编码作为输入,使用分类模型进行训练和分类,得 到分类结果。2. 根据权利要求1所述的方法,其特征在于,步骤1包括如下步骤: 对于图像I进行局部采样,每次采样得到一个区域块,每个区域块提取一个视觉特 征,得到图像I的视觉特征集合LFS1,最终得到所有图像的视觉特征集合X= e RdXN,其中,d表示视觉特征的维度,N表示所有图像的视觉特征的总数,Xi表示第i个 视觉特征,i取值1?N。3. 根据权利要求2所述的方法,其特征在于,步骤2包括如下步骤: 以集合X为输入,使用特征字典学习方法,得到由一组具有代表性的视觉单词组成的 特征字典,将该特征字典记为:B= ERdXM,其中M为视觉单词的个数;卜是 一个维度d的列向量,表不第j本文档来自技高网
...
一种<a href="http://www.xjishu.com/zhuanli/55/201410693888.html" title="一种整合特征字典结构与视觉特征编码的图像分类方法原文来自X技术">整合特征字典结构与视觉特征编码的图像分类方法</a>

【技术保护点】
一种整合特征字典结构与视觉特征编码的图像分类方法,其特征在于,包括如下步骤:步骤1,提取图像的视觉特征:对每幅图像进行局部采样,得到一组区域块,提取每块区域的视觉特征,得到每幅图像对应的视觉特征集合,称所有图像的视觉特征集合的整体为所有图像的视觉特征集,记为集合X;步骤2,特征字典学习:以集合X为输入,使用特征字典学习方法,得到由一组具有代表性的视觉单词组成的特征字典;步骤3,视觉特征编码:将每幅图像的每个视觉特征表示成视觉单词的线性组合,每个视觉单词对应一个系数,称这组系数为视觉特征的编码;步骤4,视觉特征编码的空间汇合:以每幅图像的所有视觉特征的编码为输入,使用统计方法,将每幅图像表示为一个向量,该向量就是对应图像的图像特征表示;步骤5,将步骤4得到的每幅图像的编码作为输入,使用分类模型进行训练和分类,得到分类结果。

【技术特征摘要】

【专利技术属性】
技术研发人员:杨育彬朱启海
申请(专利权)人:南京大学
类型:发明
国别省市:江苏;32

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1