一种用于群体图像插入的最优图像集选取方法技术

技术编号:19343744 阅读:27 留言:0更新日期:2018-11-07 14:29
本发明专利技术提出了一种用于群体图像插入的最优图像集选取方法,旨在为待插入图像选取出与其相似度最高的图像集,实现步骤为:提取训练图像的SIFT特征;建立视觉词典;取群体图像每个图像集中各图像的SIFT特征;获取每个图像集的视觉单词直方图;获取待插入图像的视觉单词直方图;计算待插入图像与群体图像中每个图像集的相似性;选取最优插入图像集。本发明专利技术发掘了待插入图像与图像集之间的关系,可以为添加到群体图像中的图像选取出与其相似度最高的图像集,可用于云端群体图像管理以及图像数据库管理的场景中插入图像的情况。

An optimal image set selection method for group image insertion

The present invention proposes an optimal image set selection method for group image insertion, aiming at selecting the image set with the highest similarity to the image to be inserted. The implementation steps are as follows: extracting SIFT features of training image; establishing visual dictionary; extracting SIFT features of each image in each image set of group image; and acquiring each image in each image set. The visual word histogram of the set, the visual word histogram of the image to be inserted, the similarity of each image set between the image to be inserted and the group image are calculated, and the optimal insertion image set is selected. The invention discovers the relationship between the image to be inserted and the image set, and can select the image set with the highest similarity for the image added to the group image, and can be used for inserting the image in the scene of cloud group image management and image database management.

【技术实现步骤摘要】
一种用于群体图像插入的最优图像集选取方法
本专利技术属于图像编码
,涉及一种最优图像集选取方法,具体涉及一种用于群体图像插入的基于词包模型的最优图像集选取方法,可用于云端群体图像管理以及图像数据库管理的场景中向群体图像中插入图像的情况,可以为待插入的图像选取出与其相似度最高的图像集。
技术介绍
在最近十年中.随着互联网相关产业的飞速发展,数字图像等多媒体内容也呈现出爆炸式的增长。据全球最大社交网络服务公司Facebook报告,其存储的照片己经超过二千二百亿张,并正以每天三亿张的速度增加。规模巨大的图像视频数据为带宽存储等方面带来了极大的压力。为此,研究者一直在努力改进数字图像压缩技术。相同场景下拍摄的很多图片具有很大的相似性,但他们的单独采用JPEG或JPEG-2000对图像进行编码,将会造成存储空间大、编码效率不够高。因此,对于相似图像的压缩存储很有必要。群体图像编码利用存在于群体图像之间的相关性,通过一系列处理从而得到伪视频序列,最后通过该序列进行视频压缩编码的方法可以获得更高的图像压缩比。群体图像中存在多个图像集,每个图像集中包含多张图像,每个图像集中的图像具有一定的相似性,会整体进行编码。因此群体图像对于图像的添加缺少了灵活性,需要进行图像集的管理。对于向群体图像中添加图像来说,首先需要找到与添加图像相似度最高的图像集。目前一般通过人眼进行主观判断,效率较低。词包模型最初被应用于文本信息检索领域中,忽略文档中单词的位置信息和语义信息,统计单词在文档中出现的频率,利用构建的单词分布直方图来描述文档的语义内容,通过文档到数值向量的转化将文本语言的处理分析转化为数学向量的问题,方便计算机快速的检索文本。在图像场景分类和检索的领域中,词包模型仿照由单词分布特性来表达文档内容的原理,提取图像的局部特征,通过对图像的局部特征进行训练生成合适的视觉单词,通过统计视觉单词的分布特性来表达图像的语义信息。
技术实现思路
本专利技术的目的在于克服上述现有技术存在的缺陷,提出了一种用于群体图像插入的最优图像集选取方法,旨在提高查找与插入到群体图像中的图像相似度最高的图像集的效率。为实现上述目的,本专利技术采取的技术方案包括如下步骤:(1)提取多张训练图像的SIFT特征:从图像样本库中选取多张训练图像,并提取每张训练图像的SIFT特征,得到训练图像的SIFT特征向量集合;(2)建立视觉词典:对训练图像的SIFT特征向量集合中的SIFT特征向量进行聚类,得到多个聚类簇,并将每个聚类簇的聚类中心作为一个视觉单词,得到由多个视觉单词组成的视觉词典;(3)提取群体图像每个图像集中各图像的SIFT特征:分别提取群体图像中每个图像集中各图像的SIFT特征,得到每个图像集的SIFT特征向量集合;(4)获取每个图像集的视觉单词直方图:(4a)对每个图像集的SIFT特征向量集合中的各SIFT特征向量进行最近邻搜索,得到每个SIFT特征向量在视觉词典中对应的距离最近的视觉单词;(4b)统计每个视觉单词在图像集SIFT特征向量集合中出现的次数,并将每个视觉单词出现的次数作为被统计的SIFT特征向量集合对应的图像集的视觉单词直方图;(5)获取待插入图像的视觉单词直方图:(5a)提取待插入图像的SIFT特征,得到待插入图像的SIFT特征向量集合,并对待插入图像中的每个SIFT特征向量进行最近邻搜索,得到多个SIFT特征向量在视觉词典中对应的距离最近的视觉单词;(5b)统计每个视觉单词在待插入图像的SIFT特征向量集合中出现的次数,并将其作为待插入图像的视觉单词直方图;(6)计算待插入图像与群体图像中每个图像集的相似性:采用余弦相似度计算待插入图像视觉单词直方图与每个图像集视觉单词直方图之间的余弦值,并将每一个余弦值作为待插入图像与余弦值对应的图像集的相似性,得到多个待插入图像与图像集的相似性;(7)选取最优插入图像集:从群体图像的所有图像集中选取与待插入图像相似性最大的图像集作为最优的插入图像集。本专利技术与现有技术相比,具有以下优点:本专利技术通过引用词包模型可以生成待插入图像的视觉单词直方图与图像集的视觉单词直方图,并通过待插入图像的视觉单词直方图与图像集的视觉单词直方图的相似性判定,解决了待插入图像与图像集之间相似性判定的问题,可以直接对图像集进行检索,与现有技术只能通过人眼进行主观判断的情况下相比查找效率更高,节省更多的人力。附图说明图1是本专利技术的实现流程框图;具体实施方式以下结合附图和具体实施例,对本专利技术作进一步详细描述:参照图1,本专利技术包括如下步骤:步骤1)提取训练图像的SIFT特征:根据需求从图像样本库中选取多张训练图像,使用opencv库中提供的SIFT特征提取函数分别提取每张训练图像的SIFT特征,保存提取到的SIFT特征向量到一个训练图像的SIFT特征向量集合中;步骤2)建立视觉词典:对训练图像的SIFT特征向量集合中的SIFT特征向量进行聚类,得到多个聚类簇,并将每个聚类簇的聚类中心作为一个视觉单词,得到由多个视觉单词组成的视觉词典;其中,聚类采用K-means聚类方法对SIFT特征向量进行聚类,K-means聚类的实现步骤如下:步骤2a)对聚类参数进行初始化:给定最大迭代次数KMEANS_MAX_ITERATION的值为4,令初始迭代次数t为1,从训练图像的SIFT特征向量集合中随机选取k个SIFT特征向量作为初始的聚类中心,k的值为10000;步骤2b)遍历所有SIFT特征向量,计算每个SIFT特征向量到各个聚类中心的距离,距离最近的作为该SIFT特征向量的聚类中心,并将该SIFT特征向量纳入聚类中心所在的聚类簇中;为各个SIFT特征向量选择聚类中心时,采用穷举法精确度较高,但因SIFT特征向量数量巨大,因此采用最近邻搜索,即在寻找每个对象最近的聚类中心时使用KD-Tree树结构来加速查找;首先,对聚类中心建立KD-Tree索引,KD-Tree是对二叉搜索树的推广;然后,通过KD-Tree索引对聚类中心进行最近邻搜索得到各个SIFT特征向量的聚类中心;步骤2c)对每个聚类簇的聚类中心进行更新:对于每个聚类簇,计算聚类簇中SIFT特征向量的平均值,并将其作为该聚类簇新的聚类中心;步骤2d)令t=t+1,并判断新的聚类中心的值与更新前的聚类中心的值是否相同,若是,则输出每个新的聚类中心的值;否则,执行步骤(2e);步骤2e)判断当前迭代次数是否大于最大迭代次数,若是,迭代停止,输出每个新的聚类中心的值;否则执行步骤(2b);步骤3)提取群体图像每个图像集中各图像的SIFT特征:使用opencv库中提供的SIFT特征提取函数分别提取每个图像集中各图像的SIFT特征,得到每个图像集的SIFT特征向量集合;步骤4)获取每个图像集的视觉单词直方图:步骤4a)对每个图像集的SIFT特征向量集合中的各SIFT特征向量进行最近邻搜索,得到每个SIFT特征向量在视觉词典中对应的距离最近的视觉单词,最近邻搜素采用欧式距离进行距离判定;步骤4b)统计每个视觉单词在图像集SIFT特征向量集合中出现的次数,并将每个视觉单词出现的次数作为被统计的SIFT特征向量集合对应的图像集的视觉单词直方图;步骤5)获取待插入图像的视觉单词直方图:步骤5a)提取待本文档来自技高网
...

【技术保护点】
1.一种用于群体图像插入的最优图像集选取方法,其特征在于,包括如下步骤:(1)提取多张训练图像的SIFT特征:从图像样本库中选取多张训练图像,并提取每张训练图像的SIFT特征,得到训练图像的SIFT特征向量集合;(2)建立视觉词典:对训练图像的SIFT特征向量集合中的SIFT特征向量进行聚类,得到多个聚类簇,并将每个聚类簇的聚类中心作为一个视觉单词,得到由多个视觉单词组成的视觉词典;(3)提取群体图像每个图像集中各图像的SIFT特征:分别提取群体图像中每个图像集中各图像的SIFT特征,得到每个图像集的SIFT特征向量集合;(4)获取每个图像集的视觉单词直方图:(4a)对每个图像集的SIFT特征向量集合中的各SIFT特征向量进行最近邻搜索,得到每个SIFT特征向量在视觉词典中对应的距离最近的视觉单词;(4b)统计每个视觉单词在图像集SIFT特征向量集合中出现的次数,并将每个视觉单词出现的次数作为被统计的SIFT特征向量集合对应的图像集的视觉单词直方图;(5)获取待插入图像的视觉单词直方图:(5a)提取待插入图像的SIFT特征,得到待插入图像的SIFT特征向量集合,并对待插入图像中的每个SIFT特征向量进行最近邻搜索,得到多个SIFT特征向量在视觉词典中对应的距离最近的视觉单词;(5b)统计每个视觉单词在待插入图像的SIFT特征向量集合中出现的次数,并将其作为待插入图像的视觉单词直方图;(6)计算待插入图像与群体图像中每个图像集的相似性:采用余弦相似度计算待插入图像视觉单词直方图与每个图像集视觉单词直方图之间的余弦值,并将每一个余弦值作为待插入图像与余弦值对应的图像集的相似性,得到多个待插入图像与图像集的相似性;(7)选取最优插入图像集:从群体图像的所有图像集中选取与待插入图像相似性最大的图像集作为最优的插入图像集。...

【技术特征摘要】
1.一种用于群体图像插入的最优图像集选取方法,其特征在于,包括如下步骤:(1)提取多张训练图像的SIFT特征:从图像样本库中选取多张训练图像,并提取每张训练图像的SIFT特征,得到训练图像的SIFT特征向量集合;(2)建立视觉词典:对训练图像的SIFT特征向量集合中的SIFT特征向量进行聚类,得到多个聚类簇,并将每个聚类簇的聚类中心作为一个视觉单词,得到由多个视觉单词组成的视觉词典;(3)提取群体图像每个图像集中各图像的SIFT特征:分别提取群体图像中每个图像集中各图像的SIFT特征,得到每个图像集的SIFT特征向量集合;(4)获取每个图像集的视觉单词直方图:(4a)对每个图像集的SIFT特征向量集合中的各SIFT特征向量进行最近邻搜索,得到每个SIFT特征向量在视觉词典中对应的距离最近的视觉单词;(4b)统计每个视觉单词在图像集SIFT特征向量集合中出现的次数,并将每个视觉单词出现的次数作为被统计的SIFT特征向量集合对应的图像集的视觉单词直方图;(5)获取待插入图像的视觉单词直方图:(5a)提取待插入图像的SIFT特征,得到待插入图像的SIFT特征向量集合,并对待插入图像中的每个SIFT特征向量进行最近邻搜索,得到多个SIFT特征向量在视觉词典中对应的距离最近的视觉单词;(5b)统计每个视觉单词在待插入图像的SIFT特征向量集合中出现的次数,并将其作为待插入图像的视觉单词直方图;(6)计算待插入图像与群体图像中每个图像集的相似性:采用余弦相似度计算待插入图像视觉单词直方图与每个图像集视觉单词直方图之间的余弦值,并将每一个余弦值作为待插入图像与余弦值对应的图像集的相似性,得到多个...

【专利技术属性】
技术研发人员:吴炜许冬梅
申请(专利权)人:西安电子科技大学
类型:发明
国别省市:陕西,61

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1