基于随机森林算法的判别二进制图像特征相似实现方法技术

技术编号:13345088 阅读:63 留言:0更新日期:2016-07-14 13:30
本发明专利技术公开了一种基于随机森林算法的判别二进制图像特征相似实现方法,该方法包括:离线索引阶段,提取图像的尺度不变特征转换特征,把所有特征的每一维当作一个向量用K均值方法聚类,将尺度不变特征转换特征量化成512维的二进制特征;把量化后的特征、特征索引、特征对应的图像名称及其近邻特征写入数据库作为图像特征库。在线检索阶段,提取图像的尺度不变特征转换特征,把特征量化成512维的二进制特征,并与图像特征库中的特征匹配,找出特征的近邻特征,并用随机森林算法对近邻特征进行判别,投票机制检索出相似图像。

【技术实现步骤摘要】
基于随机森林算法的判别二进制图像特征相似实现方法
:本专利技术涉及图像处理
中的相似图像检索,特别涉及一种基于随机森林算法的判别二进制图像特征相似实现方法。
技术介绍
:随着大数据、云计算等互联网技术的快速发展,网络上存放的图像文档以及相关资料迅速增加,目前已有数以亿计的网络图片,如何存储这些大规模的图像、如何在如此大规模的图像数据库中快速准确的检索到用户想要的图片,已经成为计算机视觉领域的一个重要研究方向。传统的图像检索模型例如词袋模型(BoW)、局部聚合向量(VLAD),将图像进行离线索引时,首先将图像的特征进行聚类,聚类中心作为视觉单词,然后再将特征量化成视觉单词进行倒排索引。其中,特征的聚类要计算所有特征之间的欧氏距离,特征量化时要计算所有特征与聚类中心的欧式距离,而128维的欧式距离计算需要花费大量的时间,并且消耗大量的内存。更重要的是,一旦加入新的图像库,必须重新计算视觉单词,可扩展性不好。并且,聚类中心的个数不好确定,而聚类中心的好坏直接影响最终的检索结果。利用二进制特征描述图像与传统的尺度不变特征转换浮点型描述符相比,具有存储空间少、计算速度快的特点。另一方面二进制特征在匹配查找方面也具有天然优势,可以使用汉明距离进行匹配计算,大大提高匹配速度。目前较为流行的二进制特征例如ORB、FREAK、BRISK算法,这些方法描述符较为简单,可以达到很好的实时处理性能,但是由于描述符简单,对噪声的鲁棒性不够,匹配效果不佳。由于尺度不变特征转换特征可以适应图像缩放、旋转、平移等变化,并且能克服噪声光照变化的影响等良好的性,因此可以得到最佳匹配效果。如何把尺度不变特征转换特征映射成二进制特征以及二进制特征如何有效的索引和匹配是目前研究的一个重要方向。现有二进制特征的匹配方法是计算汉明距离,当距离小于某一阈值则认为匹配,否则认为不匹配。然而阈值设置的小,部分匹配特征不会被匹配到,阈值设置的大,部分不匹配特征会被匹配到,而匹配特征对最终检索结果至关重要。现在的大部分研究在只进行到阈值的设置匹配,目前还没有为阈值匹配后的特征进行有监督的精确匹配。
技术实现思路
:本专利技术的目的在于克服上述现有系统中的缺陷,提出了一种基于随机森林算法的判别二进制图像特征相似实现方法,与传统图像检索系统设计相比,该方法可以有效的提高平均检索准确率。为达到上述目的,本专利技术通过如下的技术方案予以实现:基于随机森林算法的判别二进制图像特征相似实现方法,包括以下步骤:1)离线索引阶段,提取图像的尺度不变特征转换特征,把所有尺度不变特征转换特征的每一维当作一个向量用K均值方法聚类,得到5个聚类中心,然后将尺度不变特征转换特征的每一维按汉明距离最近的聚类中心量化成4位的二进制码,得到512维的二进制特征;把量化后的特征、特征索引、特征对应的图像名称及其近邻特征写入数据库作为图像特征库;2)取不少于图像库60%的图像用于有监督的训练,将图像的量化特征与图像库中的特征进行匹配,如果两幅图像相似,则把类别1和量化特征与其匹配特征的异或结果作为新的标签向量,若否,则把类别0和量化特征与其匹配特征的异或结果作为新的标签向量;将这些标签向量用随机森林算法进行有监督的学习和预测,选取最优参数生成随机森林判别模型;3)在线检索阶段,提取图像的尺度不变特征转换特征,把特征量化成512维的二进制特征,并与图像特征库中的特征匹配,得到量化特征的近邻特征,并用步骤2)中生成的随机判别模型对近邻特征进行判别,投票机制检索出相似图像。本专利技术进一步的改进在于,步骤1)中,离线索引阶段,将128维的尺度不变特征转换特征量化成512维的二进制特征,使特征间的汉明距离与欧式距离更具有一致性、二进制特征间的汉明距离更具有判别力;并且把近邻特征一并写入特征库,减少了部分特征不能被匹配到的概率。本专利技术进一步的改进在于,步骤1)中,离线索引阶段,将提取出的尺度不变特征转换特征f=(f1,f2,...,f128)T量化成512维的向量b=(b1,b2,...,b512)T,具体量化方法如下:把量化后的特征、特征索引、特征对应的图像名称及其近邻特征写入数据库作为图像特征库,数据库存储方式如下:其中,index作为索引,feature1存储前32位特征,用来作求检索特征的最近邻,feature2存储后面480位特征,Image-name是特征对就的图像名称,NN存储的是与特征的汉明距离小于d的特征的索引。本专利技术进一步的改进在于,步骤2)中,生成一个基于随机森林算法的判别模型,判别两个特征是否相似,若判别结果为1.0,则认为两个特征相似,若判别结果为0.0,则认为两个特征不相似,此判别方法的具体实施步骤如下:201)取不少于图像库60%的图像用于有监督的训练,提取图像的尺度不变特征转换特征并量化,将量化后的特征与特征库中的特征匹配,得到量化后特征的近邻特征;202)比较图像与量化特征的近邻特征对应的图像是否相似,若相似,则把类别1与量化特征与其近邻特征的异或结果作为新的标签向量,若不相似,则把类别0与量化特征与其近邻特征的异或结果作为新的标签向量;203)分别选取不同的决策树个数和最大层数进行学习和预测,选取预测错误率最低的决策树个数和最大层次数作为参数,生成随机森林判别模型。本专利技术进一步的改进在于,步骤3)中,对查询图像的量化特征的近邻特征进行判别,若判别结果为1.0,则认为两个特征相似,若判别结果为0.0,则认为两个特征不相似,把不相似的特征过滤,相似的特征采用投票机制得到检索结果。相对于现有技术,本专利技术具有如下技术效果:本专利技术基于随机森林算法的判别二进制图像特征相似实现方法,该检索系统采用二进制特征进行特征相似匹配,可以大大提高匹配速度,并且可以减少特征存储空间;另外,本检索系统中,新增加一个有监督的基于随机森林算法的特征相似判别模型,可以过滤大部分不匹配的特征。将二者结合,既可以提高检索速度,也可以提高平均检索准确率。附图说明:图1为本专利技术基于随机森林算法的判别二进制图像特征相似实现方法的流程图;图2为本专利技术中随机森林算法的决策树树目仿真图;图3为本专利技术中随机森林算法的最大层数数目仿真图。具体实施方式:下面结合附图和具体实施例对本专利技术作进一步说明。在离线索引阶段,提取图像库中的特征,建立特征库;在线检索阶段,提取查询图像的特征,与特征库中的特征进行匹配,把匹配的特征输入到随机森林判别模型,对相似特征采用投票机制,输出检索结果。参见图1,本专利技术基于随机森林算法的判别二进制图像特征相似实现方法,包括以下步骤:1)离线索引阶段,提取图像的尺度不变特征转换特征,把所有特征的每一维当作一个向量用K均值方法聚类,得到5个聚类中心,然后将尺度不变特征转换特征的每一维按汉明距离最近的聚类中心量化成4位的二进制码,得到512维的二进制特征;把量化后的特征、特征索引、特征对应的图像名称及其近邻特征写入数据库作为图像特征库。2)取不少于图像库60%的图像用于有监督的训练,将图像的量化特征与图像库中的特征进行匹配,如果两幅图像相似,则把类别1和量化特征与其近邻特征的异或结果作为新的标签向量,若否,则把类别0和量化特征与其近邻特征的异或结果作为新的标签向量。将这些标签向量用随机森林算法进行有监督本文档来自技高网
...

【技术保护点】
基于随机森林算法的判别二进制图像特征相似实现方法,其特征在于,包括以下步骤:1)离线索引阶段,提取图像的尺度不变特征转换特征,把所有尺度不变特征转换特征的每一维当作一个向量用K均值方法聚类,得到5个聚类中心,然后将尺度不变特征转换特征的每一维按汉明距离最近的聚类中心量化成4位的二进制码,得到512维的二进制特征;把量化后的特征、特征索引、特征对应的图像名称及其近邻特征写入数据库作为图像特征库;2)取不少于图像库60%的图像用于有监督的训练,将图像的量化特征与图像库中的特征进行匹配,如果两幅图像相似,则把类别1和量化特征与其匹配特征的异或结果作为新的标签向量,若否,则把类别0和量化特征与其匹配特征的异或结果作为新的标签向量;将这些标签向量用随机森林算法进行有监督的学习和预测,选取最优参数生成随机森林判别模型;3)在线检索阶段,提取图像的尺度不变特征转换特征,把特征量化成512维的二进制特征,并与图像特征库中的特征匹配,得到量化特征的近邻特征,并用步骤2)中生成的随机判别模型对近邻特征进行判别,投票机制检索出相似图像。

【技术特征摘要】
1.基于随机森林算法的判别二进制图像特征相似实现方法,其特征在于,包括以下步骤:1)离线索引阶段,提取图像的尺度不变特征转换特征,把所有尺度不变特征转换特征的每一维当作一个向量用K均值方法聚类,得到5个聚类中心,然后将尺度不变特征转换特征的每一维按汉明距离最近的聚类中心量化成4位的二进制码,得到512维的二进制特征;把量化后的特征、特征索引、特征对应的图像名称及其近邻特征写入数据库作为图像特征库;具体如下:将提取出的尺度不变特征转换特征f=(f1,f2,...,f128)T量化成512维的向量b=(b1,b2,...,b512)T,具体量化方法如下:把量化后的特征、特征索引、特征对应的图像名称及其近邻特征写入数据库作为图像特征库,数据库存储方式如下:indexfeature1feature2Image-nameNN1234其中,index作为索引,feature1存储前32位特征,用来作求检索特征的最近邻,feature2存储后面480位特征,Image-name是特征对就的图像名称,NN存储的是与特征的汉明距离小于d的特征的索引;其中,量化后特征的近邻特征为:取不少于图像库60%的图像用于有监督的训练,提取图像的尺度不变特征转换特征并量化,将量化后的特征与特征库中的特征匹配得到;2)取不少于图像库60%的图像用于有监督的训练,将图像的量化特征与图像库中的特征进行匹配,如果两幅图像相似,则把类别1和量化特征与其匹配特征的异或结果作为新的标签向量,若否,则把类别0和量化特征与其匹配特征的异或结果作为新的标签向量;将这些标签向量用随机森林算法进行有监督的学习和预测,选取最优参数生成随机森...

【专利技术属性】
技术研发人员:王霞王珊马涛
申请(专利权)人:西安交通大学
类型:发明
国别省市:陕西;61

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1