基于随机森林算法的判别二进制图像特征相似实现方法技术

技术编号：13345088 阅读：63 留言：0更新日期：2016-07-14 13:30

本发明专利技术公开了一种基于随机森林算法的判别二进制图像特征相似实现方法，该方法包括：离线索引阶段，提取图像的尺度不变特征转换特征，把所有特征的每一维当作一个向量用K均值方法聚类，将尺度不变特征转换特征量化成512维的二进制特征；把量化后的特征、特征索引、特征对应的图像名称及其近邻特征写入数据库作为图像特征库。在线检索阶段，提取图像的尺度不变特征转换特征，把特征量化成512维的二进制特征，并与图像特征库中的特征匹配，找出特征的近邻特征，并用随机森林算法对近邻特征进行判别，投票机制检索出相似图像。

全部详细技术资料下载

【技术实现步骤摘要】
基于随机森林算法的判别二进制图像特征相似实现方法
：本专利技术涉及图像处理
中的相似图像检索，特别涉及一种基于随机森林算法的判别二进制图像特征相似实现方法。
技术介绍
：随着大数据、云计算等互联网技术的快速发展，网络上存放的图像文档以及相关资料迅速增加，目前已有数以亿计的网络图片，如何存储这些大规模的图像、如何在如此大规模的图像数据库中快速准确的检索到用户想要的图片，已经成为计算机视觉领域的一个重要研究方向。传统的图像检索模型例如词袋模型(BoW)、局部聚合向量(VLAD)，将图像进行离线索引时，首先将图像的特征进行聚类，聚类中心作为视觉单词，然后再将特征量化成视觉单词进行倒排索引。其中，特征的聚类要计算所有特征之间的欧氏距离，特征量化时要计算所有特征与聚类中心的欧式距离，而128维的欧式距离计算需要花费大量的时间，并且消耗大量的内存。更重要的是，一旦加入新的图像库，必须重新计算视觉单词，可扩展性不好。并且，聚类中心的个数不好确定，而聚类中心的好坏直接影响最终的检索结果。利用二进制特征描述图像与传统的尺度不变特征转换浮点型描述符相比，具有存储空间少、计算速度快的特点。另一方面二进制特征在匹配查找方面也具有天然优势，可以使用汉明距离进行匹配计算，大大提高匹配速度。目前较为流行的二进制特征例如ORB、FREAK、BRISK算法，这些方法描述符较为简单，可以达到很好的实时处理性能，但是由于描述符简单，对噪声的鲁棒性不够，匹配效果不佳。由于尺度不变特征转换特征可以适应图像缩放、旋转、平移等变化，并且能克服噪声光照变化的影响等良好的性，因此可以得到最佳匹配效果...

【技术保护点】
基于随机森林算法的判别二进制图像特征相似实现方法，其特征在于，包括以下步骤：1)离线索引阶段，提取图像的尺度不变特征转换特征，把所有尺度不变特征转换特征的每一维当作一个向量用K均值方法聚类，得到5个聚类中心，然后将尺度不变特征转换特征的每一维按汉明距离最近的聚类中心量化成4位的二进制码，得到512维的二进制特征；把量化后的特征、特征索引、特征对应的图像名称及其近邻特征写入数据库作为图像特征库；2)取不少于图像库60％的图像用于有监督的训练，将图像的量化特征与图像库中的特征进行匹配，如果两幅图像相似，则把类别1和量化特征与其匹配特征的异或结果作为新的标签向量，若否，则把类别0和量化特征与其匹配特征的异或结果作为新的标签向量；将这些标签向量用随机森林算法进行有监督的学习和预测，选取最优参数生成随机森林判别模型；3)在线检索阶段，提取图像的尺度不变特征转换特征，把特征量化成512维的二进制特征，并与图像特征库中的特征匹配，得到量化特征的近邻特征，并用步骤2)中生成的随机判别模型对近邻特征进行判别，投票机制检索出相似图像。

【技术特征摘要】
1.基于随机森林算法的判别二进制图像特征相似实现方法，其特征在于，包括以下步骤：1)离线索引阶段，提取图像的尺度不变特征转换特征，把所有尺度不变特征转换特征的每一维当作一个向量用K均值方法聚类，得到5个聚类中心，然后将尺度不变特征转换特征的每一维按汉明距离最近的聚类中心量化成4位的二进制码，得到512维的二进制特征；把量化后的特征、特征索引、特征对应的图像名称及其近邻特征写入数据库作为图像特征库；具体如下：将提取出的尺度不变特征转换特征f＝(f1,f2,...,f128)T量化成512维的向量b＝(b1,b2,...,b512)T，具体量化方法如下：把量化后的特征、特征索引、特征对应的图像名称及其近邻特征写入数据库作为图像特征库，数据库存储方式如下：indexfeature1feature2Image-nameNN1234其中，index作为索引，feature1存储前32位特征，用来作求检索特征的最近邻，feature2存储后面480位特征，Image-name是特征对就的图像名称，NN存储的是与特征的汉明距离小于d的特征的索引；其中，量化后特征的近邻特征为：取不少于图像库60％的图像用于有监督的训练，提取图像的尺度不变特征转换特征并量化，将量化后的特征与特征库中的特征匹配得到；2)取不少于图像库60％的图像用于有监督的训练，将图像的量化特征与图像库中的特征进行匹配，如果两幅图像相似，则把类别1和量化特征与其匹配特征的异或结果作为新的标签向量，若否，则把类别0和量化特征与其匹配特征的异或结果作为新的标签向量；将这些标签向量用随机森林算法进行有监督的学习和预测，选取最优参数生成随机森...

【专利技术属性】
技术研发人员：王霞，王珊，马涛，
申请(专利权)人：西安交通大学，
类型：发明
国别省市：陕西;61

全部详细技术资料下载我是这个专利的主人