数据搜索方法及系统技术方案

技术编号：10597633 阅读：99 留言：0更新日期：2014-10-30 10:44

本发明专利技术提出一种数据搜索方法，包括：提取训练数据集的特征向量；将特征向量投影到近似汉明空间的预设特征空间；根据投影算法得到量化阈值，并根据优化性能和优化范围确定最优缓冲区；根据量化阈值和最优缓冲区对特征向量投影结果进行双比特量化以得到哈希编码；获取查询实例的哈希编码，并根据查询实例的哈希编码和特征向量投影结果的哈希编码从训练数据集中提取近似的训练数据以作为查询实例的搜索结果。根据本发明专利技术实施例的方法具有搜索速度快，搜索精度高的优点。本发明专利技术还提出了一种数据搜索系统。

全部详细技术资料下载

【技术实现步骤摘要】
【专利摘要】本专利技术提出一种数据搜索方法，包括：提取训练数据集的特征向量；将特征向量投影到近似汉明空间的预设特征空间；根据投影算法得到量化阈值，并根据优化性能和优化范围确定最优缓冲区；根据量化阈值和最优缓冲区对特征向量投影结果进行双比特量化以得到哈希编码；获取查询实例的哈希编码，并根据查询实例的哈希编码和特征向量投影结果的哈希编码从训练数据集中提取近似的训练数据以作为查询实例的搜索结果。根据本专利技术实施例的方法具有搜索速度快，搜索精度高的优点。本专利技术还提出了一种数据搜索系统。【专利说明】数据搜索方法及系统
本专利技术设计电子信息
，特别涉及一种数据搜索方法及系统。
技术介绍
近年来，互联网数据呈现爆炸式增长的态势，用户通过各种途径，不断地将资讯、图像、视频、音乐等数据上载到互联网上，诸如国外的Facebook、Twitter，国内的人人网、微博等，以实现信息的存储和共享。如此大规模的数据增长为互联网领域带来了很多挑战，包括如何存储这些数据以及如何在这些数据上进行快速有效的查询等。特别是对于图像等非结构化数据，其内容信息往往被表达成高维特征向量，而在如此海量而又快速增长的数据中，利用欧氏距离等距离度量方式和传统的遍历式近邻搜索将消耗大量的计算成本和计算时间，不能满足实时性的要求。因此，对于海量数据的查询技术越来越关注，尤其是如何在保证高质量的近邻查询的前提下，提高查询速度以适应海量互联网数据的快速增长。为了解决遍历搜索效率不高的问题，基于树形结构的索引首先被提出并广泛应用。J. H. Fri...
数据搜索方法及系统

【技术保护点】
一种数据搜索方法，其特征在于，包括以下步骤：提供训练数据集，并提取所述训练数据集的特征向量；利用投影算法将所述特征向量由原始特征空间投影到近似汉明空间的预设特征空间以得到特征向量投影结果；根据所述投影算法得到量化阈值，并根据优化性能和优化范围确定最优缓冲区；根据所述量化阈值和所述最优缓冲区对所述特征向量投影结果进行双比特量化以得到哈希编码；获取查询实例的哈希编码，并根据所述查询实例的哈希编码和所述特征向量投影结果的哈希编码从所述训练数据集中提取近似的训练数据以作为所述查询实例的搜索结果。

【技术特征摘要】

【专利技术属性】
技术研发人员：丁贵广，林梓佳，陈文烁，
申请(专利权)人：清华大学，
类型：发明
国别省市：北京;11

全部详细技术资料下载我是这个专利的主人