当前位置: 首页 > 专利查询>清华大学专利>正文

数据搜索方法及系统技术方案

技术编号:10597633 阅读:99 留言:0更新日期:2014-10-30 10:44
本发明专利技术提出一种数据搜索方法,包括:提取训练数据集的特征向量;将特征向量投影到近似汉明空间的预设特征空间;根据投影算法得到量化阈值,并根据优化性能和优化范围确定最优缓冲区;根据量化阈值和最优缓冲区对特征向量投影结果进行双比特量化以得到哈希编码;获取查询实例的哈希编码,并根据查询实例的哈希编码和特征向量投影结果的哈希编码从训练数据集中提取近似的训练数据以作为查询实例的搜索结果。根据本发明专利技术实施例的方法具有搜索速度快,搜索精度高的优点。本发明专利技术还提出了一种数据搜索系统。

【技术实现步骤摘要】
【专利摘要】本专利技术提出一种数据搜索方法,包括:提取训练数据集的特征向量;将特征向量投影到近似汉明空间的预设特征空间;根据投影算法得到量化阈值,并根据优化性能和优化范围确定最优缓冲区;根据量化阈值和最优缓冲区对特征向量投影结果进行双比特量化以得到哈希编码;获取查询实例的哈希编码,并根据查询实例的哈希编码和特征向量投影结果的哈希编码从训练数据集中提取近似的训练数据以作为查询实例的搜索结果。根据本专利技术实施例的方法具有搜索速度快,搜索精度高的优点。本专利技术还提出了一种数据搜索系统。【专利说明】数据搜索方法及系统
本专利技术设计电子信息
,特别涉及一种数据搜索方法及系统。
技术介绍
近年来,互联网数据呈现爆炸式增长的态势,用户通过各种途径,不断地将资讯、 图像、视频、音乐等数据上载到互联网上,诸如国外的Facebook、Twitter,国内的人人网、微 博等,以实现信息的存储和共享。如此大规模的数据增长为互联网领域带来了很多挑战,包 括如何存储这些数据以及如何在这些数据上进行快速有效的查询等。特别是对于图像等非 结构化数据,其内容信息往往被表达成高维特征向量,而在如此海量而又快速增长的数据 中,利用欧氏距离等距离度量方式和传统的遍历式近邻搜索将消耗大量的计算成本和计算 时间,不能满足实时性的要求。因此,对于海量数据的查询技术越来越关注,尤其是如何在 保证高质量的近邻查询的前提下,提高查询速度以适应海量互联网数据的快速增长。 为了解决遍历搜索效率不高的问题,基于树形结构的索引首先被提出并广泛应 用。J. H. Friedman等人提出了 kd-trees,尝试在高维欧几里德空间中进行数据点的组织; A. Guttman在1984年提出R-trees,它是最早支持扩展对象存取的方法之一,也是目前应用 最为广泛的一种空间索引结构;Metric Tree在1991年被提出,该模型充分利用了度量空 间的性质,使数据访问更加高效。后续还有一些更加前沿的树形结构索引模型出现,但它们 普遍是对某个基本模型做出的改进,本质内容和核心结构并无太大区别。相比于遍历搜索, 树形结构索引能够通过剪枝策略帮助降低近邻查询的遍历范围,但是在数据维度越来越高 的情况下,继续使用它进行大规模数据管理将出现"维度灾难",使得索引之后的查询效率 可能比遍历查询还要低。 为了解决上述问题,近年来提出了近似近邻查询(Approximate Nearest Neighbor)的概念,即允许非精确的查询结果出现,用可接受范围内的精度下降换取查询效 率的大幅度提高。因此,哈希(Hash)方法被提出,其本质在于对数据集当中的向量进行二 进制编码,编码算法需保证在原始特征空间中距离相近的特征向量有相似的码字,从而使 其汉明距离(Hamming Distance)也相应较小,保持原始特征空间中向量之间的邻域特性。 此外,通过编码,数据将被转化成二进制形式,可直接采用比特位存储,能大幅度降低检索 过程中的空间需求,从而使得哈希方法能够在内存有限的情况下支持更大数据量的检索。 就目前的研究成果而言,哈希方法可分为两类:数据无关方法和数据相关方法。局部敏感哈 希(LSH,Locality-sensitive Hash)及其衍生方法是数据无关方法的典型代表,其采取随 机投影的方式对原始数据进行编码,在编码位数较高的情况下,理论上能够保证汉明空间 上的相似性能以较高的概率表征原始特征空间的相似性。因此,LSH方法通常需要较多二进 制位来表示一个映射后的数据点,否则很难保证查询精度。而数据相关方法则通过机器学 习等方法,挖掘训练数据的特征,自动学习最优的哈希函数,力求使用较少的二进制位来编 码数据,同时又要尽量提高算法保持数据相似性的能力。谱哈希(SH,Spectral Hashing) 方法借助于对训练数据的相似图结构的分析学习出投影函数,从而实现对数据特征向量的 转化和编码;PCA-Hash采用主成份分析(PCA,Principal Component Analysis),利用线性 变换将高维向量数据投影到相对低维的新特征空间,并尽可能保持原有特征空间的信息; 迭代量化方法(ITQ,Iterative Quantization)利用PCA学习初始的线性投影函数,而后通 过降低量化误差,迭代地学习出一个单位正交矩阵用于优化学到的投影函数,实验证明ITQ 取得了良好的检索效果。 通过对已有的哈希方法的总结可知,对于一个给定的数据集,直接计算其最优二 进制码是NP-hard问题,因此常见的哈希方法都会采取"投影"和"量化"两个步骤来实现对 数据的编码。首先在投影阶段对高维数据点进行转化操作,使其更适合于汉明空间的量化, 可通过PCA等方法将原始的d维数据投影至c维空间中;其次,在量化阶段,数据点投影后 的实数向量将进行二值化,转化为二进制编码。因此,对于哈希方法的优化基本分为"投影" 过程优化和"量化"过程优化这两个主要方向,本专利技术主要侧重于后者。大多数哈希编码在 量化阶段采取单比特量化(SBQ,Single-bit Quantization)方式,即用一个比特位编码投 影结果中的每一维,通过设置阈值的方式判定相应的码字为〇或1。在实际操作中,阈值通 常取的是数据集中各个数据点在该维度上的投影值的均值或中位数,而数据点在阈值附近 的分布往往较为密集,容易造成在阈值附近相邻的数据点被赋予不同的码字,从而破坏了 原始特征空间的邻域分布结构。所以,有必要专利技术一种新的量化方式,以保证编码后数据的 相似性度量与原始数据的距离度量尽量一致,减少编码过程对原始空间邻域结构的破坏。
技术实现思路
本专利技术旨在至少解决上述技术问题之一。 为此,本专利技术的一个目的在于提出一种数据搜索方法。该方法具有搜索速度快,搜 索精度高的优点。 本专利技术的另一个目的在于提出一种数据搜索系统。 为了实现上述目的,本专利技术的第一方面的实施例公开了一种数据搜索方法,包括 以下步骤:提供训练数据集,并提取所述训练数据集的特征向量;利用投影算法将所述特 征向量由原始特征空间投影到近似汉明空间的预设特征空间以得到特征向量投影结果;根 据所述投影算法得到量化阈值,并根据优化性能和优化范围确定最优缓冲区;根据所述量 化阈值和所述最优缓冲区对所述特征向量投影结果进行双比特量化以得到哈希编码;获取 查询实例的哈希编码,并根据所述查询实例的哈希编码和所述特征向量投影结果的哈希编 码从所述训练数据集中提取近似的训练数据以作为所述查询实例的搜索结果。 本专利技术的第二方面的实施例公开了一种数据搜索系统,包括:特征向量提取模块, 用于提取训练数据集的特征向量;投影模块,用于利用投影算法将所述特征向量由原始特 征空间投影到近似汉明空间的预设特征空间以得到特征向量投影结果;计算模块,用于根 据所述投影算法得到量化阈值,并根据优化性能和优化范围确定最优缓冲区;编码模块,用 于根据所述量化阈值和所述最优缓冲区对所述特征向量投影结果进行双比特量化以得到 哈希编码,并对查询实例进行双比特量化以得到所述查询实例的哈希编码;搜索模块,用于 根据所述查询实例的哈希编码和所述特征向量投影本文档来自技高网
...
数据搜索方法及系统

【技术保护点】
一种数据搜索方法,其特征在于,包括以下步骤:提供训练数据集,并提取所述训练数据集的特征向量;利用投影算法将所述特征向量由原始特征空间投影到近似汉明空间的预设特征空间以得到特征向量投影结果;根据所述投影算法得到量化阈值,并根据优化性能和优化范围确定最优缓冲区;根据所述量化阈值和所述最优缓冲区对所述特征向量投影结果进行双比特量化以得到哈希编码;获取查询实例的哈希编码,并根据所述查询实例的哈希编码和所述特征向量投影结果的哈希编码从所述训练数据集中提取近似的训练数据以作为所述查询实例的搜索结果。

【技术特征摘要】

【专利技术属性】
技术研发人员:丁贵广林梓佳陈文烁
申请(专利权)人:清华大学
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1