当前位置: 首页 > 专利查询>清华大学专利>正文

近似查询方法及装置制造方法及图纸

技术编号:21034261 阅读:42 留言:0更新日期:2019-05-04 05:25
本发明专利技术实施例提供的一种近似查询方法及装置,通过获取待查询数据,对所述待查询数据进行划分获得数据序列段;对每个数据序列段进行特征映射,获得各数据序列段对应特征值,根据所述特征值生成特征序列;获取相似度阈值,根据所述特征序列和相似度阈值在预设的B+树索引结构中获得对应的结果特征序列;将对应于所述结果特征序列的结果数据显示,可以更好的支持内存空间进行严格限制及数据频繁更新的情况,并且可以提供高效、稳定的近似查询。

Approximate Query Method and Device

【技术实现步骤摘要】
近似查询方法及装置
本专利技术涉及信息处理
,尤其涉及一种近似查询方法及装置。
技术介绍
随着近似查询(SimilaritySearch),即查找符合要求的数据对象,作为计算机学科中一个重要的问题,在多个领域内均有极其广泛的应用,例如信息检索、相似图像检索、数据清洗、生物序列分析等。在信息检索中,应用近似查询进行检索,可以使检索的效率以及准确率得到极大的提升。在数据清洗中,应用近似查询技术,可以对重复记录进行检测,提供准确、一致的数据。在相似图像检索的过程中,应用近似查询算法对检索过程提供支持,可以对图像的来源进行分析,查找出高质量的图像。在生物序列分析中,应用近似查询技术,可以极大地提升查询效率。因此,提高近似查询效率至关重要。
技术实现思路
本专利技术实施例提供一种近似查询方法及装置,用于解决现有技术中查询效率低的问题。第一方面,本专利技术实施例提供一种近似查询方法,包括:获取待查询数据,对所述待查询数据进行划分获得数据序列段;对每个数据序列段进行特征映射,获得各数据序列段对应特征值,根据所述特征值生成特征序列;获取相似度阈值,根据所述特征序列和相似度阈值在预设的B+树索引结构中获得对应的结果特征序列;将对应于所述结果特征序列的结果数据显示。可选地,所述预设的B+树索引结构的建立,包括:获取样本数据,对每个样本数据进行分别划分获得数据序列段;对每个数据序列段进行特征映射,获得各数据序列段对应特征值,相同数据序列段的特征值相同;根据所有样本数据的特征值建立B+树索引结构。可选地,在对所述待查询数据进行划分获得数据序列段之后,还需将数据序列段与预设的无效数据库中的无效序列段进行匹配,将匹配成功的数据序列段作为无效数据库进行删除处理。可选地,所述根据所述特征序列和相似度阈值在预设的B+树索引结构中获得对应的结果特征序列,包括:根据预设的B+树索引结构采用多级过滤方式匹配获得候选结果特征序列集;根据相似度阈值对候选结果特征序列集进行验证,获得所需的结果特征序列。第二方面,本专利技术实施例提供一种近似查询装置,包括:获取模块,用于获取待查询数据,对所述待查询数据进行划分获得数据序列段;映射模块,用于对每个数据序列段进行特征映射,获得各数据序列段对应特征值,根据所述特征值生成特征序列;处理模块,用于获取相似度阈值,根据所述特征序列和相似度阈值在预设的B+树索引结构中获得对应的结果特征序列;显示模块,用于将对应于所述结果特征序列的结果数据显示。可选地,还包括建立模块,用于:获取样本数据,对每个样本数据进行分别划分获得数据序列段;对每个数据序列段进行特征映射,获得各数据序列段对应特征值,相同数据序列段的特征值相同;根据所有样本数据的特征值建立B+树索引结构。可选地,还包括筛选模块,用于:在对所述待查询数据进行划分获得数据序列段之后,还需将数据序列段与预设的无效数据库中的无效序列段进行匹配,将匹配成功的数据序列段作为无效数据库进行删除处理。可选地,所述处理模块具体用于:根据预设的B+树索引结构采用多级过滤方式匹配获得候选结果特征序列集;根据相似度阈值对候选结果特征序列集进行验证,获得所需的结果特征序列。第三方面,本专利技术实施例提供一种电子设备,包括:处理器、存储器、总线及存储在存储器上并可在处理器上运行的计算机程序;其中,所述处理器,存储器通过所述总线完成相互间的通信;所述处理器执行所述计算机程序时实现如上述的方法。第四方面,本专利技术实施例提供一种非暂态计算机可读存储介质,所述非暂态计算机可读存储介质上存储有计算机程序,该计算机程序被处理器执行时实现如上述的方法。由上述技术方案可知,本专利技术实施例提供的一种近似查询方法及装置,通过获取待查询数据,对所述待查询数据进行划分获得数据序列段;对每个数据序列段进行特征映射,获得各数据序列段对应特征值,根据所述特征值生成特征序列;获取相似度阈值,根据所述特征序列和相似度阈值在预设的B+树索引结构中获得对应的结果特征序列;将对应于所述结果特征序列的结果数据显示,可以更好的支持内存空间进行严格限制及数据频繁更新的情况,并且可以提供高效、稳定的近似查询。附图说明图1为本专利技术一实施例提供的近似查询方法的流程示意图;图2为本专利技术一实施例提供的近似查询装置的结构示意图;图3为本专利技术一实施例提供的电子设备的结构示意图。具体实施方式下面结合附图和实施例,对本专利技术的具体实施方式作进一步详细描述。以下实施例用于说明本专利技术,但不用来限制本专利技术的范围。图1示出了本专利技术一实施例提供一种近似查询方法,包括:S11、获取待查询数据,对所述待查询数据进行划分获得数据序列段;S12、对每个数据序列段进行特征映射,获得各数据序列段对应特征值,根据所述特征值生成特征序列;S13、获取相似度阈值,根据所述特征序列和相似度阈值在预设的B+树索引结构中获得对应的结果特征序列;S14、将对应于所述结果特征序列的结果数据显示。针对上述步骤S11-步骤S14,需要说明的是,在本专利技术实施例中,用户在终端上搜索引擎的输入框内输入待查询数据,待查询数据一般为文本数据。如“我们的世界是美好的”。服务器获得待查询数据后对其进行划分,划分出数据序列段。如对“我们的世界是美好的”进行划分,划分的数据序列段可为“我们”、“们的”、“的世”、“世界”等等。另外,为了更好的进行后续查询,在对所述待查询数据进行划分获得数据序列段之后,还可将数据序列段与预设的无效数据库中的无效序列段进行匹配,将匹配成功的数据序列段作为无效数据库进行删除处理。在这里,无效序列段为不常用字段、停用词等。如对划分的数据序列段可为“我们”、“们的”、“的世”、“世界”进行删除处理,可删除“们的”、“的世”等等。数据序列段获取后,对每个数据序列段进行特征映射,获得各数据序列段对应特征值,根据所述特征值生成特征序列。即待查询数据对应一个特征序列。数据映射,就是构造一个哈希函数,将不同的特征映射到哈希桶中,之后统计每个桶中特征的数量,从而形成一组向量,这样就完成了数据的映射,将长度不确定的特征集合,映射成固定维度的向量。经过特征提取,可以简化运算,提升算法的稳定性。在本专利技术实施例中,可获取大量样本数据,对样本数据进行分别划分获得数据序列段;对每个数据序列段进行特征映射,获得各数据序列段对应特征值,相同数据序列段的特征值相同。根据所有样本数据的特征值建立B+树索引结构。在这里,根据样本数据的特征值建立B+树索引结构属于成熟技术,在构建过程中,还可利用K-Means++算法对索引创建过程进行优化。所述根据所述特征序列和相似度阈值在预设的B+树索引结构中获得对应的结果特征序列,包括:1)根据预设的B+树索引结构采用多级过滤方式匹配获得候选结果特征序列集;2)根据相似度阈值对候选结果特征序列集进行验证,获得所需的结果特征序列。在本实施例中,需要说明的是,由于B+树索引结构是基于特征值创建而成,故将待查询数据的特征序列在B+树索引结构中进行匹配查询可获得所需的结果特征序列。根据预设的B+树索引结构采用多级过滤方式匹配获得候选结果特征序列集,多级过滤方式可依次进行长度过滤、前缀过滤以及基于数据映射的过滤方法,并且利用B+树索引结构进行减枝操作,降低计算的次数。然后,根据相似度阈值对候选结果特征序本文档来自技高网...

【技术保护点】
1.一种近似查询方法,其特征在于,包括:获取待查询数据,对所述待查询数据进行划分获得数据序列段;对每个数据序列段进行特征映射,获得各数据序列段对应特征值,根据所述特征值生成特征序列;获取相似度阈值,根据所述特征序列和相似度阈值在预设的B+树索引结构中获得对应的结果特征序列;将对应于所述结果特征序列的结果数据显示。

【技术特征摘要】
1.一种近似查询方法,其特征在于,包括:获取待查询数据,对所述待查询数据进行划分获得数据序列段;对每个数据序列段进行特征映射,获得各数据序列段对应特征值,根据所述特征值生成特征序列;获取相似度阈值,根据所述特征序列和相似度阈值在预设的B+树索引结构中获得对应的结果特征序列;将对应于所述结果特征序列的结果数据显示。2.根据权利要求1所述的方法,其特征在于,所述预设的B+树索引结构的建立,包括:获取样本数据,对每个样本数据进行分别划分获得数据序列段;对每个数据序列段进行特征映射,获得各数据序列段对应特征值,相同数据序列段的特征值相同;根据所有样本数据的特征值建立B+树索引结构。3.根据权利要求1所述的方法,其特征在于,在对所述待查询数据进行划分获得数据序列段之后,还需将数据序列段与预设的无效数据库中的无效序列段进行匹配,将匹配成功的数据序列段作为无效数据库进行删除处理。4.根据权利要求1所述的方法,其特征在于,所述根据所述特征序列和相似度阈值在预设的B+树索引结构中获得对应的结果特征序列,包括:根据预设的B+树索引结构采用多级过滤方式匹配获得候选结果特征序列集;根据相似度阈值对候选结果特征序列集进行验证,获得所需的结果特征序列。5.一种近似查询装置,其特征在于,包括:获取模块,用于获取待查询数据,对所述待查询数据进行划分获得数据序列段;映射模块,用于对每个数据序列段进行特征映射,获得各数据序列段对应特征值,根据所述特征...

【专利技术属性】
技术研发人员:张勇胡庆成李秀星邢春晓
申请(专利权)人:清华大学
类型:发明
国别省市:北京,11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1