一种基于局部敏感哈希的键值数据库模糊匹配方法和系统技术方案

技术编号:42091968 阅读:17 留言:0更新日期:2024-07-19 17:05
本发明专利技术提供一种基于局部敏感哈希的键值数据库模糊匹配方法。所述基于局部敏感哈希的键值数据库模糊匹配方法,包括以下步骤:S1:在数据库上基于局部敏感哈希构建索引,相同哈希值的数据使用同一个数据索引,并将索引存储到键值数据库中;S2:对于一个输入的文本字符串,按照距离由小至大生成近似文本,这些文本为候选的模糊匹配文本;S3:将候选文本按照局部敏感哈希值组织起来。本发明专利技术提供的基于局部敏感哈希的键值数据库模糊匹配方法具有该方法具有交互简单,传输数据量小,响应快的模糊匹配,能够显著减少数据库的交互次数和数据传输量,方便扩展,在键值数据库环境下相比目前最先进的算法有更好的表现。

【技术实现步骤摘要】

本专利技术涉及数据库,尤其涉及一种基于局部敏感哈希的键值数据库模糊匹配方法和系统


技术介绍

1、键值数据库由于其高可扩展性,高可用性,高速查询等特点在各个领域得到了广泛的应用,根据db-engines截止到2019年9月的排名,已有3个键值数据库,分别为mongodb、redis和cassandra在353个数据库系统中跻身最受欢迎的数据库前10名,但是键值数据库与其他类型数据库相比仍有一些功能上的不足,对于模糊匹配的支持就是其中之一,众多其他类型数据库,如oracle,postgresql和elasticsearch等都支持数据的模糊匹配。

2、模糊匹配在许多领域都有所应用,在许多文本处理应用程序中,根据距离函数查找相似的文本字符串是一项常见的任务,它广泛用于搜索引擎和拼写检查程序,例如用户可能在搜索时输入一些有拼写错误的关键词,而通常的做法是对于每个拼写错误的关键词给予用户改正的建议。

3、对于模糊匹配任务已经有了许多年的研究,目前已有的方法包括:基于n-gram的方法,基于倒排表的方法和基于哈希的方法等,这些方法大多使用过滤本文档来自技高网...

【技术保护点】

1.一种基于局部敏感哈希的键值数据库模糊匹配方法,其特征在于,包括以下步骤:

2.根据权利要求1所述的基于局部敏感哈希的键值数据库模糊匹配方法,其特征在于,所述S3步骤中每组集合之间按照集合的文本数量由大到小排序。

3.根据权利要求1所述的基于局部敏感哈希的键值数据库模糊匹配方法,其特征在于,所述S4步骤中经过数据库确认的文本加入匹配结果中。

4.一种基于局部敏感哈希的键值数据库模糊匹配的系统,其特征在于,包括:模糊匹配程序和键值数据库,所述模糊匹配程序包括近似文本生成模块、文本过滤验证模块和索引缓冲模块,所述键值数据库中存储的内容包括数据集合和数据索...

【技术特征摘要】

1.一种基于局部敏感哈希的键值数据库模糊匹配方法,其特征在于,包括以下步骤:

2.根据权利要求1所述的基于局部敏感哈希的键值数据库模糊匹配方法,其特征在于,所述s3步骤中每组集合之间按照集合的文本数量由大到小排序。

3.根据权利要求1所述的基于局部敏感哈希的键值数据库模糊匹配方法,其特征在于,所述s4步骤中经过数据库确认的文本加入匹配结果中。

4.一种基于局部敏感哈希的键值数据库模糊匹配的系统,其特征在于,包括:模糊匹配程序和键值数据库,所述模糊匹配程序包括近似文本生成模块、文本过滤验证模块和索引缓冲模块,所述键值数据库中存储的内容包括数据集合和数据索引。

5.根据权利要求4所述的基于局部敏感哈希的键值数据库模糊匹配的系统,其特征在于,所述数据集合为输入文本需要匹配的文本集合,数据集合中与输入文本距离最近的若干个文本为程序需要匹配的目标文本。

6.根据权利要求5所述的基于局部敏感哈希的键值数据库模糊匹配的系统,其特征在于,所述数据索引是根据数据集合构建的用于快速过滤文本数据的数据结构,在数据索引的存储中,记录的键为敏感哈希函数的值,记录的值为局部敏感哈希值等于键的文本数据的索引。

7.根据权利要求4所述的基于局部敏感哈希的键值数据库...

【专利技术属性】
技术研发人员:欧阳义林
申请(专利权)人:智链未来深圳科技有限责任公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1