【技术实现步骤摘要】
本专利技术涉及数据库,尤其涉及一种基于局部敏感哈希的键值数据库模糊匹配方法和系统。
技术介绍
1、键值数据库由于其高可扩展性,高可用性,高速查询等特点在各个领域得到了广泛的应用,根据db-engines截止到2019年9月的排名,已有3个键值数据库,分别为mongodb、redis和cassandra在353个数据库系统中跻身最受欢迎的数据库前10名,但是键值数据库与其他类型数据库相比仍有一些功能上的不足,对于模糊匹配的支持就是其中之一,众多其他类型数据库,如oracle,postgresql和elasticsearch等都支持数据的模糊匹配。
2、模糊匹配在许多领域都有所应用,在许多文本处理应用程序中,根据距离函数查找相似的文本字符串是一项常见的任务,它广泛用于搜索引擎和拼写检查程序,例如用户可能在搜索时输入一些有拼写错误的关键词,而通常的做法是对于每个拼写错误的关键词给予用户改正的建议。
3、对于模糊匹配任务已经有了许多年的研究,目前已有的方法包括:基于n-gram的方法,基于倒排表的方法和基于哈希的方法等,
...【技术保护点】
1.一种基于局部敏感哈希的键值数据库模糊匹配方法,其特征在于,包括以下步骤:
2.根据权利要求1所述的基于局部敏感哈希的键值数据库模糊匹配方法,其特征在于,所述S3步骤中每组集合之间按照集合的文本数量由大到小排序。
3.根据权利要求1所述的基于局部敏感哈希的键值数据库模糊匹配方法,其特征在于,所述S4步骤中经过数据库确认的文本加入匹配结果中。
4.一种基于局部敏感哈希的键值数据库模糊匹配的系统,其特征在于,包括:模糊匹配程序和键值数据库,所述模糊匹配程序包括近似文本生成模块、文本过滤验证模块和索引缓冲模块,所述键值数据库中存储的内容
...【技术特征摘要】
1.一种基于局部敏感哈希的键值数据库模糊匹配方法,其特征在于,包括以下步骤:
2.根据权利要求1所述的基于局部敏感哈希的键值数据库模糊匹配方法,其特征在于,所述s3步骤中每组集合之间按照集合的文本数量由大到小排序。
3.根据权利要求1所述的基于局部敏感哈希的键值数据库模糊匹配方法,其特征在于,所述s4步骤中经过数据库确认的文本加入匹配结果中。
4.一种基于局部敏感哈希的键值数据库模糊匹配的系统,其特征在于,包括:模糊匹配程序和键值数据库,所述模糊匹配程序包括近似文本生成模块、文本过滤验证模块和索引缓冲模块,所述键值数据库中存储的内容包括数据集合和数据索引。
5.根据权利要求4所述的基于局部敏感哈希的键值数据库模糊匹配的系统,其特征在于,所述数据集合为输入文本需要匹配的文本集合,数据集合中与输入文本距离最近的若干个文本为程序需要匹配的目标文本。
6.根据权利要求5所述的基于局部敏感哈希的键值数据库模糊匹配的系统,其特征在于,所述数据索引是根据数据集合构建的用于快速过滤文本数据的数据结构,在数据索引的存储中,记录的键为敏感哈希函数的值,记录的值为局部敏感哈希值等于键的文本数据的索引。
7.根据权利要求4所述的基于局部敏感哈希的键值数据库...
【专利技术属性】
技术研发人员:欧阳义林,
申请(专利权)人:智链未来深圳科技有限责任公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。