System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 基于模糊多关键字的检索方法、装置、计算机设备和存储介质制造方法及图纸_技高网

基于模糊多关键字的检索方法、装置、计算机设备和存储介质制造方法及图纸

技术编号:44492073 阅读:8 留言:0更新日期:2025-03-04 17:57
本申请涉及一种基于模糊多关键字的检索方法、装置、计算机设备、存储介质和计算机程序产品。所述方法包括:获取查询关键字对应的局部敏感哈希数据,局部敏感哈希数据是通过局部敏感哈希算法对查询关键字进行处理后得到的;基于查询关键字对应的局部敏感哈希数据以及各文档的目标索引向量,计算各文档分别对应的评价分数,评价分数表征文档与查询关键字的匹配程度,以及得到目标文档。通过采用本方法,可以结合p‑stable局部敏感哈希(LSH)算法计算出的局部敏感哈希数据,可以实现模糊查询,提升文档的密文检索领域中的检索灵活性,提升目标文档与查询关键字之间的相关程度,保证查询结果的准确性以及有效性,进一步提升数据检索效率。

【技术实现步骤摘要】

本申请涉及密文检索,特别是涉及一种基于模糊多关键字的检索方法、装置、计算机设备、存储介质和计算机程序产品。


技术介绍

1、在云计算环境中,保护数据安全的同时实现高效信息检索是一个挑战。密文检索技术应运而生,它允许对加密数据进行直接检索,无需解密,从而确保了数据的保密性。

2、相关技术中,一般是结合布隆过滤器与哈希算法,实现在基于密文状态的情况下对文档的多关键字向量索引和用户查询的关键字之间的精准匹配。由于实际应用场景中,用户输出的关键字可能会出现误差,通过上述方法进行精确哈希计算和查找,会出现无法返回匹配文档结果的出现,导致文档的查找效率较低。


技术实现思路

1、基于此,有必要针对上述技术问题,提供一种能够提升查找效率的基于模糊多关键字的检索方法、装置、计算机设备、计算机可读存储介质和计算机程序产品。

2、第一方面,本申请提供了一种基于模糊多关键字的检索方法。所述方法包括:

3、获取查询关键字对应的局部敏感哈希数据,所述局部敏感哈希数据是通过局部敏感哈希算法对所述查询关键字进行处理后得到的;

4、基于所述查询关键字对应的局部敏感哈希数据以及各文档的目标索引向量,计算各所述文档分别对应的评价分数,所述评价分数表征所述文档与所述查询关键字的匹配程度;

5、基于各所述文档的评价分数,得到目标文档。

6、在其中一个实施例中,所述方法还包括:

7、基于所述文档的关键字数目,确定初始索引向量;

8、针对于每一所述关键字,计算所述关键字的局部敏感哈希数据,所述局部敏感哈希数据包括预期下标、指纹以及相关性分数;

9、将各个关键字分别对应的局部敏感哈希数据添加至所述初始索引向量,得到所述文档对应的目标索引向量。

10、在其中一个实施例中,所述局部敏感哈希数据至少包括预期下标、指纹,所述基于所述查询关键字对应的局部敏感哈希数据以及各文档的目标索引向量,计算各所述文档分别对应的评价分数,包括:

11、针对每一所述文档,基于各所述查询关键字的第一预期下标,分别在所述文档对应的目标索引向量中进行查询;

12、针对于每一所述查询关键字,如果在所述文档对应的目标索引向量中,存储与所述查询关键字的第一预期下标匹配的第二预期下标,则在所述目标索引向量中获取所述第二预期下标对应的第二指纹以及相关性分数,以及计算所述第二指纹与所述查询关键字的第一指纹之间的相似距离;在所述相似距离满足预设相似条件的情况下,基于所述相关性分数,得到所述查询关键字对应的评价分数;

13、基于各所述查询关键字对应的评价分数,得到所述文档的评价分数。

14、在其中一个实施例中,所述查询关键字包含至少多个关键字,所述基于所述相关性分数,得到所述查询关键字对应的评价分数,包括:

15、确定所述相关性分数为所述查询关键字对应的评价分数;

16、所述基于各所述查询关键字对应的评价分数,得到所述文档的评价分数,包括:

17、对各所述所述查询关键字对应的评价分数进行叠加处理,得到所述文档的评价分数。

18、在其中一个实施例中,所述基于各所述文档的评价分数,得到目标文档,包括:

19、按照评价分数的从大到小的顺序,提取前目标数目的文档作为目标文档。

20、在其中一个实施例中,所述方法还包括:

21、接收客户端发送的文档查询请求,所述文档查询请求至少包含各所述查询关键字对应的局部敏感哈希数据,所述局部敏感哈希数据是所述客户端通过局部敏感哈希算法对所述查询关键字进行处理后得到的。

22、第二方面,本申请还提供了一种基于模糊多关键字的检索装置。所述装置包括:

23、第一获取模块,用于获取查询关键字对应的局部敏感哈希数据,所述局部敏感哈希数据是通过局部敏感哈希算法对所述查询关键字进行处理后得到的;

24、第一计算模块,用于基于所述查询关键字对应的局部敏感哈希数据以及各文档的目标索引向量,计算各所述文档分别对应的评价分数,所述评价分数表征所述文档与所述查询关键字的匹配程度;

25、第一确定模块,用于基于各所述文档的评价分数,得到目标文档。

26、第三方面,本申请还提供了一种计算机设备。所述计算机设备包括存储器和处理器,所述存储器存储有计算机程序,所述处理器执行所述计算机程序时实现以下步骤:

27、获取查询关键字对应的局部敏感哈希数据,所述局部敏感哈希数据是通过局部敏感哈希算法对所述查询关键字进行处理后得到的;

28、基于所述查询关键字对应的局部敏感哈希数据以及各文档的目标索引向量,计算各所述文档分别对应的评价分数,所述评价分数表征所述文档与所述查询关键字的匹配程度;

29、基于各所述文档的评价分数,得到目标文档。

30、第四方面,本申请还提供了一种计算机可读存储介质。所述计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现以下步骤:

31、获取查询关键字对应的局部敏感哈希数据,所述局部敏感哈希数据是通过局部敏感哈希算法对所述查询关键字进行处理后得到的;

32、基于所述查询关键字对应的局部敏感哈希数据以及各文档的目标索引向量,计算各所述文档分别对应的评价分数,所述评价分数表征所述文档与所述查询关键字的匹配程度;

33、基于各所述文档的评价分数,得到目标文档。

34、第五方面,本申请还提供了一种计算机程序产品。所述计算机程序产品,包括计算机程序,该计算机程序被处理器执行时实现以下步骤:

35、获取查询关键字对应的局部敏感哈希数据,所述局部敏感哈希数据是通过局部敏感哈希算法对所述查询关键字进行处理后得到的;

36、基于所述查询关键字对应的局部敏感哈希数据以及各文档的目标索引向量,计算各所述文档分别对应的评价分数,所述评价分数表征所述文档与所述查询关键字的匹配程度;

37、基于各所述文档的评价分数,得到目标文档。

38、上述基于模糊多关键字的检索方法、装置、计算机设备、存储介质和计算机程序产品,其中,该方法包括:获取查询关键字对应的局部敏感哈希数据,局部敏感哈希数据是通过局部敏感哈希算法对查询关键字进行处理后得到的;基于查询关键字对应的局部敏感哈希数据以及各文档的目标索引向量,计算各文档分别对应的评价分数,评价分数表征文档与查询关键字的匹配程度;基于各文档的评价分数,得到目标文档。通过采用本方法,可以结合p-stable局部敏感哈希lsh算法计算出的局部敏感哈希数据,实现模糊查询,提升文档的密文检索领域中的检索灵活性;基于各个文档的评价分数筛选目标文档,可以提升目标文档与查询关键字之间的相关程度,保证输出的文档与需要的文档之间的关联程度,保证查询结果的准确性以及有效性,进一步提升数据检索效率以及用户的检索体验。

本文档来自技高网...

【技术保护点】

1.一种基于模糊多关键字的检索方法,其特征在于,所述方法包括:

2.根据权利要求1所述的方法,其特征在于,所述方法还包括:

3.根据权利要求1所述的方法,其特征在于,所述局部敏感哈希数据至少包括预期下标、指纹,所述基于所述查询关键字对应的局部敏感哈希数据以及各文档的目标索引向量,计算各所述文档分别对应的评价分数,包括:

4.根据权利要求3所述的方法,其特征在于,所述查询关键字包含至少多个关键字,所述基于所述相关性分数,得到所述查询关键字对应的评价分数,包括:

5.根据权利要求1至4任意一项所述的方法,其特征在于,所述基于各所述文档的评价分数,得到目标文档,包括:

6.根据权利要求1至4任意一项所述的方法,其特征在于,所述方法还包括:

7.一种基于模糊多关键字的检索装置,其特征在于,所述装置包括:

8.一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,其特征在于,所述处理器执行所述计算机程序时实现权利要求1至6中任一项所述的方法的步骤。

9.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1至6中任一项所述的方法的步骤。

10.一种计算机程序产品,包括计算机程序,其特征在于,该计算机程序被处理器执行时实现权利要求1至6中任一项所述的方法的步骤。

...

【技术特征摘要】

1.一种基于模糊多关键字的检索方法,其特征在于,所述方法包括:

2.根据权利要求1所述的方法,其特征在于,所述方法还包括:

3.根据权利要求1所述的方法,其特征在于,所述局部敏感哈希数据至少包括预期下标、指纹,所述基于所述查询关键字对应的局部敏感哈希数据以及各文档的目标索引向量,计算各所述文档分别对应的评价分数,包括:

4.根据权利要求3所述的方法,其特征在于,所述查询关键字包含至少多个关键字,所述基于所述相关性分数,得到所述查询关键字对应的评价分数,包括:

5.根据权利要求1至4任意一项所述的方法,其特征在于,所述基于各所述文档的评价分数,得到目标文档,包括:...

【专利技术属性】
技术研发人员:黄子瑜汪来富吴波付子爔谢泳
申请(专利权)人:中国电信股份有限公司技术创新中心
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1