多关键词模糊密文检索方法及系统技术方案

技术编号:33769962 阅读:43 留言:0更新日期:2022-06-12 14:22
本申请公开了一种多关键词模糊密文检索方法及系统,其中,方法包括:将搜索请求进行分解生成多个查询关键词,根据多个查询关键词生成多个查询向量及其对应的多个关键词陷门函数;将多个关键词陷门函数遍历预先构建的多个文档加密索引,分别计算每个文档加密索引与每个关键词陷门函数的内积之和,得到多个查询向量与文档加密索引之间的多个相似性值;将多个相似性值进行比较,根据比较结果得到搜索请求对应的文档。由此,解决了相关技术的检索方案不能有效消除布隆过滤器假命中,精确度较低;提取的关键词特征维度较少,且关键词特征向量降维后,特征退化,无法高精度实现模糊关键词检索,可用性较低的问题。可用性较低的问题。可用性较低的问题。

【技术实现步骤摘要】
多关键词模糊密文检索方法及系统


[0001]本申请涉及文档检索
,特别涉及一种多关键词模糊密文检索方法及系统。

技术介绍

[0002]对于文档数据,可以通过关键词检索,与文档内容进行匹配,得到所需的文档。但是对于海量的文档数据,为通过关键词进行准确且快速检索,得到所需的文档提出了巨大的挑战。
[0003]相关技术中的多关键词top

k检索,无法解决模糊检索。相关技术中的通配符构造文档索引和陷门集合,实现模糊检索,但是存储开销大,计算的时间复杂度、空间复杂度高。
[0004]相关技术中的通配符、构造trie树实现模糊关键词的高效率检索,但是存储开销大,计算的时间复杂度、空间复杂度高,在高维空间下,trie树效率并不高。相关技术中的基于布隆过滤器实现模糊密文检索方案,未能有效消除布隆过滤器假命中带来的影响,精确度不高。
[0005]相关技术中的基于布隆过滤器实现模糊密文检索方案,但是索引和向量中未插入TF和IDF,检索精度不高;且关键词分解为邻接字符,但是缺少单词组成字母特征,映射成指纹时会造成关键本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种多关键词模糊密文检索方法,其特征在于,包括以下步骤:将搜索请求进行分解生成多个查询关键词,根据所述多个查询关键词生成多个查询向量及其对应的多个关键词陷门函数;将所述多个关键词陷门函数遍历预先构建的多个文档加密索引,分别计算每个文档加密索引与每个关键词陷门函数的内积之和,得到所述多个查询向量与文档加密索引之间的多个相似性值;将所述多个相似性值进行比较,根据比较结果得到所述搜索请求对应的文档。2.根据权利要求1所述的方法,其特征在于,在将搜索请求进行分解生成多个查询关键词之前,还包括:提取多个文档的文档关键词,构建所述文档关键词的文档明文索引,对所述文档明文索引进行加密得到文档加密索引。3.根据权利要求2所述的方法,其特征在于,所述提取多个文档的文档关键词,构建所述文档关键词的文档明文索引,对所述文档明文索引进行加密得到文档加密索引,包括:将所述文档中的每个关键词分解为邻接字符和单字符的第一字符集合,通过独热编码原理生成所述第一字符集合的第一独热编码向量;利用局部敏感哈希函数将所述第一独热编码向量映射为第一关键词指纹;利用布隆过滤器将所述第一关键词指纹映射到索引上,生成第一映射向量;根据最大TF原则对所述第一映射向量中的第一预设位置进行替换生成所述文档明文索引,对所述文档明文索引进行加密后生成所述文档加密索引。4.根据权利要求1所述的方法,其特征在于,所述将搜索请求进行分解生成多个查询关键词,根据所述多个查询关键词生成多个查询向量及其对应的多个关键词陷门函数,包括:将所述搜索请求进行分解生成所述多个查询关键词;将每个查询关键词分解为邻接字符和单字符的第二字符集合,通过独热编码原理生成所述第二字符集合的第二独热编码向量;利用局部敏感哈希函数将所述第二独热编码向量映射为第二关键词指纹;利用布隆过滤器将所述第二关键词指纹映射到索引上,生成第二映射向量;根据IDF原则对所述第二映射向量中的第二预设位置进行替换,生成所述搜索请求对应的多个查询关键词的查询向量;基于所述多个查询向量生成所述多个关键词陷门函数。5.根据权利要求1所述的方法,其特征在于,所述将所述多个相似性值进行比较,根据比较结果确定所述搜索请求对应的文档,包括:按照由大到小的顺序从所述多个相似性值中选择目标数量的相似性值,并将所述目标数量的相似性值对应的文档作为所述搜索请求对应的文档。6.根据...

【专利技术属性】
技术研发人员:郑开发王娜刘建伟张汕成韩庆云张政
申请(专利权)人:北京航空航天大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1