【技术实现步骤摘要】
一种面向云环境密文检索效率优化的检索过滤阈值选取方法
本专利技术属于信息检索领域,具体的说是涉及一种面向云环境密文检索效率优化的检索过滤阈值选取方法。
技术介绍
在信息爆炸的时代,云计算以其近乎无尽的存储空间和计算能力,吸引着资源受限的用户将计算任务外包给云服务器,以便于享受高质量数据服务,又能大大降低本地管理开销。然而,数据外包带来严重的隐私安全问题。实现云环境中隐私保护最直接的方法是将数据加密后再进行外包,但这种方式会严重影响数据的可用性,例如在信息检索领域,现有的多关键词检索主要是面向明文数据的,无法直接应用到密文检索场景中。而将所有加密数据从云端下载到本地进行解密,显然是一种不切实际且浪费资源的处理方法。因此,许多可搜索加密方法被提出,能够保证数据的机密性,同时能在云环境中对密文数据进行高效检索。近年来,研究者提出的解决方案主要采用基于树形结构索引的加密文档排序检索方法,该类方法通过构建结构简单且自身安全的树形结构索引,通过深度优先搜索检索出最相关的若干文档。例如,论文“XiaZ,WangX,SunX,eta ...
【技术保护点】
1.一种面向云环境密文检索效率优化的检索过滤阈值选取方法,包括:构建关键词区块;确定检索过滤阈值;其特征在于,/n所述构建关键词区块包括:/n从文档集合D中提取关键词,生成关键词集合W;利用关键词和文档之间的相关度量化方法,依次对D中的每一个文档d
【技术特征摘要】
1.一种面向云环境密文检索效率优化的检索过滤阈值选取方法,包括:构建关键词区块;确定检索过滤阈值;其特征在于,
所述构建关键词区块包括:
从文档集合D中提取关键词,生成关键词集合W;利用关键词和文档之间的相关度量化方法,依次对D中的每一个文档dj,以及dj中每一个关键词wi,计算wi和dj之间的单关键词-单文档相关度得分score(wi,dj),生成的相关度得分集合记为根据相关度得分集合S和给定的划分因子τ,生成全局区块表GBT和对应的下边界数组outline;根据全局区块表GBT和下边界数组outline,对W中的所有关键词,构建相应的关键词区块表集合KBT={KBTi|wi∈W},其中KBTi为wi对应的关键词区块表;
所述确定检索过滤阈值包括:
假设用户提交的检索关键词集合为Q,检索需返回的文档数量k;依次计算Q各检索关键词对应的前i个关键词区块中的文档标记集合的并集Ui,若Ui满足如下两个条件中的任一个,则outline[i]即为最终的检索过滤阈值;条件1:i=1∧|Ui|>=k;条件2:i>1∧|Ui|>=k∧|Ui-1|<k。
2.根据权利要求1所述的一种面向云环境密文检索效率优化的检索过滤阈值选取方法,其特征在于,所述Ui的计算方法如下:
3.根据权利要求1所述的一种面向云环境密文检索效率优化的检索过滤阈值选取方法,其特征在于,所述根据相关度得分集合S和给定的划分因子τ,生成全局区块表GBT和对应的下边界数组outline包括:
对S中相关度得分进行降序排列,生成相关度得分降序序列Ω;
根据划分因子τ,对Ω进行等量划分,生成包含个区块的全局区块表其中前个区块均包含τ个相关度得分,最后一个区块包含的相关度得分数量小于等于τ,并且对于任意相邻的两个区块GBlocki和GBlocki+1而言,GBlo...
【专利技术属性】
技术研发人员:戴华,姜莹莹,陈之秀,杨天畅,周倩,杨庚,黄海平,
申请(专利权)人:南京邮电大学,
类型:发明
国别省市:江苏;32
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。