一种基于密文的多关键字扩展检索方法技术

技术编号：21399024 阅读：28 留言：0更新日期：2019-06-19 07:00

本发明专利技术公开了一种基于密文的多关键字扩展检索方法，对数据源进行关键字集提取，然后基于关键字集合构建逆文档向量集并分组，再对每组向量集进行B+索引树构建，通过安全KNN算法进行加密，接着利用对称加密算法对数据源加密，将加密后的索引树组和数据源一块上传至云服务器中，对用户输入的检索关键字做模糊处理，针对用户输入错误的情况进行纠正；最后，对模糊处理后的查询关键字集合做语义分析操作，对查询关键字集进行扩展，根据经过语义分析后的关键字集合生成查询向量，利用加密算法处理后获得的陷门，对陷门做分组处理并上传至云服务器。本发明专利技术从陷门扩展的角度出发，对用户输入的检索关键字进行模糊处理以及语义分析，提升用户的使用体验。

全部详细技术资料下载

【技术实现步骤摘要】
一种基于密文的多关键字扩展检索方法
本专利技术涉及文字检索
，具体涉及一种基于密文的多关键字扩展检索方法。
技术介绍
在以隐私保护为目标的研究中，可搜索加密方案占据着重要的地位，基于这一领域的研究也得到了充分的丰富于发展。但是随着数据的爆炸式增长与用户需求的日益多样化，该方案也面临着各种问题与挑战。目前的主流方案中大多是根据用户输入的查询关键字进行精确检索，并没有考虑到各种其它因素，当用户的查询关键字输入错误或者单一，并不能合理的返回给用户相应的结果。随着用户上传的数据量成线性增长，如何根据用户的喜爱和偏好进行结果过滤或者进行提升关键字优先级，减少用户的数据筛选，也是重要的改进之一。随着个性化搜索的提出，这个问题得到了很好的解决，它的主要原理是对用户的信息进行采集，然后分析出用户的兴趣和偏好，然后根据分析对比将检索结果进行针对用户的个性化排序，使用户能够快速的找到想要的结果。但是由于该方案是在用户信息的基础上进行操作，对于密文检索这种注重隐私性的方案来说可能并不是一个很好的选择。
技术实现思路
专利技术目的：为了克服现有技术的不足，本专利技术提供一种基于密文的多关键字扩展检索方法，该方法可以解决在进行模糊多关键字排序检索中的效率低，准确率不高，查询结果单一，智能程度低的问题。技术方案：本专利技术所述的基于密文的多关键字扩展检索方法，包括：(1)构建B+索引树组：根据数据源中关键字集合KW构建逆文档向量集IDOC，利用逆文档向量集合IDOC构建对应的分组B+索引树组IO，并利用文档向量集合DOC构建对应的分组文档数据集IT；(2)IT和IO加密：利用安全K...

【技术保护点】
1.一种基于密文的多关键字扩展检索方法，其特征在于，包括：(1)构建B+索引树组：根据数据源中关键字集合KW构建逆文档向量集IDOC，利用逆文档向量集合IDOC构建对应的分组B+索引树组IO，并利用文档向量集合DOC构建对应的分组文档数据集IT，；(2)IT和IO加密：利用安全KNN算法对IO和IT进行加密，加密后的数据分别记为EIO和EIT，并将加密后的数据上传至云服务器；(3)模糊处理查询关键字：将用户输入的查询关键字组成的集合Wq与关键字集合KW匹配，得到处理后的模糊关键字集合Wm；(4)模糊查询关键字集合Wm的语义扩展：根据构建的语义树得到关键字间的语义相似度，对Wm进行遍历并和关键字集KW进行语义相似度计算，对每一个模糊集合中的关键字进行语义扩展，形成语义扩展集，然后将每一个关键字的语义扩展集添加到Wm，形成语义集合Wy；(5)构建陷门：对Wy进行遍历，根据遍历的当前关键字是否存在KW中构建第一次查询向量QO和第二次查询向量QT，并采用安全KNN算法对QO和QT进行加密，得到陷门，并将加密数据上传至云服务器；(6)EQO和EQT二次排序匹配：利用EIO和EQO中存储的加密后的...

【技术特征摘要】
1.一种基于密文的多关键字扩展检索方法，其特征在于，包括：(1)构建B+索引树组：根据数据源中关键字集合KW构建逆文档向量集IDOC，利用逆文档向量集合IDOC构建对应的分组B+索引树组IO，并利用文档向量集合DOC构建对应的分组文档数据集IT，；(2)IT和IO加密：利用安全KNN算法对IO和IT进行加密，加密后的数据分别记为EIO和EIT，并将加密后的数据上传至云服务器；(3)模糊处理查询关键字：将用户输入的查询关键字组成的集合Wq与关键字集合KW匹配，得到处理后的模糊关键字集合Wm；(4)模糊查询关键字集合Wm的语义扩展：根据构建的语义树得到关键字间的语义相似度，对Wm进行遍历并和关键字集KW进行语义相似度计算，对每一个模糊集合中的关键字进行语义扩展，形成语义扩展集，然后将每一个关键字的语义扩展集添加到Wm，形成语义集合Wy；(5)构建陷门：对Wy进行遍历，根据遍历的当前关键字是否存在KW中构建第一次查询向量QO和第二次查询向量QT，并采用安全KNN算法对QO和QT进行加密，得到陷门，并将加密数据上传至云服务器；(6)EQO和EQT二次排序匹配：利用EIO和EQO中存储的加密后的TF值和IDF值进行相关度分数Score的计算，得到结果集Result；根据第一次检索结果Result，用EQT和找到的文档向量进行二次相关度分数Score的计算和排序，得到EQTi和EITi的最终相关度分数Score，并返回给用户分数最高的前k个密文文档。2.根据权利要求1所述的基于密文的多关键字扩展检索方法，其特征在于，步骤(3)中，所述将用户输入的查询关键字组成的集合Wq与关键字集合KW匹配，得到处理后的模糊关键字集合Wm，包括：设用户输入的查询关键字个数为t，则查询关键字集可以表示为Wq＝{Wq1,Wq2,…,Wqt}，对其进行遍历，若wqi∈KW始终为真时，其中，1≤i≤t，表示用户输入的查询关键字无拼写错误，此时Wm＝Wq；若其中存在wqi∈KW为假，说明用户输入的该关键字不存在于关键字集合KW中，将关键字wqi与关键字集合KW中的每个关键字进行编辑距离ed的计算，若符合预设ed的阈值，则将关键字集合中KW中的该关键字添加到模糊关键字集合Wm中，遍历完成后，将所有符合条件的关键字添加模糊关键字集合中，获得最终的Wm。3.根据权利要求2所述的基于密文的多关键字扩展检索方法，其特征在于，步骤(3)中，所述模糊关键字集合Wm记为CM，公式表示为：4.根据权利要求2所述的基于密文的多关键字扩展检索方法，其特征在于，步骤(4)中，所述对每一个模糊关键字集合中的关键字进行语义扩展，形成语义扩展集，包括以下步骤：(41)定义两个关键字wi和wj，用sim(wi,...

【专利技术属性】
技术研发人员：许建，黄新宇，戴华，杨庚，陈燕俐，
申请(专利权)人：南京邮电大学，
类型：发明
国别省市：江苏,32

全部详细技术资料下载我是这个专利的主人