当前位置: 首页 > 专利查询>福州大学专利>正文

基于局部敏感哈希的中文多关键词模糊排序密文搜索方法技术

技术编号:16327340 阅读:147 留言:0更新日期:2017-09-29 19:09
本发明专利技术涉及一种基于局部敏感哈希的中文多关键词模糊排序密文搜索方法,将中文关键词转换成对应的拼音串后,基于声韵母和音调、unigram对拼音串分割;设计了三种中文关键词向量生成算法,将拼音串映射成关键词向量。并且,利用局部敏感哈希的特性和布隆过滤器来实现关键词的模糊匹配。本发明专利技术采用一篇文档对应一个布隆过滤器作为文档的加密索引,当加入新文档(或删除旧文档)时,无需更改原数据集的加密索引,只需构建新文档的加密索引(或删除旧文档的加密索引),就可实现文档的动态更新。为了提高排序结果的精确性,本发明专利技术引入了域加权评分,将关键词向量间的欧氏距离、词频权重和域加权评分结合,实现更为精确的三因子排序,返回更加满足用户需求的文档。

【技术实现步骤摘要】
基于局部敏感哈希的中文多关键词模糊排序密文搜索方法
本专利技术涉及一种基于局部敏感哈希的中文多关键词模糊排序密文搜索方法
技术介绍
随着云计算技术的飞速发展,敏感数据越来越多的存储到云中,如电子邮件、个人健康记录、私人视频和照片、公司财务数据和政府文件等。云服务器提供了高质量的数据存储服务,将数据存储到云中,可以减少用户的数据存储和维护开销。但是数据拥有者和云服务器不在同一个信任域中会使外包数据处于危险之中,为了保护用户的隐私安全,将数据加密后再存储到云服务器是一种常见的解决方法。然而数据经过加密后不再具有原有的特性,当用户需要某些数据时,无法直接在密文中分辨出所需要的数据,在数据量很小的情况下,可以将所有的密文数据下载至本地,解密后在明文中搜索自己想要的数据。然而随着云端数据规模的急剧增长,这种浪费了大量时间开销与带宽功耗的做法显然已经不能满足用户的实际需求,因此,如何在大量密文中搜索到需要的文档成为了一个难题。Song等率先开始进行可搜索加密技术的研究,为解决密文检索的问题提供了思路。Chang等为每篇文档创建索引,搜索时只需对加密的文档索引进行搜索,提高了搜索效率。Wang等提本文档来自技高网...
基于局部敏感哈希的中文多关键词模糊排序密文搜索方法

【技术保护点】
一种基于局部敏感哈希的中文多关键词模糊排序密文搜索方法,其特征在于,提供一数据拥有单元、一授权用户单元以及一云服务器,按照如下步骤实现:步骤S1:初始化,所述数据拥有单元从明文文档集合F=(f1,f2,…,fm)中抽取关键词,得到关键词集合W=(w1,w2,…,wn);步骤S2:生成密钥,所述数据拥有单元输入一预设安全参数λ,产生一个向量S,S∈{0,1}

【技术特征摘要】
1.一种基于局部敏感哈希的中文多关键词模糊排序密文搜索方法,其特征在于,提供一数据拥有单元、一授权用户单元以及一云服务器,按照如下步骤实现:步骤S1:初始化,所述数据拥有单元从明文文档集合F=(f1,f2,…,fm)中抽取关键词,得到关键词集合W=(w1,w2,…,wn);步骤S2:生成密钥,所述数据拥有单元输入一预设安全参数λ,产生一个向量S,S∈{0,1}λ,以及两个λ×λ维的可逆矩阵{M1,M2},密钥SK由三元组{S,M1,M2}组成,所述数据拥有单元生成一加密文档的密钥sk;步骤S3:建立索引,所述数据拥有单元从一LSH哈希族中选取l个独立的LSH函数,为每篇文档fi构建一个λ比特的布隆过滤器,作为文档fi的索引Ii;步骤S4:索引加密,采用安全KNN算法加密索引Ii,得到加密后的索引所述数据拥有单元将加密的索引集合上传到所述云服务器;步骤S5:文档加密,所述数据拥有单元通过对称加密算法对所述文档集合F=(f1,f2,…,fm)进行加密,得到密文集合C=(c1,c2,…,cm),并上传给所述云服务器;步骤S6:生成陷门,当授权用户搜索时,通过所述授权用户单元输入η个搜索关键词Q=(q1,q2,…,qη),并为查询关键词集合Q构建一个λ比特的布隆过滤器作为陷门TQ;步骤S7:陷门加密,采用安全KNN算法对陷门TQ加密,得到加密后的陷门所述授权用户单元将加密后的陷门EncSK(TQ)上传到所述云服务器;步骤S8:所述云服务器根据加密的索引EncSK(Ii)和加密的陷门EncSK(TQ),计算文档的相似度分数,将所有分数排序后,返回前k篇文档给用户;步骤S9:所述授权用户单元通过使用所述数据拥有单元分发的密钥sk,对返回的top-k篇密文进行解密,获得所需的明文文档集。2.根据权利要求1所述的基于局部敏感哈希的中文多关键词模糊排序密文搜索方法,其特征在于,在所述步骤S3中,还包括如下步骤:步骤S31:采用中文关键词向量生成算法为文档fi中的每个关键词wj生成对应的关键词向量则文档fi的关键词向量集合为步骤S32:通过hσ∈H,对每一个关键词向量进行哈希操作,并插入到布隆过滤器Ii中,其中,1≤σ≤l。3.根据权利要求1所述的基于局部敏感哈希的中文多关键词模糊排序密文搜索方法,其特征在于,在所述步骤S3中,还包括如下步骤:步骤S31:采用tf的亚线性尺度变换方法,计算词频权重wft,f:步骤S32:计算关键词wj在文档fi中的域加权得分Zij,记每篇文档fi有3个域,分别为标题、摘要和正文,其对应的权重系数分别为g1,g2,g3,满足下式且g1>g2>g3:其中,令υi为查询关键词在文档的第i个域的匹配得分,υi=1表示匹配,υi=0表示未匹配,根据下计算关键词wj的域加权得分:步骤S33:构建索引,从一LSH哈希族中选取l个独立的LSH函数,为每篇文档fi构建一个λ比特的布隆过滤器,作为fi的索引Ii。4.根据权利要求3所述的基于局部敏感哈希的中文多关键词模糊排序密文搜索方法,其特征在于,在所述步骤S33中,还包括如下步骤:步骤S331:采用中文关键词向量生成算法为文档fi中的每个关键词wj生成对应的关键词向量则文档fi的关键词向量集合为步骤S332:利用hσ∈H将每一个关键词向量进行哈希操作,将哈希值插入到布隆过滤器时,把所有的...

【专利技术属性】
技术研发人员:杨旸刘佳郭文忠叶少珍董晨
申请(专利权)人:福州大学
类型:发明
国别省市:福建,35

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1