一种云环境中密文数据的模糊多关键词检索方法技术

技术编号:14444600 阅读:131 留言:0更新日期:2017-01-15 09:23
本发明专利技术公开了一种云环境中密文数据的模糊多关键词检索方法,数据拥有者对文件集合加密生成密文文件,并对每个文件抽取关键词,对关键词二元分词及向量化得到二元向量组,将其降维后插入计数型布隆过滤器,生成索引向量,对每个索引向量加密得到安全索引,将密文文件及安全索引发送到云服务器;预先被授权的数据使用者或数据拥有者对查询数据抽取关键词,二元分词及向量化,生成查询向量,加密得到陷门,将其发送给云服务器;云服务器根据陷门和安全索引查询得到相关度最高的一定数量文件,排序后返回给数据使用者。本发明专利技术支持大数据量的密文模糊多关键词检索,相比现有方法,索引构建和查询过程更高效,排序结果更准确,且有效保护了数据隐私。

【技术实现步骤摘要】

本专利技术属于云计算和信息检索
,更具体地,涉及一种云环境中密文数据的模糊多关键词检索方法
技术介绍
云计算可以在互联网中为用户提供更加高效和廉价的计算、存储和应用等服务。越来越多的企业和个人愿意将数据存储到云服务器中,并在需要的时候可以重新取回数据。但用户将数据存储到云环境后就失去了对数据的直接控制,又可能导致用户隐私信息的泄露和滥用,如Google等云服务商都发生过数据泄露或丢失用户数据的现象。存储在云环境中的数据面临着更大的安全问题,它不仅要防止网络黑客对数据的非法获取,还要防止云服务商或外包数据库服务提供商的窥探敏感数据的行为。在云存储中,由于数据存储在半可信或不可靠的环境中,采用数据加密是保障数据安全的基本和有效的方法。但对数据加密的同时,也给数据的访问带来困难。由于云服务器是半可信的,数据的加密和解密只能在用户端完成,数据检索要消耗大量的时间用于数据传输和解密上。因此,研究高效、安全的密文存储与检索方法具有重要的现实意义。针对加密文件进行关键词搜索的密文检索技术首先由Song等人提出,该方案没有构建任何索引,需要对全部密文进行线性扫描,效率较为低下(文献1)。Song等人首次提出了对称可搜索加密方案,即在对称密码体制下的密文检索方案。该方案只考虑了单关键词的密文检索,效率较低。当用户希望检索关键词时,将关键词与密文数据线性地进行异或操作。将操作结果与校验条件相比较,如果符合校验条件,则将相应的密文数据发送给用户,如果不符合校验条件,则检索停止。Boneh等人提出了第一个非对称可搜索加密方案PEKS,解决了当密文存储于第三方非可信服务器时的关键词密文检索问题。该方案引入了双线性对这一密码学原理,用户每次上传文件时都需要对所有关键词使用对运算进行加密,效率仍然不高(文献2)。随后,Boneh等人引入了基于属性加密的概念,使用PEKS来建立带关键词检索的加密数据,从而用户可以使用更细的粒度来控制公钥加密的强度(文献3)。然而,上述方案并未提及关键词与文件的相似度,用户得到的文件与其查询的关键词可能并不匹配。对此,Wang等人考虑关键词词频的信息,提出了单关键词的密文检索方案。然而,该方案对关键词与文件相似度计算的考虑并不全面,需要扫描全部文件,同时索引的更新较为麻烦(文献4)。在现实的应用中,精确关键词的查询不足以满足用户的检索需求。Li等人提出了模糊关键词的密文检索方案,该方案给出了每个关键词可能的拼写错误,使用编辑距离作为度量。该方案初步实现了模糊关键词的密文检索,但不支持多关键词操作,需要预先定义词典,空间开销大,查询效率低(文献5)。Wang等人提出了模糊多关键词的密文检索方案,该方案使用局部敏感哈希和布隆过滤器方法进行操作,不需要预先定义的词典,查询效率高,返回的结果准确,但随着数据量的增大,空间开销逐渐变大(文献6)。综上所述,目前并没有一种能在云环境中实现安全高效的支持模糊多关键词的密文检索方法,已有相关方案存在不支持模糊查询或多关键词查询,查询效率较低,空间开销较大等问题。文献1:SongDX,WagnerD,PerrigA.Practicaltechniquesforsearchesonencrypteddata.ProceedingsofIEEESymposiumonSecurity&Privacy,IEEEComputerSociety,Washington,DC,USA,2000.44-55。文献2:BonehD,CrescenzoGD,OstrovskyR,etal.Publickeyencryptionwithkeywordsearch.ProceedingsofEUROCRYPT’04,Springer-Verlag,Berlin,Heidelberg,Gemany,2004.506-522。文献3:BonehD,WatersB.Conjunctive,subset,andrangequeriesonencrypteddata.ProceedingsofTheoryofCryptographyConference,Springer-Verlag,Berlin,Heidelberg,Gemany,2007.535-554。文献4:WangC,CaoN,LiJ,etal.Securerankedkeywordsearchoverencryptedclouddata.ProceedingsofIEEE30thInternationalConferenceonDistributedComputingSystems(ICDCS),IEEEComputerSociety,Washington,DC,USA,2010.253-262。文献5:LiJ,WangQ,WangC,etal.Fuzzykeywordsearchoverencrypteddataincloudcomputing.ProceedingsofIEEE29thInternationalConferenceonComputerCommunications(INFOCOM),IEEEComputerSociety,Washington,DC,USA,2010.441-445。文献6:WangB,YuS,LouW,etal.Privacy-preservingmulti-keywordfuzzysearchoverencrypteddatainthecloud.ProceedingsofIEEE33rdInternationalConferenceonComputerCommunications(INFOCOM),IEEEComputerSociety,Washington,DC,USA,2014.2112-2120。
技术实现思路
针对现有技术的以上缺陷或改进需求,本专利技术提供了一种云环境中大数据量下的密文数据的模糊多关键词检索方法。本专利技术所采用的技术方案是:一种云环境中密文数据的模糊多关键词检索方法,其特征在于,包括以下步骤:步骤1:初始化;数据拥有者使用随机安全参数生成一个安全密钥;步骤2:生成索引;数据拥有者根据自身需求制定文件集合,对集合中每个文件抽取关键词生成关键词集合,对每个关键词进行二元分词和向量化,得到二元向量组,并为每个文件构建计数型布隆过滤器作为文件的索引,使用MinHash算法对二元向量组降维并插入布隆过滤器,生成每个文件的索引向量;步骤3:文件加密;数据拥有者使用AES或DES算法对文件集合进行加密,生成密文文件,并将其上传至云服务器;步骤4:生成安全索引;数据拥有者使用步骤1中生成的安全密钥对步骤2中文件的索引向量进行加密,生成安全索引,并将其上传至云服务器;步骤5:生成陷门;如果数据使用者为未授权用户,则要将查询的数据发送给数据拥有者,数据拥有者对查询数据抽取关键词,对关键词二元分词和向量化,得到二元向量组,将其插入计数型布隆过滤器,生成查询向量,并根据步骤1中生成的安全密钥对查询向量进行加密,生成陷门返回给数据使用者;如果数据使用者为授权用户,则直接使用步骤1中生成的安全密钥生成陷门;步骤6:查询;数据使用者将陷门发送到云服务器,云服务器根据陷门和安全索引为用户的请本文档来自技高网
...
一种云环境中密文数据的模糊多关键词检索方法

【技术保护点】
一种云环境中密文数据的模糊多关键词检索方法,其特征在于,包括以下步骤:步骤1:初始化;数据拥有者生成一个安全密钥;步骤2:生成索引;数据拥有者根据自身需求制定文件集合,对集合中每个文件抽取关键词生成关键词集合,对每个关键词进行二元分词和向量化,得到二元向量组,并为每个文件构建计数型布隆过滤器作为文件的索引,对二元向量组降维并插入布隆过滤器,生成每个文件的索引向量;步骤3:文件加密;数据拥有者对文件集合进行加密,生成密文文件,并将其上传至云服务器;步骤4:生成安全索引;数据拥有者使用步骤1中生成的安全密钥对步骤2中文件的索引向量进行加密,生成安全索引,并将其上传至云服务器;步骤5:生成陷门;如果数据使用者为未授权用户,则要将查询的数据发送给数据拥有者,数据拥有者对查询数据抽取关键词,对关键词二元分词和向量化,得到二元向量组,将其插入计数型布隆过滤器,生成查询向量,并根据步骤1中生成的安全密钥对查询向量进行加密,生成陷门返回给数据使用者;如果数据使用者为授权用户,则直接使用步骤1中生成的安全密钥生成陷门;步骤6:查询;数据使用者将陷门发送到云服务器,云服务器根据陷门和安全索引为用户的请求进行查询,将前k个得分最高的结果返回给数据使用者,k ≥ 1。...

【技术特征摘要】
1.一种云环境中密文数据的模糊多关键词检索方法,其特征在于,包括以下步骤:步骤1:初始化;数据拥有者生成一个安全密钥;步骤2:生成索引;数据拥有者根据自身需求制定文件集合,对集合中每个文件抽取关键词生成关键词集合,对每个关键词进行二元分词和向量化,得到二元向量组,并为每个文件构建计数型布隆过滤器作为文件的索引,对二元向量组降维并插入布隆过滤器,生成每个文件的索引向量;步骤3:文件加密;数据拥有者对文件集合进行加密,生成密文文件,并将其上传至云服务器;步骤4:生成安全索引;数据拥有者使用步骤1中生成的安全密钥对步骤2中文件的索引向量进行加密,生成安全索引,并将其上传至云服务器;步骤5:生成陷门;如果数据使用者为未授权用户,则要将查询的数据发送给数据拥有者,数据拥有者对查询数据抽取关键词,对关键词二元分词和向量化,得到二元向量组,将其插入计数型布隆过滤器,生成查询向量,并根据步骤1中生成的安全密钥对查询向量进行加密,生成陷门返回给数据使用者;如果数据使用者为授权用户,则直接使用步骤1中生成的安全密钥生成陷门;步骤6:查询;数据使用者将陷门发送到云服务器,云服务器根据陷门和安全索引为用户的请求进行查询,将前k个得分最高的结果返回给数据使用者,k≥1。2.根据权利要求1所述的云环境中密文数据的模糊多关键词检索方法,其特征在于,步骤1的具体实现包括以下子步骤:步骤1.1:数据拥有者生成一个随机安全参数;步骤1.2:根据生成的安全参数生成两个可逆矩阵,作为密钥矩阵;步骤1.3:生成安全密钥。3.根据权利要求1所述的云环境中密文数据的模糊多关键词检索方法,其特征在于,步骤2的具体实现包括以下子步骤:步骤2.1:数据拥有者根据自身需求制定文件集合;步骤2.2:数据拥有者对文件集合中的每个文件进行语法分析和词法分析,抽取关键词,得到关键词的集合;步骤2.3:数据拥有者对每个关键词进行二元分词;步骤2.4:数据拥有者将关键词的二元分词进行向量化,得到二元向量组;步骤2.5:数据拥有者为文件构建一个计数型布隆过滤器作为文件的索引;步骤2.6:数据拥有者使用MinHash算法对每个文件对应的二元向量组进行降维,以Jaccard距离为相似度度量,将相似度在预设范围内的二元向量组哈希到计数型布隆过滤器的同一个地址序列中并计数,得到的布隆过滤器的值即为每个文件的索引向量。4.根据权利要求1所述的云环境中密文数据的模糊多关键词检索方法,其特征在于,步骤3的具体实现包括以下子步骤:步骤3.1:数据拥有者使用AES或DES算法对文件集合进行加密,生成密文文件;步骤3.2:数据拥有者将密文文件上传至云服务器。5.根据权利要求1所述的云环境中密文数据的模糊多关键词检索方法,其特征在...

【专利技术属性】
技术研发人员:何亨夏薇王振宇张继金瑜李鹏
申请(专利权)人:武汉科技大学
类型:发明
国别省市:湖北;42

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1