云环境加密外包数据语义扩展搜索方法及系统技术方案

技术编号:18972452 阅读:22 留言:0更新日期:2018-09-19 03:39
本发明专利技术公开了一种云环境加密外包数据语义扩展搜索方法,包含:数据拥有者发送密文文档集合和安全索引集合给公有云服务器,将文档标记向量集合发送给私有云服务器,将密钥发送给授权用户;授权用户将查询标记向量发送给私有云服务器,将陷门发送给公有云服务器完成搜索请求;私有云服务器将文档标记向量和查询标记向量进行匹配,得到满足用户查询需求的候选索引标识符集合,并将候选索引标识符集合发送给公有云服务器;公有云服务器通过收到的候选索引标识符集合和陷门找到对应的安全索引集合,并计算文档的相似度分数并排序,返回满足条件的密文文档给授权用户。其优点是:保护了用户隐私的同时,降低了用户的开销。

Cloud environment encrypt outsourced data semantic extension search method and system

The invention discloses a cloud environment encryption outsourcing data semantic extension search method, including: data owner sends ciphertext document set and security index set to public cloud server, sends document marker vector set to private cloud server, sends key to authorized user, authorized user sends query marker vector The private cloud server matches the document tag vectors with the query tag vectors to get a set of candidate index identifiers satisfying the user's query requirements, and sends the set of candidate index identifiers to the public cloud server; the public cloud service The server finds the corresponding secure index set through the received candidate index identifier set and trapdoor, calculates the document similarity score and sorts, returns the ciphertext document satisfying the conditions to the authorized user. Its advantages are: protecting user privacy while reducing user costs.

【技术实现步骤摘要】
云环境加密外包数据语义扩展搜索方法及系统
本专利技术涉及云计算安全
,具体涉及一种云环境加密外包数据语义扩展搜索方法及系统。
技术介绍
目前,伴随着云计算技术的飞速发展,云计算已经成为了一个新的产业结构。越来越多的人选择将一些敏感数据外包给云,开始享受其灵活性和高质量的数据存储服务,而且将数据上传到云端,会减少用户的数据存储和维护带来的开销。但是,云环境下的数据安全问题引起大量关注,为保护数据安全,将数据加密再上传到云端是一种常见方法。数据加密使得数据不再具有原有属性,这使得传统的检索机制失效。随着数据量的增加,如何高效地在大量密文中搜索到所需要的文档已经成为重要的挑战。可搜索加密技术主要解决在云服务器不完全可信的情况下,支持用户在密文上进行搜索。现有的基于关键词的搜索技术只能返回包含确切查询关键字的文件,并且无法找到包含相关关键词的文件。虽然一些机制如语义或者扩展搜索已经被设计来解决这个问题,但是它们一般都会在客户端进行额外的计算,会带来额外的开销。如果用户查询与索引术语相关的术语语义,则有可能只有少数匹配的结果或者没有结果被返回。因此,用户必须执行更多的查询操作才能获得所需的文件。为了解决这个问题,可以在提交搜索请求之前按照一定的规则扩展查询词,但随着查询关键词的增加,查询扩展会变得越来越复杂,导致更高的计算开销。现有的多关键词排序搜索通常没有考虑关键词位置信息。关键词出现在标题和正文并没有区分,把所有文档是做一个域,创建的索引不能准确反映关键词在文章中的权重,导致搜索结果不准确。我们使用了域加权评分,将其引入到文档评分当中,对标题,摘要等不同域中的关键词赋予不同的权重加以区分。其次,对筛选出来的中心关键词进行语义扩展,计算语义相似度,将语义相似度、域加权评分和相关度分数三者结合,构造出更加准确的文档索引。目前的多关键词的排序方案大多采用经典的MRSE(multi-keywordrankedsearchoverencryptedclouddata)算法,MRSE方案中创建的文档向量的维度通常很大,所以构建得索引所需的时间花费主要都在文档向量和矩阵相乘上。
技术实现思路
本专利技术的目的在于提供一种云环境加密外包数据语义扩展搜索方法及系统,通过基于中心关键字的云环境加密外包数据语义扩展搜索,实现了关键字的语义扩展搜索,保护了用户隐私的同时,降低了用户的开销。为了达到上述目的,本专利技术通过以下技术方案实现:一种云环境加密外包数据语义扩展搜索方法,其特征是,包含以下步骤:S1、数据拥有者从明文文档集合中抽取关键词,得到关键词集合,且生成密钥SK,根据关键词集合和密钥SK构建出安全索引集合和文档标记向量集合;S2、数据拥有者将明文文档集合中的每篇文档分别加密成密文文档,生成密文文档的公钥和私钥sk,并将得到的密文文档集合和安全索引集合上传到公有云服务器,将文档标记向量集合发送到私有云服务器;S3、授权用户输入查询需求时,利用斯坦福解析器来判断分析语法关系和语法结构,得到初始查询关键词并计算其权重;S4、根据权重大小对初始查询关键词进行排序得到初始查询关键词集,对初始查询关键词集进行语义扩展,得到中心语义扩展集;S5、授权用户使用数据拥有者给的密钥SK,根据中心语义扩展集构造相应的陷门和查询标记向量集合,并将陷门提交给公有云服务器,将查询标记向量集合发送给私有云服务器,以完成搜索请求;S6、私有云服务器接收到授权用户发送的查询标记向量集合,将查询标记向量和文档标记向量进行匹配,得到满足授权用户查询需求的候选索引标识符集合;S7、私有云服务器将候选索引标识符集合上传到公有云服务器,公有云服务器根据候选索引标识符集合和陷门找到对应的安全索引集合,根据对应的安全索引集合和陷门计算文档的相似度并排序,返回满足的前k篇密文文档给授权用户;S8、授权用户使用数据拥有者给的私钥sk对返回的密文文档进行解密,得到明文文档。上述的云环境加密外包数据语义扩展搜索方法,其中,所述的步骤S1具体包含:S11、数据拥有者从明文文档集合F={f1,f2,…,fn}中抽取关键词,得到关键词集合W={w1,w2,…,wm};S12、根据关键词集合W={w1,w2,…,wm},数据拥有者随机产生一个(n+2)比特的指示向量S和2h个维度为((n+2)/h)×((n+2)/h)的可逆矩阵{M11,M12,…,M1h,M21,M22,…,M2h},其中M11,M12,…,M1h,M21,M22,…,M2h皆为((n+2)/h)×((n+2)/h)维度的可逆矩阵,h是一个正整数并且满足h|(n+2),生成密钥SK={S,M11,M12,…,M1h,M21,M22,…,M2h,u,h},u是一个正整数且u|n;S13、基于向量空间模型,数据拥有者为每篇文档fi生成一个文档向量Di,如果文档fi中包含关键词wj,则Di[j]=1,如果文档fi中不包含关键词wj,则Di[j]=0,其中wj来源于数据拥有者上传的文档所抽取的关键词集合W={w1,w2,…,wm},j=(1,2…m);S14、将文档向量Di均分成u块,如果某个块全为0,则标记值bbs=0,否则bbs=1,其中(s=1,2,…,u),得到bi={bb1,bb2,…,bbu},进而得到文档标记向量ei={bi,sidi}以得到文档标记向量集合E=(e1,e2,…,em);S15、将Di[j]中1的值设置为(Zij·(wft,f×idft)),其中Zij是域加权评分,wf-idf=wft,f×idft;tft,f是词项频率,表示关键词t在文档中出现的次数,idft是逆文档频率,表示关键词t在文档集合中的罕见程度,定义表示为N表示所有文档的篇数,dft为包含关键词t的文档篇数,然后,对文档向量Di进行维度扩展,第(n+1)位设置为一个随机数ε,第(n+2)位设置成1,则Di表示为(Di,ε,1),根据指示向量S将文档向量Di分裂成Di'和Di",将Di'和Di"分别分成h段,得到Di'=(Di1',Di2',…,Dih'),Di"=(Di1",Di2",…,Dih"),之后使用密钥SK={S,M11,M12,…,M1h,M21,M22,…,M2h,u,h}进行加密,得到和对应的安全索引Ii=(sidi,Vi),以得到安全索引集合I=(I1,I2,…,Im)。上述的云环境加密外包数据语义扩展搜索方法,其中,所述的步骤S2具体包含:S21、数据拥有者将明文文档集合F={f1,f2,…,fn}利用对称加密成密文文档集合C={c1,c2,…,cn};S22、使用基于FeistelCipher的对称加密新算法,数据拥有者生成每个授权用户都能识别的公钥,以及只有数据拥有者才能识别的私钥sk,用于后续解密加密文档;S23、将得到的密文文档集合C={c1,c2,…,cn}和安全索引集合I=(I1,I2,…,Im)上传到公有云服务器;S24、将文档标记向量集合E=(e1,e2,…,em)发送到私有云服务器。如权利要求3所述的云环境加密外包数据语义扩展搜索方法,其特征在于,所述的步骤S3具体包含:S31、用户输入查询需求,利用斯坦福分析器分析判断语法关系和语法结构,得到语法树结构和初始关键字;S32、判断初始查本文档来自技高网
...

【技术保护点】
1.一种云环境加密外包数据语义扩展搜索方法,其特征在于,包含以下步骤:S1、数据拥有者从明文文档集合中抽取关键词,得到关键词集合,且生成密钥SK,根据关键词集合和密钥SK构建出安全索引集合和文档标记向量集合;S2、数据拥有者将明文文档集合中的每篇文档分别加密成密文文档,生成密文文档的公钥和私钥sk,并将得到的密文文档集合和安全索引集合上传到公有云服务器,将文档标记向量集合发送到私有云服务器;S3、授权用户输入查询需求时,利用斯坦福解析器来判断分析语法关系和语法结构,得到初始查询关键词并计算其权重;S4、根据权重大小对初始查询关键词进行排序得到初始查询关键词集,对初始查询关键词集进行语义扩展,得到中心语义扩展集;S5、授权用户使用数据拥有者给的密钥SK,根据中心语义扩展集构造相应的陷门和查询标记向量集合,并将陷门提交给公有云服务器,将查询标记向量集合发送给私有云服务器,以完成搜索请求;S6、私有云服务器接收到授权用户发送的查询标记向量集合,将查询标记向量和文档标记向量进行匹配,得到满足授权用户查询需求的候选索引标识符集合;S7、私有云服务器将候选索引标识符集合上传到公有云服务器,公有云服务器根据候选索引标识符集合和陷门找到对应的安全索引集合,根据对应的安全索引集合和陷门计算文档的相似度并排序,返回满足的前k篇密文文档给授权用户;S8、授权用户使用数据拥有者给的私钥sk对返回的密文文档进行解密,得到明文文档。...

【技术特征摘要】
1.一种云环境加密外包数据语义扩展搜索方法,其特征在于,包含以下步骤:S1、数据拥有者从明文文档集合中抽取关键词,得到关键词集合,且生成密钥SK,根据关键词集合和密钥SK构建出安全索引集合和文档标记向量集合;S2、数据拥有者将明文文档集合中的每篇文档分别加密成密文文档,生成密文文档的公钥和私钥sk,并将得到的密文文档集合和安全索引集合上传到公有云服务器,将文档标记向量集合发送到私有云服务器;S3、授权用户输入查询需求时,利用斯坦福解析器来判断分析语法关系和语法结构,得到初始查询关键词并计算其权重;S4、根据权重大小对初始查询关键词进行排序得到初始查询关键词集,对初始查询关键词集进行语义扩展,得到中心语义扩展集;S5、授权用户使用数据拥有者给的密钥SK,根据中心语义扩展集构造相应的陷门和查询标记向量集合,并将陷门提交给公有云服务器,将查询标记向量集合发送给私有云服务器,以完成搜索请求;S6、私有云服务器接收到授权用户发送的查询标记向量集合,将查询标记向量和文档标记向量进行匹配,得到满足授权用户查询需求的候选索引标识符集合;S7、私有云服务器将候选索引标识符集合上传到公有云服务器,公有云服务器根据候选索引标识符集合和陷门找到对应的安全索引集合,根据对应的安全索引集合和陷门计算文档的相似度并排序,返回满足的前k篇密文文档给授权用户;S8、授权用户使用数据拥有者给的私钥sk对返回的密文文档进行解密,得到明文文档。2.如权利要求1所述的云环境加密外包数据语义扩展搜索方法,其特征在于,所述的步骤S1具体包含:S11、数据拥有者从明文文档集合F={f1,f2,…,fn}中抽取关键词,得到关键词集合W={w1,w2,…,wm};S12、根据关键词集合W={w1,w2,…,wm},数据拥有者随机产生一个(n+2)比特的指示向量S和2h个维度为((n+2)/h)×((n+2)/h)的可逆矩阵{M11,M12,…,M1h,M21,M22,…,M2h},其中M11,M12,…,M1h,M21,M22,…,M2h皆为((n+2)/h)×((n+2)/h)维度的可逆矩阵,h是一个正整数并且满足h|(n+2),生成密钥SK={S,M11,M12,…,M1h,M21,M22,…,M2h,u,h},u是一个正整数且u|n;S13、基于向量空间模型,数据拥有者为每篇文档fi生成一个文档向量Di,如果文档fi中包含关键词wj,则Di[j]=1,如果文档fi中不包含关键词wj,则Di[j]=0,其中wj来源于数据拥有者上传的文档所抽取的关键词集合W={w1,w2,…,wm},j=(1,2…m);S14、将文档向量Di均分成u块,如果某个块全为0,则标记值bbs=0,否则bbs=1,其中(s=1,2,…,u),得到bi={bb1,bb2,…,bbu},进而得到文档标记向量ei={bi,sidi}以得到文档标记向量集合E=(e1,e2,…,em);S15、将Di[j]中1的值设置为(Zij·(wft,f×idft)),其中Zij是域加权评分,wf-idf=wft,f×idft;tft,f是词项频率,表示关键词t在文档中出现的次数,idft是逆文档频率,表示关键词t在文档集合中的罕见程度,定义表示为N表示所有文档的篇数,dft为包含关键词t的文档篇数,然后,对文档向量Di进行维度扩展,第(n+1)位设置为一个随机数ε,第(n+2)位设置成1,则Di表示为(Di,ε,1),根据指示向量S将文档向量Di分裂成D′i和D″i,将D′i和D″i分别分成h段,得到Di'=(Di1',Di2',…,Dih'),Di"=(Di1",Di2",…,Dih"),之后使用密钥SK={S,M11,M12,…,M1h,M21,M22,…,M2h,u,h}进行加密,得到和对应的安全索引Ii=(sidi,Vi),以得到安全索引集合I=(I1,I2,…,Im)。3.如权利要求2所述的云环境加密外包数据语义扩展搜索方法,其特征在于,所述的步骤S2具体包含:S21、数据拥有者将明文文档集合F={f1,f2,…,fn}利用对称加密成密文文档集合C={c1,c2,…,cn};S22、使用基于FeistelCipher的对称加密新算法,数据拥有者生成每个授权用户都能识别的公钥,以及只有数据拥有者才能识别的私钥sk,用于后续解密加密文档;S23、将得到的密文文档集合C={c1,c2,…,cn}和安全索引集合I=(I1,I2,…,Im)上传到公有云服务器;S24、将文档标记向量集合E=(e1,e2,…,em)发送到私有云服务器。4.如权利要求3所述的云环境加密外包数据语义扩展搜索方法,其特征在于,所述的步骤S3具体包含:S31、用户输入查询需求,利用斯坦福分析器分析判断语法关系和语法结构,得到语法树结构和初始关键字;S32、...

【专利技术属性】
技术研发人员:俞云萍韩德志王军毕坤
申请(专利权)人:上海海事大学
类型:发明
国别省市:上海,31

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1