【技术实现步骤摘要】
基于文本语义的加密搜索方法及装置
[0001]本申请涉及计算机
,具体涉及一种基于文本语义的加密搜索方法及装置。
技术介绍
[0002]随着云计算时代的到来,数据所有者将其复杂的数据管理系统从本地站点外包到商业的公共云,以获得极大的灵活性并减少了经济开销。但为了保护数据隐私,在外包之前必须对敏感数据进行加密,这就淘汰了传统的基于明文的关键字搜索方法,转而需要针对加密云数据的搜索方法。考虑到云中的大量数据用户和文档,有必要在搜索请求中允许多个关键字,并按照与这些关键字的相关顺序返回文档。
[0003]为了保护数据隐私并打击云内外的非法访问,在将数据外包给商业公共云之前,数据所有者需要对敏感数据(例如电子邮件、个人健康记录、相册、税务文件、金融交易)等信息进行加密,然而这就淘汰了传统的基于明文的关键字搜索方法。云系统的带宽成本巨大,下载所有数据并在本地解密的方案是不切实际的,因此,在加密的云数据上探索隐私保护和有效的搜索服务至关重要。
[0004]传统的搜索方法在明文中查询,同时用户的查询也是以明文形式进行查询,这就存在着极大的安全隐患。未加密的信息可被恶意用户和不可信的第三方轻易获取,用户隐私面临着极大威胁。
技术实现思路
[0005]本申请实施例提供了一种基于文本语义的加密搜索方法及装置,能够
[0006]第一方面,本申请实施例提供了一种基于文本语义的加密搜索方法,包括:
[0007]根据查询关键字生成检索请求,并根据所述检索请求生成与安全索引兼容的陷门,所述安全 ...
【技术保护点】
【技术特征摘要】
1.一种基于文本语义的加密搜索方法,包括:根据查询关键字生成检索请求,并根据所述检索请求生成与安全索引兼容的陷门,所述安全索引根据安全索引信息得到,所述安全索引信息由数据拥有者对索引信息加密得到;将生成的所述陷门上传至区块链,以使智能合约根据所述陷门与所述安全索引进行匹配,得到检索结果;接收所述检索结果,所述检索结果包括按照文档标识符排序的文档信息,所述文档信息包括文档标识符、文档名密文和对称秘钥密文;发送目标文档对应的文档标识符,以使云服务器查找并返回对应的文档密文,所述目标文档根据所述检索结果确定。2.根据权利要求1所述的方法,其中,获得安全索引信息,包括:数据用户生成搜索密钥和安全KNN算法的密钥,同时为每个文档生成访问密钥;对原始文档进行语言分析处理,将每个文档中的词语进行统计,并计算每个词语在整个文件集合中的出现频率,然后,通过这些文档信息,建立安全索引,以便能够快速地查找文件;获得文档信息其中1≤i≤n,FN
i
表示第i个文档的文件名,w
ij
表示第i个文档中的第j个词语,表示在整个文件集合中,出现了词语w
ij
的文档数量,OF
i
表示第i个文档的偏移量,即该文档在整个文件集合中的位置;构建关键字词典和文档向量,所述关键字词典通过对各文档的关键字集合求并得到,根据所述关键字词典对每个文档构建M维的归一化文档向量FV
i
,M>m,其中1≤j≤m且对应位置的关键字w
j
在文档F
i
的关键字集合W
i
中向量为:其中1≤i≤n,FV
i
[j]是文档i中单词w
j
的频率向量的标准化形式,表示文档i中关键字w
j
的出现次数,W
i
表示文档i中所有单词的集合,该公式通过标准化单词频率向量,使得单词频率对查询结果的影响得以均衡化;对每个文档,加密文档索引信息中的敏感信息,得到安全的索引信息。3.根据权利要求2所述的方法,其特征在于,加密文档索引信息中的敏感信息,包括:采用对称加密算法ENC和对称密钥加密文档名;采用安全KNN算法的密钥加密文档向量;采用哈希运算消息认证码计算关键字词典中关键字的标签;数据所有者将加密后的关键字词典和所有文档的安全的索引信息上传给云服务器。4.根据权利要求3所述的方法,其特征在于,构建安全索引,包括:云服务器收到安全的索引信息之后给每个文档分配唯一的文档标识符;将文档的安全的索引信息中的内容写入正排索引表;根据加密后的关键字词典建立倒排索引表;将正排索引表和倒排索引表存入区块链;
根据正排索引表和倒排索引表记录文档总数和包含关键字的文档数量,计算词典中各关键字对应的逆文档频率,将所有逆文档频率按照词典序发送给数据所有者。5.根据权利要求4所述的方法,其特征在于,生成陷门包括:通过安全通道接收搜索密钥、安全KNN算法的密钥、有序词典以及所有关键字对应的逆文档频率;对查询语句进行语言分析处理,获得查询关键字集;根据本地存储的关键字词典和对应的逆文档频率值构建M维的归一化查询向量,其中对应...
【专利技术属性】
技术研发人员:刘雨微,曹如意,李宇航,曹玲娟,
申请(专利权)人:北京恒智数科科技有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。