基于文本语义的加密搜索方法及装置制造方法及图纸

技术编号:38812457 阅读:11 留言:0更新日期:2023-09-15 19:51
本申请实施例公开了一种基于文本语义的加密搜索方法及装置,所述方法包括:根据查询关键字生成检索请求,并根据所述检索请求生成与安全索引兼容的陷门,所述安全索引根据安全索引信息得到,所述安全索引信息由数据拥有者对索引信息加密得到;将生成的所述陷门上传至区块链,以使智能合约根据所述陷门与所述安全索引进行匹配,得到检索结果;接收所述检索结果,所述检索结果包括按照文档标识符排序的文档信息,所述文档信息包括文档标识符、文档名密文和对称秘钥密文;发送目标文档对应的文档标识符,以使云服务器查找并返回对应的文档密文,所述目标文档根据所述检索结果确定。所述目标文档根据所述检索结果确定。所述目标文档根据所述检索结果确定。

【技术实现步骤摘要】
基于文本语义的加密搜索方法及装置


[0001]本申请涉及计算机
,具体涉及一种基于文本语义的加密搜索方法及装置。

技术介绍

[0002]随着云计算时代的到来,数据所有者将其复杂的数据管理系统从本地站点外包到商业的公共云,以获得极大的灵活性并减少了经济开销。但为了保护数据隐私,在外包之前必须对敏感数据进行加密,这就淘汰了传统的基于明文的关键字搜索方法,转而需要针对加密云数据的搜索方法。考虑到云中的大量数据用户和文档,有必要在搜索请求中允许多个关键字,并按照与这些关键字的相关顺序返回文档。
[0003]为了保护数据隐私并打击云内外的非法访问,在将数据外包给商业公共云之前,数据所有者需要对敏感数据(例如电子邮件、个人健康记录、相册、税务文件、金融交易)等信息进行加密,然而这就淘汰了传统的基于明文的关键字搜索方法。云系统的带宽成本巨大,下载所有数据并在本地解密的方案是不切实际的,因此,在加密的云数据上探索隐私保护和有效的搜索服务至关重要。
[0004]传统的搜索方法在明文中查询,同时用户的查询也是以明文形式进行查询,这就存在着极大的安全隐患。未加密的信息可被恶意用户和不可信的第三方轻易获取,用户隐私面临着极大威胁。

技术实现思路

[0005]本申请实施例提供了一种基于文本语义的加密搜索方法及装置,能够
[0006]第一方面,本申请实施例提供了一种基于文本语义的加密搜索方法,包括:
[0007]根据查询关键字生成检索请求,并根据所述检索请求生成与安全索引兼容的陷门,所述安全索引根据安全索引信息得到,所述安全索引信息由数据拥有者对索引信息加密得到;
[0008]将生成的所述陷门上传至区块链,以使智能合约根据所述陷门与所述安全索引进行匹配,得到检索结果;
[0009]接收所述检索结果,所述检索结果包括按照文档标识符排序的文档信息,所述文档信息包括文档标识符、文档名密文和对称秘钥密文;
[0010]发送目标文档对应的文档标识符,以使云服务器查找并返回对应的文档密文,所述目标文档根据所述检索结果确定。
[0011]第二方面,本申请实施例提供了一种基于文本语义的加密搜索装置,包括:
[0012]生成模块,用于根据查询关键字生成检索请求,并根据所述检索请求生成与安全索引兼容的陷门,所述安全索引根据安全索引信息得到,所述安全索引信息由数据拥有者对索引信息加密得到;
[0013]收发模块,用于将生成的所述陷门上传至区块链,以使智能合约根据所述陷门与
所述安全索引进行匹配,得到检索结果;接收所述检索结果,所述检索结果包括按照文档标识符排序的文档信息,所述文档信息包括文档标识符、文档名密文和对称秘钥密文;发送目标文档对应的文档标识符,以使云服务器查找并返回对应的文档密文,所述目标文档根据所述检索结果确定。
[0014]第三方面,本申请实施例提供了一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现上述任一项所述的方法。
[0015]第四方面,本申请实施例提供了一种电子设备,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现上述任一项所述的方法。
附图说明
[0016]为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
[0017]图1示出本申请实施例的基于文本语义的加密搜索方法的流程示意图;
[0018]图2示出本申请实施例的基于文本语义的加密搜索方法生成的正排索引的逻辑示意图;
[0019]图3示出本申请实施例的基于文本语义的加密搜索方法生成的倒排索引的逻辑示意图;
[0020]图4示出本申请实施例的基于文本语义的加密搜索装置的结构示意图;
[0021]图5示出本申请实施例提供的一种电子设备的结构示意图。
具体实施方式
[0022]为了使本
的人员更好地理解本申请方案,下面将对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
[0023]本申请的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别不同对象,而不是用于描述特定顺序。此外,术语“包括

和“具有

以及它们任何变形,意图在于覆盖不排他的包含。例如包含一系列步骤或单元的过程、方法、系统、产品或设备没有限定于已列出的步骤或单元,而是可选地还包括没有列出的步骤或单元,或可选地还包括对于这些过程、方法、产品或设备固有的其他步骤或单元。
[0024]在本文中提及“实施例

意味着,结合实施例描述的特定特征、结构或特性可以包含在本申请的至少一个实施例中。在说明书中的各个位置出现该短语并不一定均是指相同的实施例,也不是与其它实施例互斥的独立的或备选的实施例。本领域技术人员显式地和隐式地理解的是,本文所描述的实施例可以与其它实施例相结合。
[0025]参见图1,本申请实施例提供了一种基于文本语义的加密搜索方法,包括:
[0026]根据查询关键字生成检索请求,并根据检索请求生成与安全索引兼容的陷门,安
全索引根据安全索引信息得到,安全索引信息由数据拥有者对索引信息加密得到;
[0027]将生成的陷门上传至区块链,以使智能合约根据陷门与安全索引进行匹配,得到检索结果;
[0028]接收检索结果,检索结果包括按照文档标识符排序的文档信息,文档信息包括文档标识符、文档名密文和对称秘钥密文;
[0029]发送目标文档对应的文档标识符,以使云服务器查找并返回对应的文档密文,目标文档根据检索结果确定。
[0030]本申请实施例中,根据查询关键字生成与安全索引兼容的陷门,用陷门与安全索引进行匹配检索安全性高,将区块链技术与可搜索加密方案相结合避免了恶意服务器对数据的篡改,使用智能合约作为可信第三方进行检索工作,可以防止云服务器内部的关键字猜测攻击。
[0031]一些实施例中,获得安全索引信息,包括:数据用户生成搜索密钥和安全KNN算法的密钥,同时为每个文档生成访问密钥;在本地对原始文档进行语言分析处理,获得文档信息其中1≤i≤n,FN
i
表示第i个文档的文件名,w
ij
表示第i个文档中的第j个词语,表示在整个文件集合中,出现了词语w
ij
的文档数量。OF
i
表示第i个文档的偏移量,即该文档在整个文件集合中的位置;构建关键字词典和文档向量,关键字词典通过对各文档的关键字集合求并本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于文本语义的加密搜索方法,包括:根据查询关键字生成检索请求,并根据所述检索请求生成与安全索引兼容的陷门,所述安全索引根据安全索引信息得到,所述安全索引信息由数据拥有者对索引信息加密得到;将生成的所述陷门上传至区块链,以使智能合约根据所述陷门与所述安全索引进行匹配,得到检索结果;接收所述检索结果,所述检索结果包括按照文档标识符排序的文档信息,所述文档信息包括文档标识符、文档名密文和对称秘钥密文;发送目标文档对应的文档标识符,以使云服务器查找并返回对应的文档密文,所述目标文档根据所述检索结果确定。2.根据权利要求1所述的方法,其中,获得安全索引信息,包括:数据用户生成搜索密钥和安全KNN算法的密钥,同时为每个文档生成访问密钥;对原始文档进行语言分析处理,将每个文档中的词语进行统计,并计算每个词语在整个文件集合中的出现频率,然后,通过这些文档信息,建立安全索引,以便能够快速地查找文件;获得文档信息其中1≤i≤n,FN
i
表示第i个文档的文件名,w
ij
表示第i个文档中的第j个词语,表示在整个文件集合中,出现了词语w
ij
的文档数量,OF
i
表示第i个文档的偏移量,即该文档在整个文件集合中的位置;构建关键字词典和文档向量,所述关键字词典通过对各文档的关键字集合求并得到,根据所述关键字词典对每个文档构建M维的归一化文档向量FV
i
,M>m,其中1≤j≤m且对应位置的关键字w
j
在文档F
i
的关键字集合W
i
中向量为:其中1≤i≤n,FV
i
[j]是文档i中单词w
j
的频率向量的标准化形式,表示文档i中关键字w
j
的出现次数,W
i
表示文档i中所有单词的集合,该公式通过标准化单词频率向量,使得单词频率对查询结果的影响得以均衡化;对每个文档,加密文档索引信息中的敏感信息,得到安全的索引信息。3.根据权利要求2所述的方法,其特征在于,加密文档索引信息中的敏感信息,包括:采用对称加密算法ENC和对称密钥加密文档名;采用安全KNN算法的密钥加密文档向量;采用哈希运算消息认证码计算关键字词典中关键字的标签;数据所有者将加密后的关键字词典和所有文档的安全的索引信息上传给云服务器。4.根据权利要求3所述的方法,其特征在于,构建安全索引,包括:云服务器收到安全的索引信息之后给每个文档分配唯一的文档标识符;将文档的安全的索引信息中的内容写入正排索引表;根据加密后的关键字词典建立倒排索引表;将正排索引表和倒排索引表存入区块链;
根据正排索引表和倒排索引表记录文档总数和包含关键字的文档数量,计算词典中各关键字对应的逆文档频率,将所有逆文档频率按照词典序发送给数据所有者。5.根据权利要求4所述的方法,其特征在于,生成陷门包括:通过安全通道接收搜索密钥、安全KNN算法的密钥、有序词典以及所有关键字对应的逆文档频率;对查询语句进行语言分析处理,获得查询关键字集;根据本地存储的关键字词典和对应的逆文档频率值构建M维的归一化查询向量,其中对应...

【专利技术属性】
技术研发人员:刘雨微曹如意李宇航曹玲娟
申请(专利权)人:北京恒智数科科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1