语义关键词可搜索加密方法技术

技术编号:39739880 阅读:8 留言:0更新日期:2023-12-17 23:41
本发明专利技术公开了一种语义关键词可搜索加密方法

【技术实现步骤摘要】
语义关键词可搜索加密方法、系统、电子设备和介质


[0001]本专利技术涉及数据加密
,尤其涉及一种语义多关键词搜索加密方法

系统

电子设备和介质


技术介绍

[0002]随着云计算

云存储的迅速发展,数据的安全问题也愈发的受到重视

[0003]近年来,研究者们普遍使用
TF

IDF
模型来生成密文状态下的文档向量和安全索引,从而来构建支持各种形式的可搜索加密方案

[0004]但是现有的基于
TF

IDF
模型是利用从所有的文件中提取关键词,然后根据提取的关键词构建安全索引,这会导致字典集合中关键词的数量庞大,需要较大的存储空间

[0005]因此亟需一种可搜索加密方案来降低存储空间的使用


技术实现思路

[0006]本专利技术提供了一种语义多关键词搜索加密方法

系统

电子设备和介质,旨在有效解决现有技术中的可搜索加密方案需要较大存储空间的技术问题

[0007]根据本专利技术的第一方面,本专利技术提供一种语义关键词搜索加密方法,包括:获取数据拥有者端需要加密的文档数据,并对所述文档数据进行加密,得到一一对应的加密索引和密文文件;获取数据用户端发送的搜索请求指令;根据所述搜索请求指令匹配所述加密索引;将与匹配到的加密索引相对应的密文文件传输至数据用户端;在所述数据用户端,对所述密文文件进行解密,得到文档数据

[0008]进一步地,所述对所述文档数据进行加密包括:利用预获取的密钥对将所述文档数据进行加密,得到加密文档集;对所述文档数据的主题进行提取以得到主题集,所述主题集内的主题和所述加密文档集内的文档一一对应;对所述主题集进行加密,得到加密索引

[0009]进一步地,所述对所述文档的主题进行提取以得到主题集的步骤包括:利用预训练的
BTM
主题模型对所述数据文档进行主题提取;利用吉布斯采样的方法对提取的主题进行处理,得到主题

关键词相关度分布矩阵,并得到文档

主题相关度分布矩阵;分别计算所述主题

关键词相关度分布矩阵

文档

主题相关度分布矩阵的困惑度和一致性参数;利用所述主题

关键词相关度分布矩阵

文档

主题相关度分布矩阵的困惑度和一致性参数,提取所述数据文档的所有主题中,最佳主题

关键词概率分布矩阵;根据所述困惑度和一致性参数指定语料库内主题的数量;根据指定的库内主题的数量,在所述最佳主题

关键词相关度分布矩阵中,提取主题,得到主题集

[0010]进一步地,所述对所述主题集进行加密的步骤包括:利用预训练的
BTM
主题模型,从所述主题

关键词相关度分布矩阵中提取每个主题的关键词概率分布向量,构造
t
个主题对应的
t
个节点,将所述
t
个节点设定为叶子节点;利用
t
个叶子结点,构造平衡树索引
D
;将平衡树索引
D
中的所有向量的维度拓展到
(m+j+2)

bit
,并计算平衡树索引的索引向量索引向量的计算方法包括:将索引向量的
(m+j+1)
th

bit
维度设为一个随机数
得到其中,
d
表示添加的虚拟词数量,
m
为数组大小,
(m+j+2)
th

bit
设为1;将索引向量分割成两个向量分割方法为:判断
0/1
分割向量
S
其各维度的值是否为1,若为1,则将,则将否则将
D

i

D

i
,其中,
r
表示随机选取的随机数;利用
{M1,
M2}
将所述平衡树索引中的子向量加密得到其中,
I1,
i
为加密索引,
{M1,
M2}
是两个
(m+d+2)
×
(m+d+2)
的可逆矩阵

[0011]进一步地,所述对所述主题集进行加密的步骤包括:从文档

主题相关度分布矩阵中获取第
i
篇文档的主题概率分布向量;构建主题

文档倒排索引;使用对称密钥对所述倒排索引进行加密,生成主题文档安全索引

[0012]进一步地,所述获取数据用户发送的搜索请求指令包括:在所述数据用户端发送搜索请求后,提取所述搜索请求内的关键词;对所述关键词进行加密并生成搜索陷门;将所述搜索陷门发送至数据用户端;利用所述数据用户端,使用搜索陷门重新发起搜索请求;接收所述数据用户发送的搜索陷门,作为所述搜索请求指令

[0013]进一步地,所述对所述关键词进行加密并生成搜索陷门的步骤,包括:对关键词作伪随机变换生成虚拟关键词并在插入集合生成集合
Q
i
;通过预训练的
BTM
主题模型为集合
Q
i
生成
m

bit
查询主题向量;随机在包含的
d
个虚拟关键词中选取
v
个关键词,并将
v
个关键词的相应位置设为1,且利用一个随机数对
v
个关键词进行缩放,将
v
个关键词的维度扩展为
(m+j+2)
;计算预先获取的
CL
j

N
的平均值其中
N

{N

1,2,

}
表示所述关键词的数目,
CL
j
是一个混淆参数,为存储在
CS
中的文档集合保密等级;利用
CL
j
、N

μ
,计算方差利用所述方差
σ
对进行分割,得到其中,分割方法包括:查询的每一个元素若
0/1
分割向量
S
其各维度的值为0,则令,则令否则令否则令和为搜索陷门;利用
{M1,
M2}
对搜索陷门进行加密,得到加密陷门,其中加密方法包括:
{M1,
M2}
是两个
(m+d+2)
×
(m+d+2)
的可本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.
一种语义关键词搜索加密方法,其特征在于,包括:获取数据拥有者端需要加密的文档数据,并对所述文档数据进行加密,得到一一对应的加密索引和密文文件;获取数据用户端发送的搜索请求指令;根据所述搜索请求指令匹配所述加密索引;将与匹配到的加密索引相对应的密文文件传输至数据用户端;在所述数据用户端,对所述密文文件进行解密,得到文档数据
。2.
如权利要求1所述的语义关键词搜索加密方法,其特征在于,所述对所述文档数据进行加密包括:利用预获取的密钥对将所述文档数据进行加密,得到加密文档集;对所述文档数据的主题进行提取以得到主题集,所述主题集内的主题和所述加密文档集内的文档一一对应;对所述主题集进行加密,得到加密索引
。3.
如权利要求2所述的语义关键词搜索加密方法,其特征在于,所述对所述文档的主题进行提取以得到主题集的步骤包括:利用预训练的
BTM
主题模型对所述数据文档进行主题提取;利用吉布斯采样的方法对提取的主题进行处理,得到主题

关键词相关度分布矩阵,并得到文档

主题相关度分布矩阵;分别计算所述主题

关键词相关度分布矩阵

文档

主题相关度分布矩阵的困惑度和一致性参数;利用所述主题

关键词相关度分布矩阵

文档

主题相关度分布矩阵的困惑度和一致性参数,提取所述数据文档的所有主题中,最佳主题

关键词概率分布矩阵;根据所述困惑度和一致性参数指定语料库内主题的数量;根据指定的库内主题的数量,在所述最佳主题

关键词相关度分布矩阵中,提取主题,得到主题集
。4.
如权利要求3所述的语义关键词搜索加密方法,其特征在于,所述对所述主题集进行加密的步骤包括:利用预训练的
BTM
主题模型,从所述主题

关键词相关度分布矩阵中提取每个主题的关键词概率分布向量,构造
t
个主题对应的
t
个节点,将所述
t
个节点设定为叶子节点;利用
t
个叶子结点,构造平衡树索引
D
;将平衡树索引
D
中的所有向量的维度拓展到
(m+j+2)

bit
,并计算平衡树索引的索引向量索引向量的计算方法包括:将索引向量的
(m+j+1)
th

bit
维度设为一个随机数
{
ε
(j)
|j∈[1

d]}
,得到其中,
d
表示添加的虚拟词数量,
m
为数组大小,
(m+j+2)
th

bit
设为1;将索引向量分割成两个向量分割方法为:判断
0/1
分割向量
S
其各维度的值是否为1,若为1,则将,则将否则将
D

i

D

i
,其中,
r

示随机选取的随机数;利用
{M1,
M2}
将所述平衡树索引中的子向量加密得到其中,
I1,
i
为加密索引,
{M1,
M2}
是两个
(m+d+2)
×
(m+d+2)
的可逆矩阵
。5.
如权利要求3所述的语义关键词搜索加密方法,其特征在于,所述对所述主题集进行加密的步骤包括:从文档

主题相关度分布矩阵中获取第
i
篇文档的主题概率分布向量;构建主题

文档倒排索引;使用对称密钥对所述倒排索引进行加密,生成主题文档安全索引
。6.
如权利要求1所述的语义关键词搜索加密方法,其特征在于,所述获取数据用户发送的搜索请求指令的步骤包括:在所述数据用户端发送搜索请求后,提取所述搜索请求内的关键词;对所述关键词进行加密并生成搜索陷门;将所述搜索陷门发送至数据用户端;利用所述数据用户端,使用搜索陷门重新发起搜索请求;接收所述数据用户发送的搜索陷门,作为所述搜索请求指令;所述对所述关键词进行加密并生成搜索陷门的步骤,包括:对关键词作伪随机变换生成虚拟关键词并在插入集合生成集合
Q
i
;通...

【专利技术属性】
技术研发人员:冯苏伟仇惠惠张建彪
申请(专利权)人:章鱼博士智能技术上海有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1