一种基于邮件数据的隐私保护链接预测方法及系统技术方案

技术编号:33449213 阅读:11 留言:0更新日期:2022-05-19 00:33
本发明专利技术公开了一种基于邮件数据的隐私保护链接预测方法及系统,方法包括:使用邮件数据构建人物关系知识图谱;利用生成对抗网络训练一个生成模型用于学习的训练数据的分布;重构多元关系数据从而混淆数据中所隐含的敏感与非敏感关系信息;使用重构的多元关系数据补全实体之间的关系,达到在补全实体之间非敏感关系的同时,保护了实体之间敏感关系。本发明专利技术还提供了一种基于邮件数据的隐私保护链接预测系统实现上述方法。本发明专利技术用重构的多元关系数据补全实体之间的关系,达到在补全实体之间非敏感关系的同时,保护了实体之间敏感关系的目的,解决了现有链接预测技术中存在的邮件系统下人员社交关系得不到保护的技术问题。统下人员社交关系得不到保护的技术问题。统下人员社交关系得不到保护的技术问题。

【技术实现步骤摘要】
一种基于邮件数据的隐私保护链接预测方法及系统


[0001]本专利技术涉及对抗学习、图网络表示学习、知识图谱和链接预测
,尤其涉及一种基于邮件数据的隐私保护链接预测方法及系统。

技术介绍

[0002]邮件作为互联网的应用之一,是现代社会重要的信息交流方式之一。邮件数据记录了人们通信的内容,包含了通信关系、通信时间、通信频率等重要信息。通过简单地实体关系抽取和数据挖掘,可以对一个邮件数据建立多个知识图谱。比如以校园学生邮件系统举例:从通信关系角度可以对其建立通信关系图谱,从线上设备登录角度可以对其建立线上登录行为图谱。对在这样的图谱中,节点对应着实体,边对应着关系,我们将其表示为,每一个这样的三元组都表示实体和实体之间存在这样的关系。
[0003]近年来,知识图的研究取得了巨大的进展。然而,知识图的不完全性在一定程度上影响了它的应用。针对这一问题,提出了一系列知识图嵌入模型。其中,模型可以生成实体和关系的嵌入表示,并可以用于链接预测,即预测现有实体之间的关系。但这种方式造成了一些问题。任何攻击者利用生成的嵌入进行链接预测,都可以获得准确的实体之间的关系。然而,其中一些关系可能是敏感信息,我们不希望别人获得。因此,我们不能直接使用嵌入,而是需要进行一些处理来实现隐私保护,这里我们将这些关系视为敏感信息。
[0004]现有的隐私保护技术主要分为以下几类。第一种类型是差分隐私,主要通过对原始数据或参数或结果添加噪声来达到隐私保护的目的。常用的拉普拉斯机制和指数机制在实现差分隐私时,会造成很高的实用损失。基于这种情况,徐等人提出了一种基于矩阵分解的差分隐私网络嵌入方法,该方法引入了足够的噪声来保证隐私,但不适用于链路预测。Kearns等人提出了一个模型来保护一些节点,但这并不适用于链路预测场景。Abir De等人引入了排序算法,该算法对非私有链接预测系统的基本评分进行单调变换,然后加入噪声,可以更有效地权衡隐私和预测性能。Javier等人提出了一种添加或删除条目的方法,以最小化隐私风险。隐私保护可以通过删除或添加特定的边缘来实现,但这可能会影响对剩余非敏感关系的预测。此外,简单删除敏感信息也容易受到推理攻击。第二类是加密技术。基于加密的隐私保护方案通过先进的加密技术实现隐私保护。经典的加密技术包括同态加密和安全多方计算等。它们可以有效地实现隐私保护,但计算量总是很高。最后一类是GAN,通过生成对抗网络训练嵌入。李开阳等人提出了,这是一个图对抗训练框架,集成了隐私剥离和清除机制以避免推理攻击。其中,对抗自编码(AAE)采用生成对抗网络(GAN)进行变化地推断,将隐藏码的后验分布强制为指定的先验分布,使得有监督的分离能力能够保护隐私。然而,GAN训练仍然存在一些问题,如训练不稳定等。

技术实现思路

[0005]本专利技术的目的在于克服现有技术的不足,提供一种基于邮件数据的隐私保护链接预测方法及系统,旨在解决现有链接预测技术中存在的邮件系统下人员社交关系得不到保
护的技术问题,保证了生成样本的多样性,在非敏感关系的预测方面,隐私保护更好且计算量比加密技术小。
[0006]本专利技术的目的是通过以下技术方案来实现的:
[0007]一种基于邮件数据的隐私保护链接预测方法,包括:
[0008]步骤一:对邮件数据进行预处理,挖掘邮件中的隐含关系,构建基于邮件数据的人物关系知识图谱;
[0009]步骤二:利用基于能量的学习实体低维嵌入模型对人物关系知识图谱中的实体和隐含关系进行编码,获得不同实体之间存在一对一关系的嵌入空间和嵌入数据;
[0010]步骤三:利用生成对抗网络,使用编码后的嵌入数据训练获得生成模型,并利用该模型模拟嵌入空间;
[0011]步骤四:使用梯度下降的重构方法混淆原始数据中隐含的敏感关系与非敏感关系,微调嵌入空间的分布结构;
[0012]步骤五:基于微调后的嵌入空间的数据进行基于邮件系统人物关系的推理预测。
[0013]具体的,步骤一具体包括:
[0014]S101,针对高校学生邮件系统数据集,选取与人员关系最为密切的学生通信关系,建立通信关系知识图谱;
[0015]S102,将高校学生邮件系统网络划分为域内通信网络和域外通信网络;
[0016]S103,将通信关系知识图谱定义为(h,l,t)三元组,其中,通信关系l被分为两组关系,分别为已知的关系l
o
和未知的需要去预测的关系l
u
,且l
u
∈l
o

[0017]S104,将已知的关系l
o
进一步分为域内网络中的敏感关系和域外通信网络中非敏感关系且有
[0018]具体的,步骤二具体包括:
[0019]S201,产生一个真实的高斯分布,并进行随机采样初始化原始邮件数据的实体和关系;
[0020]S202,每次迭代中对实体和关系的向量进行归一化处理;
[0021]S203,每次选取固定数量的数据作为正样本S
batch
,表示为(h,l
o
,t),并对每一个正样本,随即替换其头实体和尾实体作为负样本S

batch
,表示为(h

,l
o
,t

);
[0022]S204,使用随机梯度下降算法对如下损失函数对实体和关系向量进行更新:
[0023][0024]其中,[x]+
表示取[0,x]中的最大值,γ>0是一个边界的超参数,它的作用相当于是一个正样本与负样本之前的间隔修正;d(x,y)是一个距离函数,d(x,y)=(x

y)2。
[0025]具体的,步骤三中的训练获得生成模型过程具体包括:
[0026]S301,从高斯分布采样一个随机噪声Z;
[0027]S302,使用包含两层全连接层和一个归一化层的神经网络作为生成器模型G(.),采用Wasserstein损失加上链接预测损失,这种链接预测损失被表述为基于边际的排名损失,表示如下:
[0028][0029]其中,为非敏感关系三元组,为敏感关系三元组;γ>0是一个边
界超参数,d(x,y)表示两个向量之间的欧氏距离;
[0030]Wasserstein损失的计算如下:
[0031][0032]其中,y
n
表示非敏感标签,y
s
敏感标签,整个生成模型的损失如下式所示:
[0033]L
G
=L2+λL
Dist
[0034]其中,λ为调整单个损失函数权值的超参数;
[0035]S303,使用两个带LeakyReLU激活层的全连接层网络作为判别器模型D(.),第二个全连接层作为二分类器用来区分输入数据的真实性,同时使用Wasserstein损失;采用梯度惩罚L
GP
来加强李本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于邮件数据的隐私保护链接预测方法,其特征在于,包括:步骤一:对邮件数据进行预处理,挖掘邮件中的隐含关系,构建基于邮件数据的人物关系知识图谱;步骤二:利用基于能量的学习实体低维嵌入模型对人物关系知识图谱中的实体和隐含关系进行编码,获得不同实体之间存在一对一关系的嵌入空间和嵌入数据;步骤三:利用生成对抗网络,使用编码后的嵌入数据训练获得生成模型,并利用该模型模拟嵌入空间;步骤四:使用梯度下降的重构方法混淆原始数据中隐含的敏感关系与非敏感关系,微调嵌入空间的分布结构;步骤五:基于微调后的嵌入空间的数据进行基于邮件系统人物关系的推理预测。2.根据权利要求1所述的一种基于邮件数据的隐私保护链接预测方法,其特征在于,所述步骤一具体包括:S101,针对高校学生邮件系统数据集,选取与人员关系最为密切的学生通信关系,建立通信关系知识图谱;S102,将高校学生邮件系统网络划分为域内通信网络和域外通信网络;S103,将通信关系知识图谱定义为(h,l,t)三元组,其中,通信关系l被分为两组关系,分别为已知的关系l
o
和未知的需要去预测的关系l
u
,且l
u
∈l
o
;S104,将已知的关系l
o
进一步分为域内网络中的敏感关系和域外通信网络中非敏感关系且有3.根据权利要求1所述的一种基于邮件数据的隐私保护链接预测方法,其特征在于,所述步骤二具体包括:S201,产生一个真实的高斯分布,并进行随机采样初始化原始邮件数据的实体和关系;S202,每次迭代中对实体和关系的向量进行归一化处理;S203,每次选取固定数量的数据作为正样本S
batch
,表示为(h,l
o
,t),并对每一个正样本,随即替换其头实体和尾实体作为负样本S

batch
,表示为(h

l
o
,t

);S204,使用随机梯度下降算法对如下损失函数对实体和关系向量进行更新:其中,[x]
+
表示取[0,x]中的最大值,γ>0是一个边界的超参数,它的作用相当于是一个正样本与负样本之前的间隔修正;d(x,y)是一个距离函数,d(x,y)=(x

y)2。4.根据权利要求1所述的一种基于邮件数据的隐私保护链接预测方法,其特征在于,所述步骤三中的训练获得生成模型过程具体包括:S301,从高斯分布采样一个随机噪声Z;S302,使用包含两层全连接层和一个归一化层的神经网络作为生成器模型G(.),采用Wasserstein损失加上链接预测损失,这种链接预测损失被表述为基于边际的排名...

【专利技术属性】
技术研发人员:王勇王范川王晓虎秦瑞张应福石锟
申请(专利权)人:电子科技大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1