一种基于邮件数据的隐私保护链接预测方法及系统技术方案

技术编号：33449213 阅读：11 留言：0更新日期：2022-05-19 00:33

本发明专利技术公开了一种基于邮件数据的隐私保护链接预测方法及系统，方法包括：使用邮件数据构建人物关系知识图谱；利用生成对抗网络训练一个生成模型用于学习的训练数据的分布；重构多元关系数据从而混淆数据中所隐含的敏感与非敏感关系信息；使用重构的多元关系数据补全实体之间的关系，达到在补全实体之间非敏感关系的同时，保护了实体之间敏感关系。本发明专利技术还提供了一种基于邮件数据的隐私保护链接预测系统实现上述方法。本发明专利技术用重构的多元关系数据补全实体之间的关系，达到在补全实体之间非敏感关系的同时，保护了实体之间敏感关系的目的，解决了现有链接预测技术中存在的邮件系统下人员社交关系得不到保护的技术问题。统下人员社交关系得不到保护的技术问题。统下人员社交关系得不到保护的技术问题。

全部详细技术资料下载

【技术实现步骤摘要】
一种基于邮件数据的隐私保护链接预测方法及系统

[0001]本专利技术涉及对抗学习、图网络表示学习、知识图谱和链接预测
，尤其涉及一种基于邮件数据的隐私保护链接预测方法及系统。

技术介绍

[0002]邮件作为互联网的应用之一，是现代社会重要的信息交流方式之一。邮件数据记录了人们通信的内容，包含了通信关系、通信时间、通信频率等重要信息。通过简单地实体关系抽取和数据挖掘，可以对一个邮件数据建立多个知识图谱。比如以校园学生邮件系统举例：从通信关系角度可以对其建立通信关系图谱，从线上设备登录角度可以对其建立线上登录行为图谱。对在这样的图谱中，节点对应着实体，边对应着关系，我们将其表示为，每一个这样的三元组都表示实体和实体之间存在这样的关系。
[0003]近年来，知识图的研究取得了巨大的进展。然而，知识图的不完全性在一定程度上影响了它的应用。针对这一问题，提出了一系列知识图嵌入模型。其中，模型可以生成实体和关系的嵌入表示，并可以用于链接预测，即预测现有实体之间的关系。但这种方式造成了一些问题。任何攻击者利用生成的嵌入进行链接预测，都可以获得准确的实体之间的关系。然而，其中一些关系可能是敏感信息，我们不希望别人获得。因此，我们不能直接使用嵌入，而是需要进行一些处理来实现隐私保护，这里我们将这些关系视为敏感信息。
[0004]现有的隐私保护技术主要分为以下几类。第一种类型是差分隐私，主要通过对原始数据或参数或结果添加噪声来达到隐私保护的目的。常用的拉普拉斯机制和指数机制在实现差分隐私时，会造成很高的实用损失。基...

【技术保护点】

【技术特征摘要】
1.一种基于邮件数据的隐私保护链接预测方法，其特征在于，包括：步骤一：对邮件数据进行预处理，挖掘邮件中的隐含关系，构建基于邮件数据的人物关系知识图谱；步骤二：利用基于能量的学习实体低维嵌入模型对人物关系知识图谱中的实体和隐含关系进行编码，获得不同实体之间存在一对一关系的嵌入空间和嵌入数据；步骤三：利用生成对抗网络，使用编码后的嵌入数据训练获得生成模型，并利用该模型模拟嵌入空间；步骤四：使用梯度下降的重构方法混淆原始数据中隐含的敏感关系与非敏感关系，微调嵌入空间的分布结构；步骤五：基于微调后的嵌入空间的数据进行基于邮件系统人物关系的推理预测。2.根据权利要求1所述的一种基于邮件数据的隐私保护链接预测方法，其特征在于，所述步骤一具体包括：S101，针对高校学生邮件系统数据集，选取与人员关系最为密切的学生通信关系，建立通信关系知识图谱；S102，将高校学生邮件系统网络划分为域内通信网络和域外通信网络；S103，将通信关系知识图谱定义为(h，l，t)三元组，其中，通信关系l被分为两组关系，分别为已知的关系l
o
和未知的需要去预测的关系l
u
，且l
u
∈l
o
；S104，将已知的关系l
o
进一步分为域内网络中的敏感关系和域外通信网络中非敏感关系且有3.根据权利要求1所述的一种基于邮件数据的隐私保护链接预测方法，其特征在于，所述步骤二具体包括：S201，产生一个真实的高斯分布，并进行随机采样初始化原始邮件数据的实体和关系；S202，每次迭代中对实体和关系的向量进行归一化处理；S203，每次选取固定数量的数据作为正样本S
batch
，表示为(h，l
o
，t)，并对每一个正样本，随即替换其头实体和尾实体作为负样本S
′
batch
，表示为(h
’
l
o
，t
’
)；S204，使用随机梯度下降算法对如下损失函数对实体和关系向量进行更新：其中，[x]
+
表示取[0，x]中的最大值，γ＞0是一个边界的超参数，它的作用相当于是一个正样本与负样本之前的间隔修正；d(x，y)是一个距离函数，d(x，y)＝(x
‑
y)2。4.根据权利要求1所述的一种基于邮件数据的隐私保护链接预测方法，其特征在于，所述步骤三中的训练获得生成模型过程具体包括：S301，从高斯分布采样一个随机噪声Z；S302，使用包含两层全连接层和一个归一化层的神经网络作为生成器模型G(.)，采用Wasserstein损失加上链接预测损失，这种链接预测损失被表述为基于边际的排名...

【专利技术属性】
技术研发人员：王勇，王范川，王晓虎，秦瑞，张应福，石锟，
申请(专利权)人：电子科技大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人