一种差分隐私保护方法及系统技术方案

技术编号:39311228 阅读:22 留言:0更新日期:2023-11-12 15:56
本发明专利技术提供了一种差分隐私保护方法及系统,涉及隐私保护技术领域,该方法包括:根据初始数据集建立多维特征集合;对多维特征集合进行特征赋值,建立初始特征系数,并提取数据的特征值;进行初始数据集的数据加密等级评价,生成第一扰动关联;设置聚类簇中心约束,并随机抓取聚类中心,以多维特征集合作为距离参考执行数据聚类,生成数据聚类结果并匹配第二扰动关联,执行初始数据集的本地差分扰动,生成加密数据集并传输至服务器。通过本发明专利技术可以解决现有技术中存在由于隐私保护的精确度和聚类效率较低,导致隐私保护的效率较低的技术问题,实现提高隐私保护的精确度和聚类效率的目标,达到隐私保护的效率较高的技术效果。达到隐私保护的效率较高的技术效果。达到隐私保护的效率较高的技术效果。

【技术实现步骤摘要】
一种差分隐私保护方法及系统


[0001]本专利技术涉及隐私保护
,具体涉及一种差分隐私保护方法及系统。

技术介绍

[0002]基于广泛应用大数据的时代条件下,数据收集变得无处不在,收集的数据可以通过机器学习来为用户提供有用的个性化服务,但会引起侵犯隐私的问题。因此,现需要基于差分隐私来实现收集数据的匿名化、隐蔽化,进而运用收集数据为用户提供服务。
[0003]综上所述,现有技术中存在由于隐私保护的精确度和聚类效率较低,导致隐私保护的效率较低的技术问题。

技术实现思路

[0004]本专利技术提供了一种差分隐私保护方法及系统,用以解决现有技术中存在由于隐私保护的精确度和聚类效率较低,导致隐私保护的效率较低的技术问题。
[0005]根据本专利技术的第一方面,提供了一种差分隐私保护方法,包括:采集初始数据集,并对所述初始数据集进行多维特征提取,建立多维特征集合,其中,所述初始数据集为真实数据集;对所述多维特征集合进行特征赋值,建立初始特征系数,并根据建立的所述多维特征集合提取数据的特征值;依据所述特征值和所述初始特征系数进行所述初始数据集的数据加密等级评价,生成第一扰动关联;设置聚类簇中心约束,并通过所述聚类簇中心约束随机抓取聚类中心,以所述多维特征集合作为距离参考执行数据聚类,生成数据聚类结果;根据数据聚类结果匹配第二扰动关联,通过所述第一扰动关联和所述第二扰动关联执行所述初始数据集的本地差分扰动,生成加密数据集;将所述加密数据集传输至服务器,完成数据隐私保护。
[0006]根据本专利技术的第二方面,提供了一种差分隐私保护系统,包括:初始数据集获得模块,所述初始数据集获得模块用于采集初始数据集,并对所述初始数据集进行多维特征提取,建立多维特征集合,其中,所述初始数据集为真实数据集;初始特征系数获得模块,所述初始特征系数获得模块用于对所述多维特征集合进行特征赋值,建立初始特征系数,并根据建立的所述多维特征集合提取数据的特征值;第一扰动关联获得模块,所述第一扰动关联获得模块用于依据所述特征值和所述初始特征系数进行所述初始数据集的数据加密等级评价,生成第一扰动关联;数据聚类结果获得模块,所述数据聚类结果获得模块用于设置聚类簇中心约束,并通过所述聚类簇中心约束随机抓取聚类中心,以所述多维特征集合作为距离参考执行数据聚类,生成数据聚类结果;加密数据集获得模块,所述加密数据集获得模块用于根据数据聚类结果匹配第二扰动关联,通过所述第一扰动关联和所述第二扰动关联执行所述初始数据集的本地差分扰动,生成加密数据集;数据隐私保护模块,所述数据隐私保护模块用于将所述加密数据集传输至服务器,完成数据隐私保护。
[0007]根据本专利技术的第三方面,一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,所述处理器实现能够执行第一方面中任一项所述的方法。
[0008]根据本专利技术的第四方面,一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现能够执行第一方面中任一项所述的方法。
[0009]本专利技术中提供的一个或多个技术方案,至少具有如下技术效果或优点:根据本专利技术采用的通过采集初始数据集,并对所述初始数据集进行多维特征提取,建立多维特征集合,其中,所述初始数据集为真实数据集;对所述多维特征集合进行特征赋值,建立初始特征系数,并根据建立的所述多维特征集合提取数据的特征值;依据所述特征值和所述初始特征系数进行所述初始数据集的数据加密等级评价,生成第一扰动关联;设置聚类簇中心约束,并通过所述聚类簇中心约束随机抓取聚类中心,以所述多维特征集合作为距离参考执行数据聚类,生成数据聚类结果;根据数据聚类结果匹配第二扰动关联,通过所述第一扰动关联和所述第二扰动关联执行所述初始数据集的本地差分扰动,生成加密数据集;将所述加密数据集传输至服务器,完成数据隐私保护,解决了现有技术中存在由于隐私保护的精确度和聚类效率较低,导致隐私保护的效率较低的技术问题,实现提高隐私保护的精确度和聚类效率的目标,达到隐私保护的效率较低的技术效果。
[0010]应当理解,本部分所描述的内容并非旨在标示本专利技术的实施例的关键或重要特征,也不用于限制本专利技术的范围。本专利技术的其他特征将通过以下的说明书而变得容易理解。
附图说明
[0011]为了更清楚地说明本专利技术或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单的介绍,显而易见地,下面描述中的附图仅仅是示例性的,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据提供的附图获得其他的附图。
[0012]图1为本专利技术实施例提供的一种差分隐私保护方法的流程示意图。
[0013]图2为本专利技术实施例提供的一种差分隐私保护系统的结构示意图。
[0014]图3为本专利技术实施例提供的一种计算机设备的结构示意图。
[0015]附图标记说明:初始数据集获得模块11,初始特征系数获得模块12,第一扰动关联获得模块13,数据聚类结果获得模块14,加密数据集获得模块15,数据隐私保护模块16,计算机设备100,处理器101,存储器102,总线103。
具体实施方式
[0016]以下结合附图对本专利技术的示范性实施例作出说明,其中包括本专利技术实施例的各种细节以助于理解,应当将它们认为仅仅是示范性的。因此,本领域普通技术人员应当认识到,可以对这里描述的实施例做出各种改变和修改,而不会背离本专利技术的范围和精神。同样,为了清楚和简明,以下的描述中省略了对公知功能和结构的描述。
[0017]实施例一本专利技术实施例提供的一种差分隐私保护方法,兹参照图1作说明,所述方法包括:本专利技术实施例提供的方法中包括:采集初始数据集,并对所述初始数据集进行多维特征提取,建立多维特征集合,其中,所述初始数据集为真实数据集。
[0018]具体地,初始数据集为真实数据集。举例而言,张三因为抽烟患有癌症,为真实数
据。进一步地,通过统计数据的方法,采集获得初始数据集。其中,初始数据集为单个用户的多个真实数据的集合,或者多个单个用户组成的一群用户的真实数据的集合。进一步地,对初始数据集进行多维特征提取,建立多维特征集合。举例而言,张三患有癌症,但引发癌症的诱因可能存在多种情况,需要结合张三的饮食、先天性疾病、遗传、工作环境、生活习惯等具体分析患癌的原因,则上述患癌的可能原因为多维特征。
[0019]对所述多维特征集合进行特征赋值,建立初始特征系数,并根据建立的所述多维特征集合提取数据的特征值。
[0020]具体地,对多维特征集合进行特征赋值,根据多维特征集合提取数据的特征值。举例而言,通过饮食、先天性疾病、遗传、工作环境、生活习惯等多维特征集合分析张三患癌的原因,通过获取张三的饮食数据的方法对多维特征集合的饮食特征进行赋值,获取张三的每日饮食数据,则每日饮食数据为特征值。进一步地,初步根据多维特征集合的初始数据集的获取影响程度,建立初始特征系数。举例而言,张三患癌的多维特征集合中,若饮食和生活习惯的影响程度较大,则对饮食和生活习本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种差分隐私保护方法,其特征在于,所述方法包括:采集初始数据集,并对所述初始数据集进行多维特征提取,建立多维特征集合,其中,所述初始数据集为真实数据集;对所述多维特征集合进行特征赋值,建立初始特征系数,并根据建立的所述多维特征集合提取数据的特征值;依据所述特征值和所述初始特征系数进行所述初始数据集的数据加密等级评价,生成第一扰动关联;设置聚类簇中心约束,并通过所述聚类簇中心约束随机抓取聚类中心,以所述多维特征集合作为距离参考执行数据聚类,生成数据聚类结果;根据数据聚类结果匹配第二扰动关联,通过所述第一扰动关联和所述第二扰动关联执行所述初始数据集的本地差分扰动,生成加密数据集;将所述加密数据集传输至服务器,完成数据隐私保护。2.如权利要求1所述的方法,其特征在于,所述方法还包括:确定聚类簇数量N,所述聚类簇数量N依据所述初始数据集的数据量确定;构建数据空间,所述数据空间表征了所述初始数据集的数据分布空间,以所述聚类簇数量N对所述数据空间均匀划分,生成N个均匀区域;在所述N个均匀区域随机分布聚类中心,通过聚类簇中心约束进行聚类中心判定,根据判定结果完成数据聚类。3.如权利要求2所述的方法,其特征在于,所述方法还包括:以聚类中心作为聚类集中点,执行预定距离内的数据聚类抓取,生成数据抓取结果;对所述数据抓取结果进行数据集中评价,根据集中评价结果更新所述聚类中心的中心位置;迭代聚类抓取和聚类中心过程,当迭代结果满足预定要求时,停止迭代,完成数据聚类,并将最终聚类中心作为聚类标签。4.如权利要求1所述的方法,其特征在于,所述方法还包括:配置系数自适应分配函数;将所述多维特征集合输入所述自适应分配函数,基于特征值和初始特征系数进行自适应系数分配,生成分配结果;基于所述分配结果对所述特征值和所述初始特征系数进行加权计算,根据加权计算结果生成数据加密等级评价。5.如权利要求1所述的方法,其特征在于,所述方法还包括:分别对所述数据聚类结果进行同聚类簇内的数据随机排序,并记录随机排序的唯一标识;依据所述唯一标识建立每一聚类簇的闭合链状结构;对于每一闭合链状结构进行相邻数据间的数据交换;根据数据交换结果对所述加密数据集处理后传输至服务器。6.如权利要求5所述的方法,其特征在于,所述方法还包括:以所述闭合链状结构中唯一标识为1的数据作为起...

【专利技术属性】
技术研发人员:张荣泽孙绍宁张升太展昭生袁梦晓高志修徐明训
申请(专利权)人:济南三泽信息安全测评有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1