一种关联大数据的隐私保护方法及系统技术方案

技术编号:19693279 阅读:60 留言:0更新日期:2018-12-08 11:32
本发明专利技术公开了一种大数据的隐私保护方法,包括:通过机器学习构建k‑means聚类算法的k相关记录差分隐私保护模型;通过隐私机制和查询函数构建线性回归r‑相关块差分隐私保护模型;根据r‑相关块差分隐私保护模型将大数据划分为独立数据块;根据查询函数计算独立数据块的敏感度,根据k‑相关记录差分隐私保护模型对独立数据块进行差分隐私保护。本发明专利技术还公开了一种大数据隐私保护方法的系统,包括:k相关记录差分隐私保护模型构建模块;r‑相关块差分隐私保护模型构建模块;独立数据块划分模块;独立数据块差分隐私保护模块,用于根据查询函数计算独立数据块的敏感度,根据k‑相关记录差分隐私保护模型对独立数据块进行差分隐私保护。

【技术实现步骤摘要】
一种关联大数据的隐私保护方法及系统
本专利技术涉及大数据
,特别是指一种关联大数据的隐私保护方法及系统。
技术介绍
大数据是信息技术发展的又一里程碑,被称为科学研究的“第四范式”,具备科学的理论基础和先进的技术手段,从提出之日起就引领时代发展。经过几年的快速发展,大数据被广泛应用在科技、金融、交通、教育、医疗卫生等各个领域,为推动经济发展和服务人类社会发挥了巨大作用创造了巨大价值。随着大数据技术的发展和广泛应用,数据采集和数据挖掘已成为普遍现象,一方面,通过挖掘隐藏在数据背后的潜在价值有利于促进社会发展,另一方面,过度的数据挖掘和缺乏有效的数据保护,也导致了数据拥有者大量隐私或敏感数据泄露的问题。如何在不影响大数据分析研究、共享使用的前提下,使得数据和隐私安全能够得到有效保护,成为目前亟待研究和解决的热点问题。差分隐私保护具有完备的数学理论基础,能够提供强健的隐私保护,被认为是目前最先进的隐私保护技术。但是在实际应用中,特别是在大数据应用场景中,大量数据之间往往存在着较强的耦合性或相关性,称这些数据为相关数据。现有的差分隐私保护方法在数据集上会使攻击者得到更多的背景知识,增加了隐私泄露的风险。因此,如何利用差分隐私方法解决相关数据的隐私保护问题,对研究和解决关联大数据隐私安全问题具有重要的现实意义。
技术实现思路
有鉴于此,本专利技术的目的在于提出一种关联大数据的隐私保护方法及系统,以更好地保护大数据的隐私安全。基于上述目的本专利技术提供的一种关联大数据的隐私保护方法,包括:通过机器学习和最大信息系数构建关联大数据的因果关系模型;通过k-相邻数据集构建k-相关记录差分隐私保护模型;提供相关敏感度概念,通过所述因果关系模型计算所述k-相邻数据集的相关敏感度,再利用means-Laplace机制实现k-相关记录差分隐私保护;利用最大信息系数-K-Means算法将所述关联大数据进行r-块划分,得到多个相互独立的数据子块;根据查询函数计算所述数据子块的相关敏感度,对每个数据子块进行所述k-相关记录差分隐私保护;根据差分隐私组合性质,对所述关联大数据集进行r-相关块差分隐私的保护。在其中一个实施例中,所述k-相关记录差分隐私保护模型包括:其中,D1为大数据集,D2为大数据集D1中k条记录发生改变所生成,1≤k≤l,l为大数据集D1中的记录条数,为隐私机制,f为查询函数,Pr为概率分布,为实数集,∈为隐私预算。在其中一个实施例中,所述隐私机制满足f为查询函数,e为随机噪声,‖·‖1为1范数。在其中一个实施例中,D1和D2为关联大数据集,满足|D1ΔD2|=k,且1≤k≤l,大数据集D1中具有n个数据,l条相关记录,D2为大数据集D1中k条记录发生改变所生成。在其中一个实施例中,所述因果关系模型为经过回归分析后构建的神经网络模型。在其中一个实施例中,所述r-相关块差分隐私保护包括:为待发布数据集B的隐私机制,Pr为概率分布,f为查询函数,Bj和B-j为邻接数据集,为实数集,∈为隐私预算。在其中一个实施例中,所述待发布数据集B中的数据块Di满足表示数据块Di与调整其第j条记录后生成的数据块相差条记录,为数据块Di的第j条记录,为调整数据块Di的第j条记录生成的数据块,中不含第j条记录。在其中一个实施例中,所述待发布数据集B满足,Ui∈(-0.5,0.5]为随机数,n为运算次数。在其中一个实施例中,所述相关敏感度概念为:其中,CS为相关敏感度,为数据集,表示待发布数据集的第i个数据块的任意一条记录j,为调整的第j条记录,与为邻接数据集,f为查询函数。v(xj)表示记录xj的取值,函数g表示xj与其相关记录之间的依赖关系。本专利技术还提供一种应用于上述的关联大数据的隐私保护方法的系统,包括:因果关系模型构建模块,用于通过机器学习和最大信息系数构建关联大数据的因果关系模型;k相关记录差分隐私保护模型构建模块,用于通过k-相邻数据集构建k-相关记录差分隐私保护模型;k-相关记录差分隐私保护实现模块,用于提供相关敏感度概念,通过所述因果关系模型计算所述k-相邻数据集的相关敏感度,再利用means-Laplace机制实现k-相关记录差分隐私保护;数据子块划分模块,用于利用最大信息系数-K-Means算法将所述关联大数据进行r-块划分,得到多个相互独立的数据子块;数据子块的k-相关记录差分隐私模块,用于根据查询函数计算所述数据子块的相关敏感度,对每个数据子块进行所述k-相关记录差分隐私;r-相关块差分隐私模块,用于根据差分隐私组合性质,对所述关联大数据集进行r-相关块差分隐私的保护。从上面所述可以看出,本专利技术提供的关联大数据的隐私保护方法及系统,通过构建k-相关记录差分隐私保护模型和r-相关块差分隐私保护,将关联大数据进行r-块划分,得到多个独立的数据子块,并通过查询函数实现数据子块对敏感度的精确计算,从而对数据子块进行k-相关记录差分隐私,再通过差分隐私组合性质,对关联大数据进行r-相关块差分隐私的保护,从而实现对关联大数据的隐私保护。附图说明图1为本专利技术实施例的关联大数据的隐私保护方法的流程图;图2为本专利技术实施例的r-相关块差分隐私系统模型;图3为本专利技术实施例的不同城市ID间MIC值分布情况示意图;图4为本专利技术实施例的部分城市连续696小时pm2.5分布情况示意图;图5为本专利技术实施例的神经网络模型图;图6为本专利技术实施例的学习性能实例;图7为不同敏感度计算方法隐私保护性能对比分析图一;图8为不同敏感度计算方法隐私保护性能对比分析图二;图9为不同敏感度计算方法隐私保护性能对比分析图三;图10为不同敏感度计算方法隐私保护性能对比分析图四;图11为不同方法隐私保护性能随数据量的变化图;图12为∈=0.05时,不同方法隐私保护性能随数据量的变化图;图13为∈=0.1时,不同方法隐私保护性能随数据量的变化图;图14为∈=0.3时,不同方法隐私保护性能随数据量的变化图;图15为∈=0.5时,不同方法隐私保护性能随数据量的变化图;图16为∈=0.7时,不同方法隐私保护性能随数据量的变化图;图17为∈=0.9时,不同方法隐私保护性能随数据量的变化图;图18为∈=1时,不同方法隐私保护性能随数据量的变化图;图19为r=10时,不同块划分参数r下的隐私保护性能示意图;图20为r=20时,不同块划分参数r下的隐私保护性能示意图;图21为r=30时,不同块划分参数r下的隐私保护性能示意图;图22为r=40时,不同块划分参数r下的隐私保护性能示意图;图23为r=50时,不同块划分参数r下的隐私保护性能示意图;图24为r=60时,不同块划分参数r下的隐私保护性能示意图。具体实施方式为使本专利技术的目的、技术方案和优点更加清楚明白,以下结合具体实施例,并参照附图,对本专利技术进一步详细说明。请参阅图1,本专利技术提供一种大数据的隐私保护方法,包括:S100,通过机器学习和最大信息系数构建关联大数据的因果关系模型;S200,通过k-相邻数据集构建k-相关记录差分隐私保护模型;S300,提供相关敏感度概念,通过所述因果关系模型计算所述k-相邻数据集的相关敏感度,再利用means-Laplace机制实现k-相关记录差分隐私保护;S400,利用最大信息系数-K-Means算法将本文档来自技高网...

【技术保护点】
1.一种关联大数据的隐私保护方法,其特征在于,包括:通过机器学习和最大信息系数构建关联大数据的因果关系模型;通过k‑相邻数据集构建k‑相关记录差分隐私保护模型;提供相关敏感度概念,通过所述因果关系模型计算所述k‑相邻数据集的相关敏感度,再利用means‑Laplace机制实现k‑相关记录差分隐私保护;利用最大信息系数‑K‑Means算法将所述关联大数据进行r‑块划分,得到多个相互独立的数据子块;根据查询函数计算所述数据子块的相关敏感度,对每个数据子块进行所述k‑相关记录差分隐私保护;根据差分隐私组合性质,对所述关联大数据集进行r‑相关块差分隐私的保护。

【技术特征摘要】
1.一种关联大数据的隐私保护方法,其特征在于,包括:通过机器学习和最大信息系数构建关联大数据的因果关系模型;通过k-相邻数据集构建k-相关记录差分隐私保护模型;提供相关敏感度概念,通过所述因果关系模型计算所述k-相邻数据集的相关敏感度,再利用means-Laplace机制实现k-相关记录差分隐私保护;利用最大信息系数-K-Means算法将所述关联大数据进行r-块划分,得到多个相互独立的数据子块;根据查询函数计算所述数据子块的相关敏感度,对每个数据子块进行所述k-相关记录差分隐私保护;根据差分隐私组合性质,对所述关联大数据集进行r-相关块差分隐私的保护。2.根据权利要求1所述的关联大数据的隐私保护方法,其特征在于,所述k-相关记录差分隐私保护模型包括:其中,D1为大数据集,D2为大数据集D1中k条记录发生改变所生成,1≤k≤l,l为大数据集D1中的记录条数,为隐私机制,f为查询函数,Pr为概率分布,为实数集,∈为隐私预算。3.根据权利要求2所述的关联大数据的隐私保护方法,其特征在于,所述隐私机制满足f为查询函数,e为随机噪声,‖·‖1为1范数。4.根据权利要求2所述的关联大数据的隐私保护方法,其特征在于,D1和D2为关联大数据集,满足|D1ΔD2|=k,且1≤k≤l,大数据集D1中具有n个数据,l条相关记录,D2为大数据集D1中k条记录发生改变所生成。5.根据权利要求1所述的关联大数据的隐私保护方法,其特征在于,所述因果关系模型为经过回归分析后构建的神经网络模型。6.根据权利要求1所述的关联大数据的隐私保护方法,其特征在于,所述r-相关块差分隐私保护包括:为待发布数据集B的隐私机制,Pr为概率分布,f为查询函数,Bj和B-j为邻接数据集,为实数集...

【专利技术属性】
技术研发人员:朱诗兵吕登龙李长青刘冉
申请(专利权)人:中国人民解放军战略支援部队航天工程大学
类型:发明
国别省市:北京,11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1