基于抽样分组的差分隐私直方图发布方法及设备技术

技术编号:36262581 阅读:12 留言:0更新日期:2023-01-07 10:01
本发明专利技术提供了一种基于抽样分组的差分隐私直方图发布方法及设备。所述方法包括:步骤S1至步骤S6。本发明专利技术在分组划分阶段采用指数机制对直方图进行抽样划分,满足差分隐私约束,通过直方图进行抽样近似划分,能够在满足差分隐私的同时,有效地提升分组的准确性;通过对分组过程进行合理优化,提升了分组的准确性,进而降低了发布数据的误差,提升了发布数据的可用性。可用性。可用性。

【技术实现步骤摘要】
基于抽样分组的差分隐私直方图发布方法及设备


[0001]本专利技术实施例涉及数据隐私保护
,尤其涉及一种基于抽样分组的差分隐私直方图发布方法及设备。

技术介绍

[0002]随着信息化数字化时代的到来,整个社会产生着越来越多数据。对这些数据进行合理采用,能够产生巨大的价值。因此,数据拥有者通常会将数据发布给专业机构进行价值提取。但这也会造成一个问题,数据通常会包含用户的一些隐私,若将其直接发布,很容易被黑客窃取,造成用户隐私泄露。因此,在数据发布之前对数据进行去隐私化处理。差分隐私是一种有效的隐私保护手段,也是一个良好的数学模型,能够为数据隐私保护提供量化的支持。但差分隐私在保护数据隐私的也会对数据的可用性造成一定影响,因此,如何在保护数据隐私的同时,提升数据的可用性也是差分隐私使用者着重考虑的问题。直方图是分析数据流的常用统计分析技术。智慧城市物联传感器网络、疾病应急控制、城市防灾减灾、智能交通应用场景中存在大量的实时动态数据流统计分析任务。由于数据流中通常蕴含着敏感的企业和个人信息,直接发布直方图统计信息可能会披露企业和个人隐私。因此,开发一种基于抽样分组的差分隐私直方图发布方法及设备,可以有效克服上述相关技术中的缺陷,就成为业界亟待解决的技术问题。

技术实现思路

[0003]针对现有技术存在的上述问题,本专利技术实施例提供了一种基于抽样分组的差分隐私直方图发布方法及设备。
[0004]第一方面,本专利技术的实施例提供了一种基于抽样分组的差分隐私直方图发布方法,包括:步骤S1:隐私预算设置:令ε=ε1+ε2;步骤S2:分组中心选取:设置分组数K,从原始直方图H={h1,h2,...,h
n
}选取K个中心点得到分组中心点集合C(C1,C2,...,C
k
);步骤S3:抽样分组:将C中每个中心点视为一个单独的分组得到g(g1,g2,...,g
k
),并对剩余的非中心点桶进行逐次单个抽取,每抽取一次,计算出抽取桶与每个分组的分组中心的距离,利用指数机制结合分组距离计算出划分到每个分组概率,利用轮盘选取目标分组,并将该桶划分到选取的目标分组中;并最终形成G(G1,G2,...,G
k
);步骤S4:分组求取均值:将分组G求取均值得到步骤S5:噪声添加:对添加大小为ε2的Lapalce噪声得到步骤S6:对恢复原始直方图顺序得到差分隐私直方图其中,ε为总隐私预算,ε1为抽样分组过程消耗的隐私预算;ε2为分组求取均值之后添加噪声消耗的隐私预算,H={h1,h2,...,h
n
}表示原始直方图;h1,h2,...,h
n
表示直方图中的桶,n为原始直方图桶的总数;K表示人为设定的分组中心个数,为非负且非零的整数;C(C1,C2,...,C
k
)表示选取的分组中心点所组成的中心点集合,k表示中心点集合的分组数,其值与K相等;g(g1,g2,...,g
k
)表示将C中每个中心点视为一个单独的分组所得到的初始分组集合;
g1,g2,...,g
k
表示初始分组集合中的分组序列;G(G1,G2,...,G
k
)表示通过抽样划分之后得到的最终分组,G1,G2,...,G
k
表示最终分组中的分组序列;表示对最终分组G求均值得到的均值分组,表示均值分组中的分组序列;表示对均值分组添加大小为ε2的拉普拉斯噪声所得到的噪声分组,表示噪声分组中的分组序列;表示对恢复原始直方图顺序的差分隐私直方图。
[0005]在上述方法实施例内容的基础上,本专利技术实施例中提供的基于抽样分组的差分隐私直方图发布方法,步骤S1中ε1用于抽样分组,ε2用于分组加噪。
[0006]在上述方法实施例内容的基础上,本专利技术实施例中提供的基于抽样分组的差分隐私直方图发布方法,步骤S2包括以下步骤:S2.1、设置分组数K,其中K=1,2,3,...,n;S2.2、从原始数据中随机挑选一个桶作为初始中心点C1;S2.3、计算每个桶到已有中心点的最短距离D(x);S2.4、根据D(x)计算出每个桶被选取作为下一中心点的概率,利用轮盘抽样选取出下一中心点;S2.5、重复步骤S2.3与S2.4,直至选出K个分组中心点C(C1,C2,...,C
k
)。
[0007]在上述方法实施例内容的基础上,本专利技术实施例中提供的基于抽样分组的差分隐私直方图发布方法,步骤S3包括以下步骤:S3.1将C中每个中心点视为一个单独的分组,得到分组集合g(g1,g2,...,g
k
);S3.2将去除中心点的剩余直方图数据放入集合S中;S3.3从S中随机抽取一个桶,计算出抽取桶与每个分组的分组中心的距离u(g,g
j
),并将其设置为打分函数:
[0008]u(g,g
j
)=

h

C
j
[0009]其中h是从S中抽取的桶,;C
j
∈C,j=1,2,3...,k且C
j
是分组g
j
的分组中心,打分函数设置应满足要求:抽取桶与分组中心越近,分组被抽样的概率就越大;因此为了满足此要求,采用抽取桶h与分组中心C
j
之间距离的相反数来构造打分函数;S3.4利用指数机制结合分组距离计算出划分到每个分组的概率Pr(g,g
j
):
[0010][0011]其中,分组概率Pr(g,g
j
)用以表示分组g
j
被选为目标分组的概率,ε1表示给定的隐私预算;Δu为全局敏感度;u(g,g
j
)为打分函数;根据全局敏感度的定义可知;打分函数在相邻数据集上的最大变化为1,因此这里的Δu=1,K表示分组数;为分组g
j
的适应度函数;分子计算的是某一个分组的适应度值,分母计算的是所有分组的的适应度值的总和;S3.5根据每个分组对应的抽样概率;利用轮盘选取目标分组,并将该桶划分到选取的目标分组中;S3.6重复步骤S3.3

S3.5步直至抽取完S中所有的桶,循环结束。得到最终分组方案G(G1,G2,...,G
k
)。
[0012]在上述方法实施例内容的基础上,本专利技术实施例中提供的基于抽样分组的差分隐私直方图发布方法,步骤S5中分组添加噪音的隐私预算为ε2。
[0013]第二方面,本专利技术的实施例提供了一种基于抽样分组的差分隐私直方图发布装置,包括:第一主模块,用于实现步骤S1:隐私预算设置:令ε=ε1+ε2;步骤S2:分组中心选取:设置分组数K,从原始直方图H={h1,h2,...,h
n
}选取K个中心点得到分组中心点集合C(C1,C2,...,C
k
);第二主模块,用于实现步骤S3:抽样分组:将C中每个中心点视为一个单独的分组得到g(g1,g2,...,g
...

【技术保护点】

【技术特征摘要】
1.一种基于抽样分组的差分隐私直方图发布方法,其特征在于,包括:步骤S1:隐私预算设置:令ε=ε1+ε2;步骤S2:分组中心选取:设置分组数K,从原始直方图H={h1,h2,...,h
n
}选取K个中心点得到分组中心点集合C(C1,C2,...,C
k
);步骤S3:抽样分组:将C中每个中心点视为一个单独的分组得到g(g1,g2,...,g
k
),并对剩余的非中心点桶进行逐次单个抽取,每抽取一次,计算出抽取桶与每个分组的分组中心的距离,利用指数机制结合分组距离计算出划分到每个分组概率,利用轮盘选取目标分组,并将该桶划分到选取的目标分组中;并最终形成G(G1,G2,...,G
k
);步骤S4:分组求取均值:将分组G求取均值得到步骤S5:噪声添加:对添加大小为ε2的Lapalce噪声得到步骤S6:对恢复原始直方图顺序得到差分隐私直方图其中,ε为总隐私预算,ε1为抽样分组过程消耗的隐私预算;ε2为分组求取均值之后添加噪声消耗的隐私预算,H={h1,h2,...,h
n
}表示原始直方图;h1,h2,...,h
n
表示直方图中的桶,n为原始直方图桶的总数;K表示人为设定的分组中心个数,为非负且非零的整数;C(C1,C2,...,C
k
)表示选取的分组中心点所组成的中心点集合,k表示中心点集合的分组数,其值与K相等;g(g1,g2,...,g
k
)表示将C中每个中心点视为一个单独的分组所得到的初始分组集合;g1,g2,...,g
k
表示初始分组集合中的分组序列;G(G1,G2,...,G
k
)表示通过抽样划分之后得到的最终分组,G1,G2,...,G
k
表示最终分组中的分组序列;表示对最终分组G求均值得到的均值分组,表示均值分组中的分组序列;表示对均值分组添加大小为ε2的拉普拉斯噪声所得到的噪声分组,表示噪声分组中的分组序列;表示对恢复原始直方图顺序的差分隐私直方图。2.根据权利要求1所述的基于抽样分组的差分隐私直方图发布方法,其特征在于,步骤S1中ε1用于抽样分组,ε2用于分组加噪。3.根据权利要求2所述的基于抽样分组的差分隐私直方图发布方法,其特征在于,步骤S2包括以下步骤:S2.1、设置分组数K,其中K=1,2,3,...,n;S2.2、从原始数据中随机挑选一个桶作为初始中心点C1;S2.3、计算每个桶到已有中心点的最短距离D(x);S2.4、根据D(x)计算出每个桶被选取作为下一中心点的概率,利用轮盘抽样选取出下一中心点;S2.5、重复步骤S2.3与S2.4,直至选出K个分组中心点C(C1,C2,...,C
k
)。4.根据权利要求3所述的基于抽样分组的差分隐私直方图发布方法,其特征在于,步骤S3包括以下步骤:S3.1将C中每个中心点视为一个单独的分组,得到分组集合g(g1,g2,...,g
k
);S3.2将去除中心点的剩余直方图数据放入集合S中;S3.3从S中随机抽取一个桶,计算出抽取桶与每个分组的分组中心的距离u(g,g
j
),并将其设置为打分函数:u(g,g
j
)=

|h

C
j
|其中h是从S中抽取的桶,;C
j
∈C,j=1,2,3...,k且C
j
是分组g
j
的分组中心,打分函数设置应满足要求:抽取桶与分组中心越近,分组被抽样的概率就越大;因此为了满足此要求,采用抽取桶h与分组中心C
j
之间距离的相反数来构造...

【专利技术属性】
技术研发人员:黄龙彬李峰
申请(专利权)人:武汉航城智慧科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1