基于本地差分隐私的数据流直方图发布方法技术

技术编号:33631239 阅读:32 留言:0更新日期:2022-06-02 01:35
本发明专利技术公开了一种基于本地差分隐私的数据流直方图发布方法,首先给定长度为T的数据流D,服务器设置并初始化滑动窗口w

【技术实现步骤摘要】
基于本地差分隐私的数据流直方图发布方法


[0001]本专利技术属于信息安全
,具体涉及一种基于本地差分隐私的数据流直方图发布方法。

技术介绍

[0002]直方图作为一种简单直观有效的统计工具,在医疗数据分析,数据共享等领域有着广泛的应用。数据收集者(服务器)收集,统计,汇总,并绘制直方图发布。在数据发布给人们提供便利的同时,如果不加入任何隐私保护技术,则会导致隐私泄露给用户带来不可估计的伤害。隐私泄露包含两个方面,一是,直接发布原始数据的直方图则会遭到攻击者利用一些攻击模型来获取敏感信息,导致用户个人敏感信息的隐私泄露。另一方面,服务器绘制直方图进行发布需要获取用户的原始数据信息,若存储用户原始数据的数据库遭到非法攻击导致原始数据的泄露,或者服务器本身就是不可信任的,则也会导致用户的隐私泄露。如何根据数据流发布直方图保证其有效性的同时保护用户的隐私显得至关重要。
[0003]差分隐私对数据库的隐私泄露问题提出一种新的隐私保护定义,无论对手的背景知识如何,差分隐私都能够提供可靠的隐私保护。中心化差分隐私基于一个可信任的第三方服务器的假设前提上,用户直接将原始数据发送到服务器,然后服务器利用满足差分隐私的算法对数据进行处理,最后发布满足差分隐私的统计信息。然而,当服务器变得不可信任的时候,数据可能在服务器端遭到泄露。本地差分隐私是2013年Duchi等人提出的,其在中心化差分隐私的基础上,弥补了中心化差分隐私可信第三方服务器假设的缺陷。近年来,众多学者提出了针对频数统计和均值统计的本地差分隐私研究方案。但是提供本地化差分隐私保护的数据流直方图发布方案尚属空白。将本地差分隐私与数据流的直方图发布相结合,能有效的保证实时发布的用户数据的隐私,同时保证发布数据的数据可用性。基于本地差分隐私的数据流直方图发布方法具有更重要的实际应用意义。

技术实现思路

[0004]本专利技术的目的是提供一种基于本地差分隐私的数据流直方图发布方法,利用本地差分隐私保护模型,保证用户的隐私,利用滑动窗口模型保证发布的直方图的数据可用性。
[0005]本专利技术所采用的技术方案是,基于本地差分隐私的数据流直方图发布方法,具体按照以下步骤实施:
[0006]步骤1、给定长度为T的数据流D,服务器设置并初始化滑动窗口w
i
,其中i为滑动窗口的时间戳标识符,初次发送滑动窗口,即i=1,此外滑动窗口的属性还包括时间戳间隔单位大小和滑动窗口大小,这两个属性在算法发布直方图的过程中保持不变;
[0007]步骤2、滑动窗口w
i
一个时间单位,服务器端将滑动窗口的属性数据发送到用户端,用户收到滑动窗口w
i
的属性数据之后,判断本地数据的时间戳是否在当前滑动窗口内,若是,则计算需要分配在每个时间戳上的隐私预算,将本地数据d
ij
使用k

RR扰动机制得到扰动后的数据并将发送到服务器端;
[0008]步骤3、服务器收到不同用户发送的数据集其中是由步骤2中用户的发送数据组成,既并统计的不同取值的频数其中k是用户数据不同值的序号,之后对进行无偏估计,得到sum

ik
,其中sum

ik
是对的无偏估计,根据绘制直方图并发布;
[0009]步骤4、滑动窗口w
i
每滑动一个时间单位,则执行一次步骤2和步骤3,服务器不停绘制直方图并实时发布,直到滑动窗口到达数据流末尾,则所有直方图绘制发布流程结束。
[0010]本专利技术的特点还在于,
[0011]步骤1具体按照以下步骤实施:
[0012]发布第一个直方图打1时,服务器首先发送滑动窗口w
i
的属性数据之后位于滑动窗口内的用户将数据d
ij
在本地添加随机扰动噪声,得到并发送给服务器,服务器端接收到来自时间戳1的数据其中此时滑动窗口真实长度为|w1|=1;
[0013]对于初始时间戳的用户来说此次用于扰动数据的隐私预算为∈

=∈/|w
i
|,其中|w
i
|为服务器预设值,∈是总隐私预算,滑动窗口的真实长度随新的时间戳到来慢慢增长,直到增长到服务器预设值|w
i
|;并且,滑动窗口的大小|w
i
|在之后直方图发布的过程中保持不变。
[0014]步骤2具体按照以下步骤实施:
[0015]步骤2.1、滑动窗口w
i
到达时,用户j判断自己的时间戳的位置,若是首次进入滑动窗口w
i
中,则同样需要计算每次需要消耗的隐私预算∈

=∈/|w
i
|,并且在之后的(w
i

1)个时间戳内,直接使用∈

作为扰动机制需要消耗的隐私预算,若时间戳的位置位于滑动窗口w
i
外,则判定为失效数据,不进行任何操作;
[0016]步骤2.2、位于当前滑动窗口w
i
内的用户使用k

RR随机响应机制扰动数据,k

RR随机响应机制满足以下公式:
[0017][0018]其中,P(R

|R)表示输入值为R且输出值为R

的概率,本专利技术中用户输入数据为dij,输出的数据为∈为隐私预算,K为输入数据R的取值范围大小,k

RR随机响应机制输入的数据值与扰动输出的数据值相等的概率为输出任意其他的数据值的概率为
[0019]用户将扰动后的数据值与相对应的隐私预算值打包发送给服务器;
[0020]步骤2.3、时间戳位于滑动窗口w
i
内的用户都执行步骤2.2。
[0021]步骤3具体按照以下步骤实施:
[0022]步骤3.1、服务器端得到用户发送的数据集其中统计不同用户数
据取值的频数其中k是用户数据不同值的序号;
[0023]步骤3.2、估计不同特征值的频数其中第k个特征值的频数为根据以下公式估计得到的无偏估计值为sum

ik

[0024][0025]其中,sum

ik
是原始频数sum
ik
的无偏估计值,K为输入的用户数据d
ij
的取值范围大小,n为用户个数;
[0026]步骤3.3、服务器根据sum

ik
,绘制直方图,其中直方图的横坐标表示用户数据的不同取值,纵坐标表示不同用户数据取值的频数sum

ik
,并发布。
[0027]步骤4具体按照以下步骤实施:
[0028]滑动窗口w
i
发布当前窗口内数据的直方图之后,会随着新的时间戳到来向前滑动一个时间单位,既i=i+1,与步骤1中方法相同,再次向用户本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.基于本地差分隐私的数据流直方图发布方法,其特征在于,具体按照以下步骤实施:步骤1、给定长度为T的数据流D,服务器设置并初始化滑动窗口w
i
,其中i为滑动窗口的时间戳标识符,初次发送滑动窗口,即i=1,此外滑动窗口的属性还包括时间戳间隔单位大小和滑动窗口大小,这两个属性在算法发布直方图的过程中保持不变;步骤2、滑动窗口w
i
一个时间单位,服务器端将滑动窗口的属性数据发送到用户端,用户收到滑动窗口w
i
的属性数据之后,判断本地数据的时间戳是否在当前滑动窗口内,若是,则计算需要分配在每个时间戳上的隐私预算,将本地数据d
ij
使用k

RR扰动机制得到扰动后的数据并将发送到服务器端;步骤3、服务器收到不同用户发送的数据集其中是由步骤2中用户的发送数据组成,既并统计的不同取值的频数其中k是用户数据不同值的序号,之后对进行无偏估计,得到sum

ik
,其中sum

ik
是对的无偏估计,根据绘制直方图并发布;步骤4、滑动窗口w
i
每滑动一个时间单位,则执行一次步骤2和步骤3,服务器不停绘制直方图并实时发布,直到滑动窗口到达数据流末尾,则所有直方图绘制发布流程结束。2.根据权利要求1所述的基于本地差分隐私的数据流直方图发布方法,其特征在于,所述步骤1具体按照以下步骤实施:发布第一个直方图H1时,服务器首先发送滑动窗口w
i
的属性数据之后位于滑动窗口内的用户将数据d
ij
在本地添加随机扰动噪声,得到并发送给服务器,服务器端接收到来自时间戳1的数据其中此时滑动窗口真实长度为|w1|=1;对于初始时间戳的用户来说此次用于扰动数据的隐私预算为∈

=∈/|w
i
|,其中|w
i
|为服务器预设值,∈是总隐私预算,滑动窗口的真实长度随新的时间戳到来慢慢增长,直到增长到服务器预设值|w
i
|;并且,滑动窗口的大小|w
i
|在之后直方图发布的过程中保持不变。3.根据权利要求2所述的基于本地差分隐私的数据流直方图发布方法,其特征在于,所述步骤2具体按照以下步骤实施:步骤2.1、滑动窗口w
i
到达时,用户j判断自己的时间戳的位置,若是首次进入滑动窗口w
i
中,则同样需要计算每次需要消耗的隐私预算∈<...

【专利技术属性】
技术研发人员:张亚玲曹博
申请(专利权)人:西安理工大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1