System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 一种具有差分隐私的数据流采样发布方法及系统技术方案_技高网

一种具有差分隐私的数据流采样发布方法及系统技术方案

技术编号:40007512 阅读:10 留言:0更新日期:2024-01-16 14:45
本发明专利技术提供一种具有差分隐私的数据流采样发布方法及系统,涉及信息安全领域;其方法通过一次扫描数据流,将数据流中每个元素的属性统计信息存储到一数据流采样草图结构EDS中,再根据该数据结构EDS的采集数据进行直方图生成和发布,能够快速的获得滑动窗口区间计数,并具有一定的数据保护效果;并且,本发明专利技术提出的基于数据流采样草图结构EDS的基于滑动窗口采样的自适应加噪直方图发布算法,进一步提高直方图生成的速度,减少了运行时间,并提供了满足用户所需要的隐私保护强度。本发明专利技术可以用于广泛的监控应用,能够快速处理数据流,快速生成具有差分隐私保护强度的直方图发布数据。

【技术实现步骤摘要】

本专利技术涉及信息安全,具体涉及一种具有差分隐私的数据流采样发布方法及系统


技术介绍

1、随着信息技术的快速发展,现有的众多应用往往需要动态发布统计信息,以便用户参考或根据发信信息进行规划。例如,网络流量分析和车辆交通监控。对于网络流量分析,网站每天从用户的网络流量中收集信息数据,包括用户浏览网站时获得的单个浏览信息(点击次数、搜索次数等),网站的工作人员分析这些浏览信息,根据用户的喜好推荐商品;对于车辆交通监测,车辆监测仪器每天收集车辆位置和移动数据的信息,包括在实时交通信息系统中,系统根据区域内车辆上传的信息,分析每个区域的当前交通状况,帮助车辆更快地计划前往目的地的行程,预测未来的交通状况,进而有效避免交通堵塞造成的损失。

2、现有的上述实际应用程序在进行数据发布时通常采用数据流滑动窗口模型的方式,进行发布时模型需要更多地强调最近的数据,而非历史数据;在历史数据中,最近的数据可以更好地指示现有条件的趋势,并且需要快速处理这些数据。例如,购物app产品推荐时,更多的是以近阶段用户浏览数据,过时数据如超过3个月的数据在数据推荐会弃用。直接保留并发布用户的最新数据,会导致个人隐私数据的泄露,故需要研究在滑动窗口上发布数据的隐私问题,即如何在滑动窗口模型上执行快速数据处理和执行数据隐私释放的问题。

3、目前,无论是静态数据集还是动态数据流,都有许多关于数据发布的技术方案。然而,现有技术中提出的方法并不适用于数据流滑动窗口模型。具体的,在发布滑动窗口的直方图时,存在两个缺点:(1)现有的数据流方法对最近的元素关注较少,没有快速统计滑动窗口中的数据的方法;(2)现有的数据流直方图方法采用的数据流统计方法仅仅直接统计,并没有做噪音量化;(3)现有方法在构造直方图时需要扫描每个滑动窗口数据,造成了较高的运行开销和存储开销。


技术实现思路

1、本专利技术目的在于提供一种具有差分隐私的数据流采样发布方法及系统,该方法综合滑动窗口采样和数据实时发布,不仅实时关注最新数据,在用于数据流的差分隐私发布时,具有较低的运行开销和存储开销。

2、为达成上述目的,本专利技术提出如下技术方案:一种具有差分隐私的数据流采样发布方法,包括:

3、确定数据流中数据待发布直方图的区间;

4、对待发布直方图的所有区间,采用数据流采样草图结构eds对当前时刻滑动窗口内的数据进行采样,获取当前时刻的采样集合;

5、根据当前时刻的采样集合,获取当前时刻滑动窗口内所有区间的统计结果;

6、根据统计结果、预设的隐私预算,采用基于滑动窗口采样的自适应加噪直方图发布算法发布当前时刻滑动窗口的直方图;

7、其中,采用数据流采样草图结构eds对当前时刻滑动窗口内的数据进行采样的过程为:

8、定义一数据流ds、ds={e1,e2,...,et,...}(t≥0),滑动窗口的大小为w、当前时刻t的当前元素为et、当前窗口采样的中间集合s+、当前时刻的采样集合s、采样的中间集合大小s+、采样集合大小s、随机性增强因子b,令b=s+-s,则有

9、确定随机性增强因子b的一固定值,当数据流进入滑动窗口模型中,采用滑动窗口采样算法获得当前窗口采样的中间集合s+;再从采样的中间集合s+中随机选择s条数据,放入并生成采样集合s;

10、其中,滑动窗口采样算法在任一时刻获得当前窗口采样的中间集合s+的过程为,对于任一时刻的当前元素et∈ds做如下处理:

11、对于当前时刻t≤s+的当前元素et,将当前元素et直接放入采样中间集合s+;

12、对于当前时刻s+<t≤w的当前元素et,将当前元素et以(s+b)/t的概率插入采样中间集合s+;

13、对于当前时刻t>w的当前元素et,判断当前采样中间集合s+中最老元素是否过期;若该最老元素过期,则在当前采样中间集合s+删去该最老元素并插入当前元素et;若该最老元素未过期,则当前元素et不插入集合,保持当前采样中间集合s+不变。

14、进一步的,由当前窗口采样的中间集合s+生成采样集合s的过程为:

15、对于当前时刻t≤s+,采样集合s等于从当前窗口采样的中间集合s+中随机删除max(0,s+-s)个元素后的集合;

16、对于当前时刻s+<t≤w,采样集合s等于从当前窗口采样的中间集合s+中随机删除b个元素后的集合;

17、对于当前时刻t>w,采样集合s等于从当前窗口采样的中间集合s+中随机删除b个元素后的集合。

18、进一步的,定义自适应发布当前时刻滑动窗口直方图的总误差为errspf、数据流采样草图结构eds对当前时刻滑动窗口的采样误差为erreds、基于滑动窗口采样的自适应加噪直方图发布算法发布直方图的自适应加噪误差为errsn,则有errspf=errsn+erreds;

19、定义用户满意的发布当前时刻滑动窗口直方图的噪音误差为erruser,故存在errspf=erruser,erruser=errsn+erreds,errsn=erruser-erreds;

20、所述基于滑动窗口采样的自适应加噪直方图发布算法为根据用户满意的发布当前时刻滑动窗口直方图的噪音误差erruser与数据流采样草图结构eds对当前时刻滑动窗口的采样误差erreds的差值调整基于滑动窗口采样的自适应加噪直方图发布算法发布直方图的自适应加噪误差errsn。

21、进一步的,所述获取当前时刻滑动窗口内所有区间的统计结果的过程为:

22、从采样集合s中获取待发布直方图所有区间的采样结果,该采样结果记为gs;

23、根据采样结果gs计算当前时刻滑动窗口内所有区间的统计结果,该统计结果记为gw,

24、进一步的,所述自适应发布当前时刻滑动窗口直方图总误差errspf的过程如下:

25、获取当前时刻滑动窗口内所有区间的噪音结果其中,ε2表示为防止真实数据泄露添加的隐私预算;

26、计算总误差errspf,总误差errspf为当前时刻滑动窗口内所有区间的噪音结果与当前时刻滑动窗口内所有区间的真实数据之间的均方误差。

27、本专利技术另一技术方案在于公开一种具有差分隐私的数据流采样发布系统,该系统包括:

28、确定模块,用于确定数据流中数据待发布直方图的区间;

29、采样模块,用于对待发布直方图的所有区间,采用数据流采样草图结构eds对当前时刻滑动窗口内的数据进行采样,获取当前时刻的采样集合;

30、获取模块,用于根据当前时刻的采样集合,获取当前时刻滑动窗口内所有区间的统计结果;

31、发布模块,用于根据统计结果、预设的隐私预算,采用基于滑动窗口采样的自适应加噪直方图发布算法发布当前时刻滑动窗口的直方图;

32、其中,采样模块采用数据流采样草图结构eds对当前时刻滑动窗口内的数据进行采样的过程本文档来自技高网...

【技术保护点】

1.一种具有差分隐私的数据流采样发布方法,其特征在于,包括:

2.根据权利要求1所述的具有差分隐私的数据流采样发布方法,其特征在于,由当前窗口采样的中间集合S+生成采样集合S的过程为:

3.根据权利要求1所述的具有差分隐私的数据流采样发布方法,其特征在于,定义自适应发布当前时刻滑动窗口直方图的总误差为ErrSPF、数据流采样草图结构EDS对当前时刻滑动窗口的采样误差为ErrEDS、基于滑动窗口采样的自适应加噪直方图发布算法发布直方图的自适应加噪误差为ErrSN,则有ErrSPF=ErrSN+ErrEDS;

4.根据权利要求3所述的具有差分隐私的数据流采样发布方法,其特征在于,所述获取当前时刻滑动窗口内所有区间的统计结果的过程为:

5.根据权利要求4所述的具有差分隐私的数据流采样发布方法,其特征在于,所述自适应发布当前时刻滑动窗口直方图总误差ErrSPF的过程如下:

6.一种具有差分隐私的数据流采样发布系统,其特征在于,包括:

7.根据权利要求6所述的具有差分隐私的数据流采样发布系统,其特征在于,所述采样模块中由当前窗口采样的中间集合S+生成采样集合S的过程为:

8.根据权利要求6所述的具有差分隐私的数据流采样发布系统,其特征在于,所述发布模块中采用基于滑动窗口采样的自适应加噪直方图发布算法发布当前时刻滑动窗口的直方图的过程为:

9.根据权利要求8所述的具有差分隐私的数据流采样发布系统,其特征在于,所述获取模块获取当前时刻滑动窗口内所有区间的统计结果的过程为:

10.一种电子设备,其特征在于,包括处理器和存储器,所述存储器中存储有计算机程序,所述计算机程序由所述处理器加载并执行以实现如权利要求1-5任一项所述的具有差分隐私的数据流采样发布方法。

...

【技术特征摘要】

1.一种具有差分隐私的数据流采样发布方法,其特征在于,包括:

2.根据权利要求1所述的具有差分隐私的数据流采样发布方法,其特征在于,由当前窗口采样的中间集合s+生成采样集合s的过程为:

3.根据权利要求1所述的具有差分隐私的数据流采样发布方法,其特征在于,定义自适应发布当前时刻滑动窗口直方图的总误差为errspf、数据流采样草图结构eds对当前时刻滑动窗口的采样误差为erreds、基于滑动窗口采样的自适应加噪直方图发布算法发布直方图的自适应加噪误差为errsn,则有errspf=errsn+erreds;

4.根据权利要求3所述的具有差分隐私的数据流采样发布方法,其特征在于,所述获取当前时刻滑动窗口内所有区间的统计结果的过程为:

5.根据权利要求4所述的具有差分隐私的数据流采样发布方法,其特征在于,所述自适应发布当前时刻滑动窗口直...

【专利技术属性】
技术研发人员:王修君莫磊郑啸
申请(专利权)人:安徽工业大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1