【技术实现步骤摘要】
一种基于差分隐私的数据动态发布方法及系统
[0001]本专利技术涉及数据处理
,具体涉及一种基于差分隐私的数据动态发布方法及系统。
技术介绍
[0002]在当前的大数据时代中,为了使用户在多种繁杂的数据中快速有效的获取需要的信息;首先需要对各种数据进行收集、分类等相关处理,再将处理后的数据向公众发布。如,电影网站收集处理用户对电影的评分、评论等,并将其发布在网站平台上为公众提供观影参考。再如,医院定期收集季节性传染疾病等的患病信息,并将其汇总后进行发布以提醒公众采用相应的预防措施。又如,在智慧交通系统中,导航系统会收集各车辆的出行信息以预测交通状况,进行行车路线规划,进而避免交通阻塞等。
[0003]同时,由于任一数据均来源于具体的用户端,因此其势必会携带与用户相应的隐私信息。如电源网站在收集用户对电影的评分、评论时,需要获取用户的账号信息;从现在的虚拟账号信息多与用户的实际信息相关联。再如,医院进行患病信息收集时,需要获取患者包括年龄、性别、姓名等的基本身份信息。再如,在收集车辆出行信息时,则会同步获取驾驶人 ...
【技术保护点】
【技术特征摘要】
1.一种基于差分隐私的数据动态发布方法,其特征在于,包括:确定数据发布格式;其中,所述发布格式包括若干发布区间;确定一固定长度的滑动窗口,并使实时的数据流流过所述滑动窗口;同时基于DGIM算法对当前时刻内所述滑动窗口内所有桶的尺寸进行计数以获得当前时刻滑动窗口内数据的近似统计结果;其中,定义所述桶的尺寸为其内统计的1的个数;对于相邻两时刻的所述滑动窗口,仅有一比特位更新,并当更新的比特位上的数据为1时创建一新的桶;并通过时间戳较早的桶的合并使相同尺寸的桶的个数不超过预设个数;计算当前时刻与上一时刻的滑动窗口内的相似性结果,并基于随机扰动算法为所述相似度度量添加概率扰动以获得扰动相似性结果;若所述扰动相似性结果大于预设的扰动相似阈值,则确定所述当前时刻滑动窗口内数据的近似统计结果的待发布区间,并基于差分隐私算法对其处理后进行数据的更新及动态发布。2.根据权利要求1所述的基于差分隐私的数据动态发布方法,其特征在于,所述获得当前时刻滑动窗口内数据的近似统计结果,包括:对所有桶的尺寸进行求和以获取第一计数结果;计算时间戳最早的桶的尺寸的一半以获取第二计数结果;计算所述第一计数结果与所述第二计数结果间的差值以作为所述当前时刻滑动窗口内数据的近似统计结果。3.根据权利要求2所述的基于差分隐私的数据动态发布方法,其特征在于,所述相同尺寸的桶的预设个数,通过如下步骤确定:获取第i时刻所述滑动窗口内数据的真实统计结果为H
i
=1+(r
‑
1)(2
j
‑
1);其中,r为待确定的相同尺寸的桶的预设个数,2
j
为时间戳最早的桶的尺寸;确定第i时刻所述滑动窗口内数据的真实统计结果H
i
与近似统计结果间的误差为其中,2
j
‑1为与时间戳最早桶相邻的桶的尺寸;计算相同尺寸的桶的预设个数为:4.根据权利要求1所述的基于差分隐私的数据动态发布方法,其特征在于,所述计算当前时刻与上一时刻的滑动窗口内的相似性结果,并基于随机扰动算法为所述相似度度量添加概率扰动以获得扰动相似性结果;包括:计算当前时刻i的滑动窗口内的近似统计结果与上一时刻i
‑
1的滑动窗口内最终发布结果的相似性结果基于随机扰动算法获得一随机数,若所述随机数小于或等于扰动概率,则确定扰动相似性结果为区间(0,1)内任一数值;若所述随机数大于扰动概率,则判断所述相似性结果T是否大于相似性阈值T0;若T>T0,则确定扰动相似性结果为1;反之则确定扰动相似性结果为0;其中,所述扰动概率为其中,ε为通过M1算法计算的隐私预算,w为滑动
窗口的长度。5.根据权利要求1所述的基于差分隐私的数据动态发布方法,其特征在于,所述确定所述当前时刻滑动窗口内数据的近似统计结果的待发布区间,包括:采用动态规划分组算法确定所述当前所述当前时刻滑动...
【专利技术属性】
技术研发人员:王修君,郭昌,郑啸,张福南,
申请(专利权)人:合肥综合性国家科学中心人工智能研究院安徽省人工智能实验室,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。