【技术实现步骤摘要】
基于自适应数据域划分的保隐私高维数据范围查询方法
[0001]本专利技术属于数据隐私保护领域,尤其涉及一种基于自适应数据域划分的保隐私高维数据范围查询方法。
技术介绍
[0002]随着人们对个人隐私权的重视,数据收集者在采集分析数据过程中需要考虑用户敏感数据的保隐私。利用本地差分隐私技术,用户在本地对自己的真实数据进行扰动后上传,可以达到数据保隐私的目的。对于范围查询任务,现有方法按照数据维度可分为两类。对于低维(1维)数据场景,Wang等
[1]提出基于完整B叉树结构对整个数据域进行多力度层次分解,并通过累加不同粒度频率估计值来回答范围查询;Cormode等
[2]提出应用离散小波变换将每个用户的真实数据转换为Haar小波系数向量后进行扰动,并对系数估计值进行逆变换以获得查询结果。对于高维(≥2维)数据场景,Yang等
[3]提出结合一维、二维的频率估计结果,并利用加权更新方法来完成高维范围查询任务。
[0003]然而现有的方法存在以下问题。首先,大多数真实世界数据集的数据域中都存在稀疏区域
【技术保护点】
【技术特征摘要】
1.一种基于自适应数据域划分的保隐私高维数据范围查询方法,其特征在于,包括:(1)数据收集者设置待收集用户属性集合、二维数据域、初始数据域划分方式、隐私预算,其中用户属性集合中包含至少两个用户属性,将属性两两组合计算属性组合总数,将二维数据域、初始数据域划分方式、隐私预算、属性组合总数发送给每个用户;(2)用户从1到属性组合总数之间选择一个正整数作为组号,将组号返回数据收集者;(3)数据收集者随机选择一个用户组,选择一个未进行频率分布估计的二维属性组合发送给该组每个用户;同时,根据划分段数和二维数据域确定子用户组数发送给该组每个用户;(4)用户从1到子用户组数之间选择一个正整数作为子组号,将子组号返回数据收集者;(5)数据收集者随机选择一个子用户组,将初始数据域划分方式发送给该组的每个用户;用户根据初始数据域划分方式对二维属性组合数据域进行划分,基于划分方式将具体属性值编码为独热向量,用户基于隐私预算计算出扰动翻转概率,对独热向量中的每一位进行扰动翻转,将扰动后的独热向量发送给数据收集者;数据收集者将收到的独热向量逐位累加,并根据扰动翻转概率计算用户数据在数据域划分方式下的频率分布估计;数据收集者将原始数据域作为根节点,切分得到的子数据域作为叶子节点构建划分树,并将子数据域频率估计值填写到对应的叶子节点;(6)数据收集者判断是否已经遍历所有的子用户组,如果是,则用户信息收集完毕,执行步骤(8),否则执行步骤(7);(7)数据收集者根据数据域划分方式和对应的频率分布估计,产生新的数据域划分方式,将新的数据域划分方式发送给剩余的某一组用户,循环执行步骤(5)到步骤(7);(8)数据收集者获得不同数据域划分方式下的用户数据频率分布估计,并通过非负化处理、加权平均和数据补全,得到多粒度频率分布估计完整划分树;(9)数据收集者判断是否已经遍历所有的用户组,如果是,则用户信息收集完毕,执行步骤(10),否则循环执行步骤(3)到步骤(8)对剩余的二维属性组合进行频率分布估计;(10)数据收集者通过属性一致化处理,得到最终用于回答高维数据范围查询任务的二维多粒度频率分布估计完整划分树集合;(11)数据收集者收到高维范围查询分析任务后,采用最大熵优化由二维频率估计结果计算高维数据范围查询结果。2.根据权利要求1所述的一种基于自适应数据域划分的保隐私高维数据范围查询方法,其特征在于,所述步骤(1)中,所述数据域划分方式采用均匀划分,划分段数B取4。3.根据权利要求1所述的一种基于自适应数据域划分的保隐私高维数据范围查询方法,其特征在于,所述步骤(3)中,所述子用户组数c通过公式c=log
B
|D|2计算得到,D2表示二维数据域,B表示划分段数,在设置数据域D2时,需要满足数据域尺寸|D|2为B的整数次幂。4.根据权利要求1所述的一种基于自适应数据域划分的保隐私高维数据范围查询方法,其特征在于,所述步骤(5)中,数据收集者将该组用户上传的扰动后的独热向量x
′
进行逐位累加,计算每个子数据域内的频率估计值计算公式如下:
其中v表示独热向量中的某一位,count[v]表示该位上x
′
累加结果,N表示该组的用户总数,p,q为翻转概率。5.根据权利要求1所述的一种基于自适应数据域划分的保隐私高维数据范围查询方法,其特征在于,所述步骤(7)具体为:数据收集者将初始数据域划分方式E0下每个子数据域的频率估计值与划分阈值θ进行比较;如果子数据域频率估计值大于划分阈值,则对该子数据域沿两个维度继续切分为更小的子数据域,作为切分前子数据域的叶子节点添加到划分树中,否则该子数据域不再进行划分;当E0下所有子数据域的频率估计值与划分阈值θ完成比较,并完成进一步划分后,得到新的数据域划分方式E1;数据收集者将新的数据域划分方式E1发送给剩余的某一组用户,循环执行步骤(5)到步骤(7)。6.根据权利要求5所述的一种基于自适应数据域划分的保隐私高维数据范围查询方法,其特征在于,所述划分阈值θ由以下公式计算得到:其中B为划分段数,∈为隐私预算,c为子用户组数。7.根据权利要求1所述的一种基于自适应数据域划分的保隐私高维数据范围查询方法,其特征在于,所述步骤(8)中,所述非负化处理具体为:频率分布估计内的频率值应满足频率值之和等于1且频率值大于0,非负化处理首先将频率分布估计内为负的频率值变为0,之后将偏置δ添加分布估计内的每个频率值上来保持总和为1,如处理后的分布估计还存在负值,那么重复上述操作直到分布估计内最小值为0;所述加权平均具体为:数据收集者计算划分树中非叶节点n频率估计值与其子节点u频率估计值之和的加权平均值,更新节点n的频率估计值,更新公式如下:其中表示更新之后的频率估计值,由节点n和其子节点u的扰动方差计算得到;所述数据补全具体为...
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。