【技术实现步骤摘要】
面向高维隐私数据的相关性数据交易框架的构造方法
[0001]本专利技术涉及数据安全、隐私计算等相关
,提出了一种面向高维隐私数据的相关性数据交易框架的构造方法。
技术介绍
[0002]随着移动计算技术的蓬勃发展,近年来用户行为数据爆炸性增长,通过对用户隐私数据的分析与探索,有助于机构或组织发现其目标用户特有的行为特征。数据隐私可以作为一种商品在数据市场上出售而被货币化。
[0003]传统数据交易工作只考虑了私有数据的数据发布问题,而未能实现考虑高维用户特征数据相关性的隐私量化,并且传统的数据扰动机制是对每个用户特征的隐私数据记录进行扰动,而不考虑多个特征之间内在的数据相关性。因此,当传统的数据扰动机制直接应用于高维隐私数据的交易时,会造成维度诅咒,从而导致数据效用降低。
技术实现思路
[0004]为了解决上述技术缺陷,本专利技术提供了一种面向高维隐私数据的相关性数据交易框架的构造方法,该方法提出基于近似最优特征聚类方案的新型数据扰动机制并量化了每个数据所有者在高维隐私数据集上的合理隐私损失,实现数据效用和隐私保护间的均衡。
[0005]本专利技术是一种面向高维隐私数据的相关性数据交易框架的构造方法,该构造方法包括如下步骤:步骤1:解决最优特征聚类(Optimal Attribute Clustering OAC)问题,获得最优特征聚类集合;步骤2:在步骤1获得的最优特征聚类的基础上选取合适的数据拥有者,采用选取的所述数据拥有者的数据构成的数据集对数据拥有者做出合理的隐私补偿;步骤 ...
【技术保护点】
【技术特征摘要】
1.一种面向高维隐私数据的相关性数据交易框架的构造方法,其特征在于:所述构造方法包括如下步骤步骤1:解决最优特征聚类问题,获得最优特征聚类集合;步骤2:在步骤1获得的最优特征聚类的基础上选取合适的数据拥有者,采用选取的所述数据拥有者的数据构成的数据集对数据拥有者做出合理的隐私补偿;步骤3:对步骤2所选的数据集使用数据扰动机制进行扰动;步骤4:对步骤3中扰动后的隐私数据集进行抽样,返回高维扰动数据集,同时对选中的数据拥有者以及对数据拥有者进行隐私补偿。2.根据权利要求1所述的面向高维隐私数据的相关性数据交易框架的构造方法,其特征在于:所述步骤1解决最优特征聚类问题,获得最优特征聚类集合具体包括如下步骤:步骤1
‑
1:根据输入的数据消费者查询请求,其中表示其目标用户的范围,表示其感兴趣的用户特征,为查询函数,为数据消费者能接受的最大拉普拉斯噪声方差,任意两个用户特征的数据相关性计算公式为:若用表示特征r的值域,则和分别代表任意两个特征m和n的值域,且和,表示特征值等于中第个值的概率,表示特征值等于中第个值的概率,是联合概率,根据相关性计算公式生成依赖图,顶点集包含所有的用户特征,矩阵元素表示两个特征是否相关,其初始值为0,任意两个用户特征的阈值公式为:,其中是一个固定参数,代表预期的依赖程度,当时,矩阵元素设为1,表示用户特征有相关性,由此可得到最终的依赖图;步骤1
‑
2:将步骤1
‑
1中得到的最终的依赖图三角化转化为联合树,得到一组初始特征聚类集合,减少数据集的维度;步骤1
‑
3:最优特征聚类问题是指通过步骤1
‑
1感兴趣的用户特征和步骤1
‑
2的初始特征聚类集合,将初始特征聚类集合合并成新的最优特征聚类集合,在满足(1)每个初始特征聚类属于且仅属于一个新最优特征聚类和满足(2)新的最优特征聚类集合包含所有初始特征聚类的条件下使得现有噪声总方差最小化;其中为最优特征聚类集合的元素个数, 为第i个最优特征聚类包含特征的个数,为隐私预算,为包含的特征,为特征的值域;
步骤1
‑
4:将最优特征聚类问题用数学表述:4:将最优特征聚类问题用数学表述:4:将最优特征聚类问题用数学表述:其中为最终生成的最优特征聚类集合的元素个数,为初始特征聚类的个数,表示每个特征i值域的大小,表示每个初始特征聚类中每个特征的值域的连乘积,0/1矩阵记录每个用户特征分配给初始特征聚类的方案,若表示第个用户特征分配给第个初始特征聚类,0/1矩阵记录初始特征聚类分配给最优特征聚类的方案,若表示第个初始特征聚类最终合并到第个新的最优特征聚类,同理表示第个初始特征聚类最终合并到第个新的最优特征聚类,是一个系数用来均衡目标函数中的两项,式(6)为方差最小化的目标函数的改写,目标函数的第一项恰好对应原始目标函数中的连乘积项,而第二项对应的是中的,式(7)表示初始特征聚类的分配情况,若则表示初始特征聚类被分配给最优特征聚类,若则表示初始特征聚类没有被分配给最优特征聚类,式(8)表示每个初始特征聚类属于且仅属于一个新的最优特征聚类,式(9)表示每个最优特征聚类至少由一个初始特征聚类组成,式(10)表示任意两个最优特征聚类与之间所包含对初始特征聚类的分配结果的差值要大于固定参数值;步骤1
‑
5:利用近似最优算法即ROP
‑
solution来确定最终的特征聚类方案,首先构建简化的目标函数,用指数函数和个变量来代替原来的复杂表达式:其中表示目标函数中第一项的上界值,用,使,则可得到新的约束条件此时函数,同时将式(7)的条件改为,表示第个初始特征聚类分配给第个最优特征聚类的概率,初始问题变为放缩的优化问题;步骤1
‑
6:近似最优算法R...
【专利技术属性】
技术研发人员:蔡惠,蓝晨,肖甫,周剑,盛碧云,
申请(专利权)人:南京邮电大学,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。