面向高维隐私数据的相关性数据交易框架的构造方法技术

技术编号:36439539 阅读:20 留言:0更新日期:2023-01-20 22:54
本发明专利技术涉及数据安全、隐私计算等相关技术领域,提出了一种面向高维隐私数据的相关性数据交易框架的构造方法,包括:建立高维用户特征之间的数据相关性模型;建立初始特征聚类方案;通过设计近似最优算法解决最优特征聚类问题;在最优特征聚类的基础上设计了一种新的数据扰动机制,生成与原始数据具有相近联合分布的隐私保护的高维数据集;基于近似最优的特征聚类方案对隐私损失进行量化。本发明专利技术主要包含数据扰动机制与隐私补偿机制,平衡了数据效用和隐私保护,并实现了预算均衡、个人理性和真实性等所有理想的经济属性。实性等所有理想的经济属性。实性等所有理想的经济属性。

【技术实现步骤摘要】
面向高维隐私数据的相关性数据交易框架的构造方法


[0001]本专利技术涉及数据安全、隐私计算等相关
,提出了一种面向高维隐私数据的相关性数据交易框架的构造方法。

技术介绍

[0002]随着移动计算技术的蓬勃发展,近年来用户行为数据爆炸性增长,通过对用户隐私数据的分析与探索,有助于机构或组织发现其目标用户特有的行为特征。数据隐私可以作为一种商品在数据市场上出售而被货币化。
[0003]传统数据交易工作只考虑了私有数据的数据发布问题,而未能实现考虑高维用户特征数据相关性的隐私量化,并且传统的数据扰动机制是对每个用户特征的隐私数据记录进行扰动,而不考虑多个特征之间内在的数据相关性。因此,当传统的数据扰动机制直接应用于高维隐私数据的交易时,会造成维度诅咒,从而导致数据效用降低。

技术实现思路

[0004]为了解决上述技术缺陷,本专利技术提供了一种面向高维隐私数据的相关性数据交易框架的构造方法,该方法提出基于近似最优特征聚类方案的新型数据扰动机制并量化了每个数据所有者在高维隐私数据集上的合理隐私损失,实现数据效用和隐私保护间的均衡。
[0005]本专利技术是一种面向高维隐私数据的相关性数据交易框架的构造方法,该构造方法包括如下步骤:步骤1:解决最优特征聚类(Optimal Attribute Clustering OAC)问题,获得最优特征聚类集合;步骤2:在步骤1获得的最优特征聚类的基础上选取合适的数据拥有者,采用选取的所述数据拥有者的数据构成的数据集对数据拥有者做出合理的隐私补偿;步骤3:对步骤2所选的数据集使用数据扰动机制进行扰动;步骤4:对步骤3中扰动后的隐私数据集进行抽样,返回高维扰动数据集,同时对选中的数据拥有者以及对数据拥有者进行隐私补偿。
[0006]其中:步骤1解决最优特征聚类(Optimal Attribute Clustering OAC)问题,获得最优特征聚类具体包括如下步骤:步骤1

1:根据输入的数据消费者查询请求,其中表示其目标用户的范围,表示其感兴趣的用户特征,为查询函数,为数据消费者能接受的最大拉普拉斯噪声方差,任意两个用户特征的数据相关性计算公式为:
若用表示特征r的值域,则和分别代表任意两个特征m和n的值域,且和,表示特征值等于中第个值的概率,表示特征值等于中第个值的概率,是联合概率,根据相关性计算公式生成依赖图,顶点集包含所有的用户特征,矩阵元素表示两个特征是否相关,其初始值为0,任意两个用户特征的阈值公式为:,其中是一个固定参数,代表预期的依赖程度,当时,矩阵元素设为1,表示用户特征有相关性,由此可得到最终的依赖图;步骤1

2:将步骤1

1中得到的最终的依赖图三角化转化为联合树,得到一组初始特征聚类集合,减少数据集的维度;步骤1

3:最优特征聚类(OAC)问题是指通过步骤1

1感兴趣的用户特征和步骤1

2的初始特征聚类集合,将初始特征聚类集合合并成新的最优特征聚类集合,在满足(1)每个初始特征聚类属于且仅属于一个新最优特征聚类和满足(2)新的最优特征聚类集合包含所有初始特征聚类的条件下使得现有噪声总方差最小化;其中为最优特征聚类的元素个数, 为第i个最优特征聚类包含特征的个数,为隐私预算,为包含的特征,为特征的值域;步骤1

4:将最优特征聚类问题用数学表述:4:将最优特征聚类问题用数学表述:4:将最优特征聚类问题用数学表述:其中为最终生成的最优特征聚类集合的元素个数,为初始特征聚类的个数,表示每个特征i值域的大小,表示每个初始特征聚类中每个特征的值域的连乘积,0/1矩阵记录每个用户特征分配给初始特征聚类的方案,若表示第个用户特征分配给第个初始特征聚类,0/1矩阵记录初始特征聚类分配给最优特征聚类的方案,若表示第个初始特征聚类最终合并到第个新的最优特征聚类,同理表示第个初始特征聚类最终合并到第个新的最优特征聚类,是一个系数用来均衡目标函数中的两项,式(6)为方差最小化的目标函数的改写,目标函数的第
一项恰好对应原始目标函数中的连乘积项,而第二项对应的是中的,式(7)表示初始特征聚类的分配情况,若则表示初始特征聚类被分配给最优特征聚类,若则表示初始特征聚类没有被分配给最优特征聚类,式(8)表示每个初始特征聚类属于且仅属于一个新的最优特征聚类,式(9)表示每个最优特征聚类至少由一个初始特征聚类组成,式(10)表示任意两个最优特征聚类与之间所包含对初始特征聚类的分配结果的差值要大于固定参数值;步骤1

5:利用近似最优算法即ROP

solution来确定最终的特征聚类方案,首先构建简化的目标函数,用指数函数和个变量来代替原来的复杂表达式:其中表示目标函数中第一项的上界值,用,使,则可得到新的约束条件:此时函数,同时将式(7)的条件改为,表示第个初始特征聚类分配给第个最优特征聚类的概率,初始问题变为放缩的优化问题(ROP),也是一个非凸的线性规划问题;步骤1

6:近似最优算法ROP

solution利用凹凸算法来解决步骤1

5中的放缩的优化问题,每次迭代地将约束条件中的凹部分转化为凸部分以得到局部最优解,并选择概率最高的初始特征聚类分配给新的特征聚类;步骤1

7:运行ROP

solution得到最优特征聚类集合,并计算出当前噪声方差。
[0007]其中:步骤2具体包括以下步骤:步骤2

1:获得最优特征聚类集合,根据所使用的数据扰动机制,每个数据拥有者对其相关特征聚类上的identity查询的隐私损失为:其中表示任意的l维输出向量,表示高维隐私数据集,表示关于特征聚类的高维隐私数据集,且与为两个相邻数据集,仅相差一条用户隐私数据记录;每个数据拥有者的隐私损失的上界值为:
其中,表示添加的拉普拉斯噪声的方差,是合并后的特征聚类的数量,是具有最大值域连乘积的最优特征聚类,是任何两个特征聚类间共有特征的放缩后的最小值域;步骤2

2:计算出每位数据拥有者的隐私损失上界,并将数据拥有者提交的隐私成本递增排序,计算出最大下标L使得其中为位数据拥有者上报的隐私成本,为第位数据拥有者隐私损失的上界,为预算,为数据消费者目标用户范围,为数据消费者的目标用户数目,若计算出的L大于等于且计算出的噪声方差,则选择前位数据拥有者纳入数据拥有者集并使用他们的数据,同时计算出每位被选中数据拥有者的相应隐私补偿,其中为第位数据拥有者上报的隐私成本。
[0008]其中:步骤3中,对所选的数据集使用数据扰动机制进行扰动具体包括以下步骤:步骤3

1:根据步骤2中被选中的前位数据拥有者以及最优特征聚类集合生成未受扰动的数据集;步骤3

2:对每个最优特征聚类的数据元素添加服从拉普拉斯分布的噪声,方差为,数据扰动机制为:其中表示最优特征聚类中的初始数本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种面向高维隐私数据的相关性数据交易框架的构造方法,其特征在于:所述构造方法包括如下步骤步骤1:解决最优特征聚类问题,获得最优特征聚类集合;步骤2:在步骤1获得的最优特征聚类的基础上选取合适的数据拥有者,采用选取的所述数据拥有者的数据构成的数据集对数据拥有者做出合理的隐私补偿;步骤3:对步骤2所选的数据集使用数据扰动机制进行扰动;步骤4:对步骤3中扰动后的隐私数据集进行抽样,返回高维扰动数据集,同时对选中的数据拥有者以及对数据拥有者进行隐私补偿。2.根据权利要求1所述的面向高维隐私数据的相关性数据交易框架的构造方法,其特征在于:所述步骤1解决最优特征聚类问题,获得最优特征聚类集合具体包括如下步骤:步骤1

1:根据输入的数据消费者查询请求,其中表示其目标用户的范围,表示其感兴趣的用户特征,为查询函数,为数据消费者能接受的最大拉普拉斯噪声方差,任意两个用户特征的数据相关性计算公式为:若用表示特征r的值域,则和分别代表任意两个特征m和n的值域,且和,表示特征值等于中第个值的概率,表示特征值等于中第个值的概率,是联合概率,根据相关性计算公式生成依赖图,顶点集包含所有的用户特征,矩阵元素表示两个特征是否相关,其初始值为0,任意两个用户特征的阈值公式为:,其中是一个固定参数,代表预期的依赖程度,当时,矩阵元素设为1,表示用户特征有相关性,由此可得到最终的依赖图;步骤1

2:将步骤1

1中得到的最终的依赖图三角化转化为联合树,得到一组初始特征聚类集合,减少数据集的维度;步骤1

3:最优特征聚类问题是指通过步骤1

1感兴趣的用户特征和步骤1

2的初始特征聚类集合,将初始特征聚类集合合并成新的最优特征聚类集合,在满足(1)每个初始特征聚类属于且仅属于一个新最优特征聚类和满足(2)新的最优特征聚类集合包含所有初始特征聚类的条件下使得现有噪声总方差最小化;其中为最优特征聚类集合的元素个数, 为第i个最优特征聚类包含特征的个数,为隐私预算,为包含的特征,为特征的值域;
步骤1

4:将最优特征聚类问题用数学表述:4:将最优特征聚类问题用数学表述:4:将最优特征聚类问题用数学表述:其中为最终生成的最优特征聚类集合的元素个数,为初始特征聚类的个数,表示每个特征i值域的大小,表示每个初始特征聚类中每个特征的值域的连乘积,0/1矩阵记录每个用户特征分配给初始特征聚类的方案,若表示第个用户特征分配给第个初始特征聚类,0/1矩阵记录初始特征聚类分配给最优特征聚类的方案,若表示第个初始特征聚类最终合并到第个新的最优特征聚类,同理表示第个初始特征聚类最终合并到第个新的最优特征聚类,是一个系数用来均衡目标函数中的两项,式(6)为方差最小化的目标函数的改写,目标函数的第一项恰好对应原始目标函数中的连乘积项,而第二项对应的是中的,式(7)表示初始特征聚类的分配情况,若则表示初始特征聚类被分配给最优特征聚类,若则表示初始特征聚类没有被分配给最优特征聚类,式(8)表示每个初始特征聚类属于且仅属于一个新的最优特征聚类,式(9)表示每个最优特征聚类至少由一个初始特征聚类组成,式(10)表示任意两个最优特征聚类与之间所包含对初始特征聚类的分配结果的差值要大于固定参数值;步骤1

5:利用近似最优算法即ROP

solution来确定最终的特征聚类方案,首先构建简化的目标函数,用指数函数和个变量来代替原来的复杂表达式:其中表示目标函数中第一项的上界值,用,使,则可得到新的约束条件此时函数,同时将式(7)的条件改为,表示第个初始特征聚类分配给第个最优特征聚类的概率,初始问题变为放缩的优化问题;步骤1

6:近似最优算法R...

【专利技术属性】
技术研发人员:蔡惠蓝晨肖甫周剑盛碧云
申请(专利权)人:南京邮电大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1