一种提供隐私保护的数据采集和回归分析方法技术

技术编号:20485951 阅读:26 留言:0更新日期:2019-03-02 19:24
本发明专利技术公开了一种提供隐私保护的数据采集和回归分析方法,采用差分隐私来保护数据提供者的隐私,并通过补偿机制来激励提供者提供真实的数据。首先,在回归模型的分析模块,本方法采用岭回归模型,将损失函数展开成多项式混沌的形式,并在每个多项式前面的系数上加入拉普拉斯噪声,从而保证训练得到的回归模型既保护了数据提供者的隐私,又保证了模型的准确性;然后,在报酬支付模块,计算出除去数据提供者提供的数据得到的回归模型,与整体的回归模型进行比较,将以上两者的误差作为每个数据提供者报酬的量度,换言之,误差越小,也就是数据越准确,那么相应的报酬越多。简言之,通过隐私保护和适当的报酬,本方法能激励更真实的汇报数据,训练得到更准确的模型。

【技术实现步骤摘要】
一种提供隐私保护的数据采集和回归分析方法
本专利技术涉及一种提供隐私保护的数据采集和回归分析方法,属于数据处理

技术介绍
目前,拟合线性模型可能是最基础和最基本的学习任务,具有从统计学到医学以及社会学等多种方面的应用。在许多情况下,从中进行回归学习得到模型的数据不是由执行回归任务的分析师掌握的,而必须从个人中获取。这些场景显然包括医学试验和人口普查,以及挖掘在线行为数据,这是目前大规模发生的一种做法。如果数据是由个人持有的,这对他们来说必然存在隐私泄露的问题。为激励他们更真实地提供自己的信息,训练得到更准确的回归模型,一方面我们要对他们的隐私提供一定的保护,另一方面要给他们提供适当的报酬。差分隐私是释放敏感信息的同时保护个人隐私的最先进的模型。本专利技术采用差分隐私的方法,将拉普拉斯噪声加入到回归模型的训练中,保证回归模型准确性的同时进行了隐私保护。
技术实现思路
目的:为了克服现有技术中存在的不足,本专利技术提供一种提供隐私保护的数据采集和回归分析方法。技术方案:为解决上述技术问题,本专利技术采用的技术方案为:一种提供隐私保护的数据采集和回归分析方法,包括如下步骤:步骤1:假设有n个数据提供者,从数据提供者i处获取d维属性参数向量xi∈Rd和个人可操纵的响应变量yi,Rd是d维属性参数向量的集合,用X=[xi]i∈[n]∈Rn×d表示属性参数矩阵,Rn×d表示d维属性参数向量矩阵集合,用y=[yi]i∈[n]∈Rn表示响应变量向量,Rn表示响应变量向量集合;设训练出的回归模型为yi=θTxi,在损失函数L(θ;X,y)中加入拉普拉斯噪声,并由求出最佳的预测函数系数θ*,最终得到预测函数yi=θ*Txi。作为优选方案,还包括步骤2,所述步骤2:计算除去数据提供者i提供的数据时的回归参数θ-i,与θ*比较,计算两者之间的误差,误差越大,报酬越小。作为优选方案,所述步骤1具体步骤如下:步骤1-1:假设数据提供者i∈[n],i={1,2,…n}持有固有属性特征向量xi∈Rd,yi是个人可操纵的响应变量,用X=[xi]i∈[n]∈Rn×d来表示属性矩阵,用y=[yi]i∈[n]∈Rn表示响应变量向量,ti=(xi,yi)∈D表示数据提供者i提供的所有数据记录,其中D是n条记录的集合;训练出一个回归模型,使得预测函数为yi=θTxi;步骤1-2:由加噪后的损失函数求出最优的θ*;步骤1-2-1:回归模型中加入正则化项,用岭回归模型代替传统的线性回归模型,表示如下:其中γ>0为正则化项的系数;步骤1-2-2:将上述的损失函数展开成关于θ的多项式的形式,d是一个d维的向量,记作θ=(θ1,θ2,…θd)T,用表示θ1,θ2,…θd的多项式的乘积,令其中c1,c2,…cd∈N,用φj,j∈N表示所有θ1,θ2,…θd多项式的集合,N为正整数集合,记为(yi-θTxi)2展开成θ1,θ2,…θd的多项式的形式,有为的系数,J是[0,∞]中的某一常数,损失函数变为步骤1-2-3:在前的系数中加入拉普拉斯噪声得到令求θ*=argminLD(θ)即得到θ*;步骤1-3:将求得的θ*带入到线性回归的一般公式yi=θTxi里得到yi=θ*Txi,即在加入隐私保护的前提下训练出了这组数据的回归模型。作为优选方案,所述步骤2包括如下步骤:步骤2-1:步骤1得到由n个数据提供者提供的所有数据训练得到的回归模型,以及θ*;将所有数据除去第i个数据提供者提供的ti,计算出现在的回归模型,并求出回归参数值为θ-i;步骤2-2:支付给每个数据提供者的报酬πi由θ*与θ-i之间的误差决定,即其中a,b为给定常数。有益效果:本专利技术提供的一种提供隐私保护的数据采集和回归分析方法,首先是回归模型的训练模块。为保护个人隐私,该方法采用差分隐私的方法,在模型中加入拉普拉斯噪声。为了避免差分隐私计算带来的偏差估计,该方法放弃使用传统的线性回归模型而使用岭回归模型,然后,在计算预测函数属性θ时,本方法将损失函数表示成多项式相加的形式,然后在每个多项式前面的系数上加上符合拉普拉斯分布的噪声,求出使损失函数值最小的θ*即得到最优的预测函数;第二部分是报酬分配模块,在这一模块先训练出除去数据提供者i提供的数据得到的回归模型,与整体的回归模型进行比较,根据两者的误差确定给每个数据提供者的报酬,误差越小,报酬就越多。其优点如下:1、本专利技术在回归模型中加入拉普拉斯噪声,且将拉普拉斯噪声加在回归模型的参数的系数上,绕开对模型参数灵敏度的分析,减轻复杂度;另一方面加入正则化项,减轻了由于加入噪声产生的偏差估计。2、本机制摒弃传统的报酬均分的模式,将每个人获得的报酬与他提供的数据的准确性相关联,激励数据提供者提供更为真实的数据。附图说明图1为本专利技术的回归模型流程图。图2为本专利技术的实施场景框架图。具体实施方式下面结合附图对本专利技术作更进一步的说明。如图1所示,将回归模型中的损失函数按多项式展开,将噪声加入到θ前的系数上,再在最后加上正则化项,最后求出使损失函数最小的θ值。如图2所示,分析师从数据提供者那里获得原始数据,分析出回归模型,与除去每个数据提供者i提供数据时的回归模型作比较,根据两者的误差确定给每个数据提供者的报酬。一种提供隐私保护的数据采集和回归分析方法,包括步骤如下:步骤1:假设有n个数据提供者,分析师从数据提供者i处获取d维属性参数向量xi∈Rd和个人可操纵的响应变量yi,Rd是d维属性参数向量的集合,用X=[xi]i∈[n]∈Rn×d表示属性参数矩阵,Rn×d表示d维属性参数向量矩阵集合,用y=[yi]i∈[n]∈Rn表示响应变量向量,Rn表示响应变量向量集合。设训练出的回归模型为yi=θTxi,要求出回归模型系数θ且尽可能保护数据提供者隐私,本专利技术在损失函数L(θ;X,y)中加入拉普拉斯噪声,并由求出最佳的预测函数系数θ*,最终得到预测函数yi=θ*Txi;步骤1-1:假设数据提供者i∈[n],i={1,2,…n}持有固有属性特征向量xi∈Rd,yi是个人可操纵的响应变量,用X=[xi]i∈[n]∈Rn×d来表示属性矩阵,用y=[yi]i∈[n]∈Rn表示响应变量向量,ti=(xi,yi)∈D表示数据提供者i提供的所有数据记录,其中D是n条记录的集合。本专利技术训练出一个回归模型,能由输入的xi的值预测出输出yi。因此假设这个模型的输出响应yi与输入属性xi是线性相关的,因此存在一个θ∈Rd,使得预测函数为yi=θTxi。下面要做的就是通过数据提供者提供的ti训练得到最优的θ*。步骤1-2:由加噪后的损失函数求出最优的θ*。步骤1-2-1:回归模型中,用损失函数(目标函数)来评估预测函数的准确性,为减轻之后加入的拉普拉斯噪声带来的偏差估计,本方法加入正则化项,用岭回归模型代替传统的线性回归模型,表示如下:其中γ>0为正则化项的系数。步骤1-2-2:将上述的损失函数展开成关于θ的多项式的形式。由上可知,θ是一个d维的向量,记作θ=(θ1,θ2,…θd)T,我们用表示θ1,θ2,…θd的多项式的乘积,令其中c1,c2,…cd∈N,用φj(j∈N)表示所有θ1,θ2,…θd多项式的集合,N为正整数集合,记为例如,φ0={1},φ1=θ1,θ2,…θd,φ2={θi·θ本文档来自技高网...

【技术保护点】
1.一种提供隐私保护的数据采集和回归分析方法,其特征在于:包括如下步骤:步骤1:假设有n个数据提供者,从数据提供者i处获取d维属性参数向量xi∈R

【技术特征摘要】
1.一种提供隐私保护的数据采集和回归分析方法,其特征在于:包括如下步骤:步骤1:假设有n个数据提供者,从数据提供者i处获取d维属性参数向量xi∈Rd和个人可操纵的响应变量yi,Rd是d维属性参数向量的集合,用X=[xi]i∈[n]∈Rn×d表示属性参数矩阵,Rn×d表示d维属性参数向量矩阵集合,用y=[yi]i∈[n]∈Rn表示响应变量向量,Rn表示响应变量向量集合;设训练出的回归模型为yi=θTxi,在损失函数L(θ;X,y)中加入拉普拉斯噪声,并由求出最佳的预测函数系数θ*,最终得到预测函数yi=θ*Txi。2.根据权利要求1所述的一种提供隐私保护的数据采集和回归分析方法,其特征在于:还包括步骤2,所述步骤2:计算除去数据提供者i提供的数据时的回归参数θ-i,与θ*比较,计算两者之间的误差,误差越大,报酬越小。3.根据权利要求1所述的一种提供隐私保护的数据采集和回归分析方法,其特征在于:所述步骤1具体步骤如下:步骤1-1:假设数据提供者i∈[n],i={1,2,…n}持有固有属性特征向量xi∈Rd,yi是个人可操纵的响应变量,用X=[xi]i∈[n]∈Rn×d来表示属性矩阵,用y=[yi]i∈[n]∈Rn表示响应变量向量,ti=(xi,yi)∈D表示数据提供者i提供的所有数据记录,其中D是n条记录的集合;训练出一个回归模型,使得预测函数为yi=θTxi;步骤1-2:由加噪后的损失函数求出最优的θ*;步骤1-2-1:回归模型中加入正则化项,用岭回归模型代替传统的线性回归模型,表示如下:其中γ>0为正则化项的系数;步骤1-...

【专利技术属性】
技术研发人员:王玉峰顾敏
申请(专利权)人:南京邮电大学
类型:发明
国别省市:江苏,32

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1