一种提供隐私保护的数据采集和回归分析方法技术

技术编号：20485951 阅读：26 留言：0更新日期：2019-03-02 19:24

本发明专利技术公开了一种提供隐私保护的数据采集和回归分析方法，采用差分隐私来保护数据提供者的隐私，并通过补偿机制来激励提供者提供真实的数据。首先，在回归模型的分析模块，本方法采用岭回归模型，将损失函数展开成多项式混沌的形式，并在每个多项式前面的系数上加入拉普拉斯噪声，从而保证训练得到的回归模型既保护了数据提供者的隐私，又保证了模型的准确性；然后，在报酬支付模块，计算出除去数据提供者提供的数据得到的回归模型，与整体的回归模型进行比较，将以上两者的误差作为每个数据提供者报酬的量度，换言之，误差越小，也就是数据越准确，那么相应的报酬越多。简言之，通过隐私保护和适当的报酬，本方法能激励更真实的汇报数据，训练得到更准确的模型。

全部详细技术资料下载

【技术实现步骤摘要】
一种提供隐私保护的数据采集和回归分析方法
本专利技术涉及一种提供隐私保护的数据采集和回归分析方法，属于数据处理

技术介绍
目前，拟合线性模型可能是最基础和最基本的学习任务，具有从统计学到医学以及社会学等多种方面的应用。在许多情况下，从中进行回归学习得到模型的数据不是由执行回归任务的分析师掌握的，而必须从个人中获取。这些场景显然包括医学试验和人口普查，以及挖掘在线行为数据，这是目前大规模发生的一种做法。如果数据是由个人持有的，这对他们来说必然存在隐私泄露的问题。为激励他们更真实地提供自己的信息，训练得到更准确的回归模型，一方面我们要对他们的隐私提供一定的保护，另一方面要给他们提供适当的报酬。差分隐私是释放敏感信息的同时保护个人隐私的最先进的模型。本专利技术采用差分隐私的方法，将拉普拉斯噪声加入到回归模型的训练中，保证回归模型准确性的同时进行了隐私保护。
技术实现思路
目的：为了克服现有技术中存在的不足，本专利技术提供一种提供隐私保护的数据采集和回归分析方法。技术方案：为解决上述技术问题，本专利技术采用的技术方案为：一种提供隐私保护的数据采集和回归分析方法，包括如下步骤：步骤1：假设有n个数据提供者，从数据提供者i处获取d维属性参数向量xi∈Rd和个人可操纵的响应变量yi，Rd是d维属性参数向量的集合，用X＝[xi]i∈[n]∈Rn×d表示属性参数矩阵，Rn×d表示d维属性参数向量矩阵集合，用y＝[yi]i∈[n]∈Rn表示响应变量向量，Rn表示响应变量向量集合；设训练出的回归模型为yi＝θTxi，在损失函数L(θ；X，y)中加入拉普拉斯噪声，并由求出最...

【技术保护点】
1.一种提供隐私保护的数据采集和回归分析方法，其特征在于：包括如下步骤：步骤1：假设有n个数据提供者，从数据提供者i处获取d维属性参数向量xi∈R

【技术特征摘要】
1.一种提供隐私保护的数据采集和回归分析方法，其特征在于：包括如下步骤：步骤1：假设有n个数据提供者，从数据提供者i处获取d维属性参数向量xi∈Rd和个人可操纵的响应变量yi，Rd是d维属性参数向量的集合，用X＝[xi]i∈[n]∈Rn×d表示属性参数矩阵，Rn×d表示d维属性参数向量矩阵集合，用y＝[yi]i∈[n]∈Rn表示响应变量向量，Rn表示响应变量向量集合；设训练出的回归模型为yi＝θTxｉ，在损失函数L(θ；X，y)中加入拉普拉斯噪声，并由求出最佳的预测函数系数θ*，最终得到预测函数yi＝θ*Ｔxｉ。2.根据权利要求1所述的一种提供隐私保护的数据采集和回归分析方法，其特征在于：还包括步骤2，所述步骤2：计算除去数据提供者i提供的数据时的回归参数θ-i，与θ*比较，计算两者之间的误差，误差越大，报酬越小。3.根据权利要求1所述的一种提供隐私保护的数据采集和回归分析方法，其特征在于：所述步骤1具体步骤如下：步骤1-1：假设数据提供者i∈[n]，i＝{1，２，…n}持有固有属性特征向量xi∈Rd，yi是个人可操纵的响应变量，用X＝[xi]i∈[n]∈Rn×d来表示属性矩阵，用y＝[yi]i∈[n]∈Rn表示响应变量向量，ti＝(xi，yi)∈D表示数据提供者i提供的所有数据记录，其中D是n条记录的集合；训练出一个回归模型，使得预测函数为yi＝θTxi；步骤1-2：由加噪后的损失函数求出最优的θ*；步骤1-2-1：回归模型中加入正则化项，用岭回归模型代替传统的线性回归模型，表示如下：其中γ＞0为正则化项的系数；步骤1-...

【专利技术属性】
技术研发人员：王玉峰，顾敏，
申请(专利权)人：南京邮电大学，
类型：发明
国别省市：江苏,32

全部详细技术资料下载我是这个专利的主人