【技术实现步骤摘要】
一种基于差分隐私的在线分类方法
本专利技术属于分类方法领域,具体涉及一种基于差分隐私的在线分类方法。
技术介绍
在线分类问题已受到广泛关注,形成了一系列围绕求解在线问题的快速算法,包括在线梯度下降法,在线牛顿方法等。其中在线梯度下降法是在借鉴传统的梯度信息的基础上,借助批次梯度代替整体梯度,使得算法的时间消耗和计算成本有效降低。在在线梯度下降法的基础上涌现出大量二分类的快速求解问题的研究结果,包括模型,理论等各个方面。但现有方法很少涉及到算法的隐私保护问题。市场化的今天,高效运行的方法是符合主流需求的算法,但是在处理大量流式数据时,可能会涉及到个人的敏感数据,这同样制约着数据要素的高效配置。因此,在保证个体隐私不被泄露的条件下学习高效的在线分类算法将加速提升数据要素价值。如何实现现有的在线梯度下降法既可用于分析包含隐私敏感信息的数据,又能保证算法运行效率是个亟待解决的问题。为使得在线梯度下降法可以高效的分析包含敏感信息的数据,本申请在隐私保护的新范式——差分隐私框架下给出在线Logistic回归新的求解算法, ...
【技术保护点】
1.一种基于差分隐私的在线分类方法,其特征在于,包括以下步骤:/n步骤1:输入待学习的流数据;/n步骤2:对流数据进行归一化处理,形成归一化的数据矩阵;/n步骤3:确定Logistic分类问题的目标函数的敏感度;/n步骤4:确定差分隐私算法的隐私参数;/n根据对隐私保护程度的具体要求给定第t批数据学习过程中的隐私参数ε
【技术特征摘要】
1.一种基于差分隐私的在线分类方法,其特征在于,包括以下步骤:
步骤1:输入待学习的流数据;
步骤2:对流数据进行归一化处理,形成归一化的数据矩阵;
步骤3:确定Logistic分类问题的目标函数的敏感度;
步骤4:确定差分隐私算法的隐私参数;
根据对隐私保护程度的具体要求给定第t批数据学习过程中的隐私参数εt,εt取大于0的任何数,εt取值越小代表隐私保护程度越强,反之εt取值越大代表隐私保护程度越弱;
步骤5:生成目标扰动的噪声向量;
步骤6:给出目标扰动后Logistic分类问题的目标函数的梯度;
步骤7:更新分类超平面;
步骤8:重复上述步骤得到在线分类器,并给出总的隐私消耗。
2.根据权利要求1所述的基于差分隐私的在线分类方法,其特征在于,所述步骤1中:
通过一批一批的记录累积得到流数据,将最新一批数据作为输入,记第t批数据为Pt=(Zt,Yt),其中Zt为属性数据矩阵,Yt为类标签数据向量,要求Yt中元素的值属于{-1,+1},给出Pt的样本量nt和Zt的维度p。
3.根据权利要求2所述的基于差分隐私的在线分类方法,其特征在于,所述步骤2中:
对于nt×P的属性数据矩阵Zt,计算每行数据向量的二范数,记其中最大值为Max,令Xt=Zt/Max为归一化的属性数据矩阵,Dt=(Xt,Yt)为归一化的数据矩阵。
4.根据权利要求3所述的基于差分隐私的在线分类方法,其特征在于,所述步骤3中:
对于分类指标属于{-1,+1}的分类问题,具有罚项的Logistic分类模型的目标函数为:
其中,样本点(xi,yi)为数据集Dt=(Xt,Yt)中的个体,nt为样本量,ωt为待估计的分类...
【专利技术属性】
技术研发人员:张海,卢耀宗,苏温庆,
申请(专利权)人:陕西数盾慧安数据科技有限公司,
类型:发明
国别省市:陕西;61
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。