【技术实现步骤摘要】
基于混合协议的分布式隐私保护逻辑回归模型的样本分类方法
本专利技术属于网络与信息安全领域,具体的说是一种基于混合协议的分布式隐私保护逻辑回归模型的样本分类方法。
技术介绍
近年来,机器学习技术在实践中越来越多的被应用于产生预测或分类模型,用以解决具体的预测、分类任务。随着大数据的发展,导致了海量的数据的产生。这些数据,给预测模型或分类模型的训练过程提供了更大规模的训练数据集,以获得更好的预测或分类效果。然而,这些数据往往由不同的站点所持有,出于法律法规的限制或自身的利益因素,这些站点希望在不泄露自身隐私数据的前提下,联合进行数据挖掘任务。比如,多家机构各自拥有本地的样本数据,这些机构想要在不公开各自私有数据的前提下,联合训练构建一个逻辑回归模型,然后使用该模型,对本地的待分类样本进行分类操作。为了解决上述问题,文献[SecureML:ASystemforScalablePrivacy-PreservingMachineLearning,2017],提出了一种基于秘密共享和加密电路的隐私保护机器学习方案,使得多 ...
【技术保护点】
1.一种基于混合协议的分布式隐私保护逻辑回归模型的样本分类方法,其特征是应用于由n个数据提供方{dp
【技术特征摘要】
1.一种基于混合协议的分布式隐私保护逻辑回归模型的样本分类方法,其特征是应用于由n个数据提供方{dp1,dp2,…,dpi,…,dpn},一个加密服务提供商以及一个数据聚合方所组成的网络场景中;其中,dpi表示第i个数据提供方;且第i个数据提供方dpi持有训练数据集xikj表示第i个数据提供方dpi持有的第k条训练样本中的第j个特征数据;则所有数据提供方持有的训练数据集记为{X1,X2,…,Xi,…,Xn,Y};其中,Y表示标签数据,由数据聚合方持有,并有:yk表示第k条样本对应的标签值;i=1,2,…,n;j=1,2,…,t;k=1,2,…,m;
所述分类方法包括以下步骤:
步骤S1、初始化阶段:
步骤S1.1、所述加密服务提供商初始化学习率为α、最大迭代次数为maxiter、当前迭代次数为iter、密文空间位数为P、明文数据位数为p;并初始化iter=1;
步骤S1.2、所述加密服务提供商生成公私钥对,并将公钥以及所述学习率α、最大迭代次数maxiter、当前迭代次数iter、加密数据密文位数P和明文二进制数编码位数p分发给所述数据聚合方以及所有的数据提供方;
步骤S1.3、第i个数据提供方dpi使用式(3)对训练数据集Xi中的每个特征数据进行缩放,得到缩放后的特征数据x′ikj:
式(3)中,q为全局统一的缩放因子;
步骤S1.4、所述第i个数据提供方dpi随机选取一个p位二进制数,并使用所述加密服务提供商的公钥对所述p位二进制数进行加密,得到第i个数据提供方dpi的第j个特征数据在第一次迭代中所对应的权重密文其中,E(·)表示公钥加密算法;从而所述第i个数据提供方dpi初始化持有的t个特征在第一次迭代中所对应的密文形式的权重向量
步骤S2、分布式模型训练阶段是对权重向量密文的多次迭代更新,其中第iter次迭代过程为:
步骤S2.1、所述第i个数据提供方dpi利用式(4)本地计算第iter次迭代中第k条样本数据和权重向量的内积密文从而得到第iter次迭代中所述第i个数据提供方dpi的每一条样本数据和权重向量的内积密文
式(4)中,表示密文同态加法操作;为第iter次迭代中第i个数据提供方持有的第j个特征所对应的权重密文;
步骤S2.2、所述第i个数据提供方dpi按个密文为一组,从每一条样本对应的内积密文依次选取密文,并按照式(5)进行密文打包,得到第iter迭代过程中所述第i个数据提供方dpi的第a个打包密文从而得到第iter次迭代过程中所述第i个数据提供方dpi的所有密文的打包密文并发送给数据聚合方;其中b表示打包后的密文个数;且a=1,2,…,b;
式(5)中,表示第iter次迭代中选出的第a组密文中的第f个密文,
步骤S2.3、所述数据聚合方随机选取第iter次迭代过程中b个掩码数据其中,表示第iter次迭代过程中选出的第a个掩...
【专利技术属性】
技术研发人员:陈志立,刘佳乐,张顺,仲红,
申请(专利权)人:安徽大学,
类型:发明
国别省市:安徽;34
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。