安全且具有隐私保护的分布式机器学习自适应聚合方法技术

技术编号：40925966 阅读：2 留言：0更新日期：2024-04-18 14:49

本发明专利技术公开了安全且具有隐私保护的分布式机器学习自适应聚合方法，涉及数据安全技术领域，建立系统模型：系统模型的训练数据由输入向量和输入组成，基于分布式梯度下降算法计算损失函数，以衡量模型输出与真实值之间的差距；系统模型初始化：系统模型的计算方和参与方分别作为区块链节点形成点对点的去中心化网络，计算方基于同态加密Paill ier算法生成密钥对，其中，公钥用于加密，私钥用于解密；局部更新；全局聚合；资源优化；聚合过程中参与方所提交参数的权重比例，确保系统的安全性，也进一步保证了模型训练的有效性和安全性。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及数据安全，具体涉及安全且具有隐私保护的分布式机器学习自适应聚合方法。

技术介绍

1、为了解决分布式数据的机器学习问题，具有并行计算能力、数据分布能力和运算能力的分布式机器学习应运而生。分布式机器学习是分布式计算和机器学习的结合，是一种数据分散且并行计算的方法。其原理是将训练数据保存在多个本地设备上，这些设备合作训练一个联合模型。即所有设备利用本地数据并行训练局部模型，然后参数服务器聚合局部模型生成全局模型，减少了数据收集的巨大开销。虽然分布式机器学习迅速发展，但是仍然面临着一些挑战。

2、首先，分布式机器学习面临一些安全问题。一方面是参与用户的互信问题，由于分布式机器学习的参与方来自不同的组织或者机构，彼此之间缺乏信任。因此，如何在缺乏互信的场景下建立安全可靠的协作机制是亟待解决的。另一方面，机器学习算法产生的模型和结果，可能会被具有很强动机的攻击者操纵，以达到他们的目的。例如，分布式机器学习十分容易受到数据中毒攻击，由于参与方的本地数据对于其他参与方而言是不可见的，因此，复杂的攻击者或者恶意的参与方可以任意修改本地数据而不被发现，通过影响训练数据集来操纵预测模型的结果，导致测试阶段新数据的错误分类或错误预测。因此，一个有效的分布式系统需要识别和防止恶意参与方。

3、此外，分布式机器学习也面临数据隐私的问题。虽然分布式机器学习通过多个参与方的本地数据集进行机器学习的训练任务，参与方之间共享部分模型参数，而无需共享训练数据集，但是攻击者仍然可以通过抽象的摘要信息提取其原始数据信息的一部分，从而

4、公布号为cn115329981a的中国专利公开的一种通信高效、保护隐私且抗攻击的联邦学习方法，利用基于安全多方计算和shamir秘密共享的安全聚合技术保证服务器只获得全局模型更新的平均值，而无法获得单个客户的本地模型。但是大多数的安全多方协议的设计源于特定的场景，对模型和数据集有一定的要求。

5、公布号为cn111915294a的中国专利公开的一种基于区块链技术的安全、隐私保护、可交易的分布式机器学习框架，利用联盟链解决分布式机器学习中的拜占庭攻击问题，同时利用差分隐私技术保护每个参与方的数据集隐私。虽然考虑了分布式机器学习的安全和隐私保护的问题，但是在安全方面，该专利只考虑了节点明显的恶意行为(在验证阶段是否给予赞同凭证)，无法抵御恶意节点或攻击者通过篡改本地数据带来的影响；在隐私方面，虽然通过差分隐私技术在梯度中添加高斯噪声从而隐藏真实消息，但是噪声不可避免地降低训练数据的质量，因此产生的模型可能是不准确的。

技术实现思路

1、为了克服上述的技术问题，本专利技术的目的在于提供安全且具有隐私保护的分布式机器学习自适应聚合方法，以解决现有技术中，在安全方面，该专利只考虑了节点明显的恶意行为(在验证阶段是否给予赞同凭证)，导致无法抵御恶意节点或攻击者通过篡改本地数据带来的影响；在隐私方面，虽然通过差分隐私技术在梯度中添加高斯噪声从而隐藏真实消息，但是噪声不可避免地降低训练数据的质量，导致产生的模型是不准确的。

2、本专利技术的目的可以通过以下技术方案实现：

3、具体是提供一个安全且具有隐私保护的分布式机器学习自适应聚合方法，包括以下步骤：

4、s1、建立系统模型：系统模型的训练数据由输入向量xj和输入yj组成，基于分布式梯度下降算法计算损失函数，以衡量模型输出与真实值之间的差距；

5、s2、系统模型初始化：系统模型的计算方和参与方分别作为区块链节点形成点对点的去中心化网络，如图1所示，计算方基于同态加密paillier算法生成密钥对(pk,sk)，其中，公钥pk用于加密，私钥sk用于解密；

6、s3、局部更新：参与方基于同态加密技术，利用所述参与方的本地数据集完成密文形式的局部模型的训练过程，通过区块链网络广播其密文局部模型；

7、s4、全局聚合：计算密文全局模型，计算密文全局模型的过程包括信誉更新、全局模型更新和区块生成；

8、s5、资源优化：基于能耗考虑分析各节点上的计算成本，通过优化资源分配和动态调整聚合周期提高全局模型的收敛性能。

9、作为本专利技术进一步的方案：所述步骤s1中使用c表示计算方，pi(i∈1,2,…,n)表示第i个参与方，di＝(xi,yi)表示pi拥有的本地数据集，d＝{d1,d2,…,dn}表示总数据集，对于数据样本(xij,yij)，损失函数表示为：

10、

11、其中，xij＝[xij,1,xij,2,…,xik,k,…]表示训练数据di的第j条输入向量，yij表示输入向量xi对应的训练结果yi的第j个输出，其中wi＝[wi,1,wi,2,…,wi,k,…]为参与方pi训练的局部模型。

12、作为本专利技术进一步的方案：所述步骤s2中区块链上所有节点对公钥、初始密文模型达成一致，私钥sk由计算方持有；

13、在系统模型训练过程中，迭代次数设定为t＝1,2,…,t,t为总次数，每次迭代包含一个局部更新和一个可能的全局聚合，每个参与方在其本地数据集上利用局部损失函数根据梯度下降步骤计算局部模型的过程称为局部更新。

14、作为本专利技术进一步的方案：所述步骤s3中使用pi表示参与方；

15、若t＝0时，所有参与方的局部模型被初始化为相同的值；

16、若t>0时，pi根据前一次迭代的局部模型更新当前迭代的局部模型表示密文参数。

17、作为本专利技术进一步的方案：所述步骤s3还包括以下步骤：

18、s3.1：在第t次迭代时，每个参与方pi从区块中下载最新的密文全局模型

19、s3.2：参与方pi根据paillier算法的同态加密性质和pi在其本地数据集di上的局部损失函数计算密文局部梯度

20、密文局部梯度基于局部损失函数值，局部损失函数表示为单个样本数据损失函数的加权平均：

21、

22、其中，|·|表示集合的数量；

23、

24、若表示参与方pi的局部损失函数fi(wi(t))对局部模型wi(t)中第k的一个元素wi,k(t)的梯度值，根据paillier算法，密文的计算方式为：

25、

26、若表示参与方pi的单个样本损失函数f(wi(t),xij,yij)对wi,k(t)的梯度值，根据paillier算法，密文的计算方式为：

27、

28、其中，n表示paillier算法的密钥；

29、s3.3：使用表示局部更新后的局部模型；

30、若第t次迭代时未发生全局聚合，则

31、若第t次迭代时发生了全局聚合，则同时设定在第t次迭代时，参与方pi在密文状态下更新密文局部模型中每个元素的过程表示为：

<本文档来自技高网...

【技术保护点】

1.安全且具有隐私保护的分布式机器学习自适应聚合方法，其特征在于，包括以下步骤：

2.根据权利要求1所述的安全且具有隐私保护的分布式机器学习自适应聚合方法，其特征在于，所述步骤S1中使用C表示计算方，Pi(i∈1,2,…,N)表示第i个参与方，Di＝(xi,yi)表示Pi拥有的本地数据集，D＝{D1,D2,…,DN}表示总数据集，对于数据样本(xij,yij)，损失函数表示为：

3.根据权利要求1所述的安全且具有隐私保护的分布式机器学习自适应聚合方法，其特征在于，所述步骤S2中区块链上所有节点对公钥、初始密文模型达成一致，私钥Sk由计算方持有；

4.根据权利要求3所述的安全且具有隐私保护的分布式机器学习自适应聚合方法，其特征在于，所述步骤S3中使用Pi表示参与方；

5.根据权利要求4所述的安全且具有隐私保护的分布式机器学习自适应聚合方法，其特征在于，所述步骤S3还包括以下步骤：

6.根据权利要求5所述的安全且具有隐私保护的分布式机器学习自适应聚合方法，其特征在于，所述步骤S4还包括以下步骤：

7.根据权利要求

8.根据权利要求7所述的安全且具有隐私保护的分布式机器学习自适应聚合方法，其特征在于，所述步骤S5.1中的训练过程包括由局部更新、计算密文矩阵、计算评价指标、信誉值更新和全局模型更新。

9.根据权利要求7所述的安全且具有隐私保护的分布式机器学习自适应聚合方法，其特征在于，所述步骤S5.1中的共识过程包括请求、预准备、准备、提交和应答，参与方C和计算方C形成分布式节点。

10.根据权利要求7所述的安全且具有隐私保护的分布式机器学习自适应聚合方法，其特征在于，所述步骤S5.2中最小化损失函数目标的计算方法为：

...

【技术特征摘要】

1.安全且具有隐私保护的分布式机器学习自适应聚合方法，其特征在于，包括以下步骤：

2.根据权利要求1所述的安全且具有隐私保护的分布式机器学习自适应聚合方法，其特征在于，所述步骤s1中使用c表示计算方，pi(i∈1,2,…,n)表示第i个参与方，di＝(xi,yi)表示pi拥有的本地数据集，d＝{d1,d2,…,dn}表示总数据集，对于数据样本(xij,yij)，损失函数表示为：

3.根据权利要求1所述的安全且具有隐私保护的分布式机器学习自适应聚合方法，其特征在于，所述步骤s2中区块链上所有节点对公钥、初始密文模型达成一致，私钥sk由计算方持有；

4.根据权利要求3所述的安全且具有隐私保护的分布式机器学习自适应聚合方法，其特征在于，所述步骤s3中使用pi表示参与方；

5.根据权利要求4所述的安全且具有隐私保护的分布式机器学习自适应聚合方法，其特征在于，所述步骤s3...

【专利技术属性】
技术研发人员：赵学慧，潘晓东，李伟泽，魏少华，谢永杰，
申请(专利权)人：天翼云科技有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人