一种基于二叉线性树承诺的分布式学习所有权保护方法技术

技术编号：40073939 阅读：12 留言：0更新日期：2024-01-17 00:40

本发明专利技术涉及一种基于二叉线性树承诺的分布式学习所有权保护方法，属于计算机分布式学习与数据安全保护技术领域。首先，验证者将任务分解成多个子任务，每个证明者在本地执行若干计算，并将其结果发送给验证者进行模型参数的聚合和更新。证明者每轮计算的模型中间参数构成一个向量，证明者对该向量做承诺保证计算完整性。在每轮训练迭代的过程中，证明者根据更新的模型参数更新相应的证明和承诺。验证者通过证明者提供的承诺和聚合证明验证证明者的计算完整性，确保了模型所有权。本方法实现了可聚合且可维护的高效承诺，同时不会泄露具体的模型参数信息，实现了模型参数隐私保护，同时不会影响分布式学习流程的运行有效性。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及一种基于二叉线性树承诺的分布式学习所有权保护方法，属于计算机分布式学习与数据安全保护。

技术介绍

1、在计算机人工智能领域，表现良好的机器学习模型迭代优化的成本通常非常昂贵，在训练过程会涉及大规模的标记数据和计算资源。而分布式机器学习技术，允许模型所有者将训练任务外包给多个工作者，整合不同工作者的劳动力和技能投入以降低训练成本。在模型收敛之前，每个工作者被要求在每轮中将他们的本地模型权重提交给模型所有者。训练过程中的模型中间变量通常存储在云服务器上。

2、目前，分布式机器学习可能会存在模型所有权争议。首先，一些模型架构是公开发布的，所以一旦模型的最终参数被释放，参与训练的工作者无法证明自己对于最终模型的贡献，这会导致多方争夺特定模型的所有权。此外，除了模型权重隐私外，模型所有者需要验证工作者执行的计算完整性和工作有效性。在没有完整性保护的情况下，敌手可能在模型训练中伪造中间变量或者在不可信的云端窃取中间变量。为了抵御工作者意外崩溃(如硬件崩溃)和拜占庭攻击(如数据中毒和模型中毒攻击)，在分布式机器学习当中，证明工作者的计算完整性和可靠性是确认模型所有权的关键。

3、现有证明计算完整性的方案包括密码学原语。比如，可验证计算(snark)或向量承诺要求工作者除训练执行结果外提供一个额外的证明，模型所有者可以通过验证该证明来检查工作者是否正确完成训练模型所需的工作。mvp是一种可验证且保护隐私的机器学习方法，通过不经意的评估和批量结果验证来维护函数隐私。drynx利用同态加密、零知识正确性证明和差

4、此外，“基于重放历史的学习证明”也是证明计算完整性的方法。证明包括工作者在训练过程中的中间模型，以及用于计算模型更新的训练集中的相应数据点。“基于重放历史的学习证明”不需要对公开模型的体系结构和训练算法进行修改。但是通过“对抗性示例”以更低的成本欺骗证明。挑战在于在分布式机器学习的训练过程中，设计一种对于工作者有效的证明方案，实现有限的证明开销和简洁证明。有效的证明需要满足两个属性：

5、(1)工作者投入了人力和计算资源来执行训练工作；

6、(2)这些训练任务被正确计算，即工作者具有计算的完整性。

技术实现思路

1、本专利技术的目的在于针对现有的计算机分布式学习所有权保护方面面临的敌手窃取、伪造所有权证明的技术缺陷，创造性地提出一种基于二叉线性树承诺的分布式学习所有权保护方法，利用二叉线性树承诺来保证分布式学习工作者的计算完整性和证明安全性。

2、首先对本专利技术方法涉及的概念和内容进行解释说明。

3、向量承诺：是密码学中的一个概念，用于在保护数据的同时公开承诺其内容。它是一种承诺方案，允许发送方将一个向量的值承诺给接收方，并在后续验证阶段证明该承诺的正确性；

4、二叉线性树：是一种数据结构，每个叶节点都是数据块的承诺值，而非数据块本身，每个非叶节点都是其子节点的承诺值，可以在验证时通过对数级别的操作快速验证大型数据集中的数据完整性；

5、分布式学习：一种机器学习的方法，它允许在多个计算设备上进行模型训练，而不是集中在单个中央服务器上进行。分布式学习通过将训练任务分发到多个计算设备上，使得每个设备可以在本地执行一部分训练过程，然后将更新的模型参数进行聚合，从而实现模型的全局训练；

6、内积证明：是密码学和复杂性理论中常用的一种证明技术。它基于向量空间中的内积概念，用于证明两个向量之间的关系或属性，而无需直接透露向量的具体值；

7、证明者：参与分布式学习的工作者，向验证者提供向量承诺证明自己完成了训练计算，从而证明工作者拥有最终模型的部分所有权；

8、验证者：是模型所有者，验证证明者提供的向量承诺，从而验证证明者是否正确参与了模型训练过程。

9、本专利技术采取如下技术方案实现。

10、一种基于二叉线性树的分布式学习所有权保护方法，包括分布式学习模型训练、证明者承诺生成、证明者承诺更新和验证者承诺验证。

11、步骤1：验证者将任务分解成多个子任务，每个证明者在本地执行若干计算，并将其结果发送给验证者进行模型参数的聚合和更新。

12、具体地，步骤1包括：

13、步骤1.1：验证者初始化分布式学习模型，并将初始模型参数分发给证明者。

14、步骤1.2：每个证明者使用本地的数据子集执行模型训练的若干轮迭代。

15、这意味着每个证明者只使用本地数据进行计算，不需要将数据发送到验证者。

16、步骤1.3：在每轮迭代的结束，证明者将更新的模型参数发送给验证者。验证者执行参数聚合操作(如加权平均或投票等)，生成全局模型参数。

17、步骤1.4：验证者将聚合后的参数发送回所有证明者，使得每个证明者都更新到最新的模型参数。当模型收敛时，分布式学习模型训练结束。

18、步骤2：证明者每轮计算的模型中间参数构成一个向量，证明者对该向量做承诺保证计算完整性。

19、具体地，步骤2包括：

20、步骤2.1：证明者使用基于二叉线性树的向量承诺算法，输入安全参数和向量长度，并且生成公共参数；

21、步骤2.2：证明者随机生成一个密钥对，包括一个私有水印秘钥和一个公共验证秘钥；

22、步骤2.3：证明者通过公共参数和私有水印秘钥，生成一个水印公共参数；

23、步骤2.4：证明者通过水印公共参数生成模型中间参数的承诺，该承诺带有通过私有水印秘钥生成的水印；

24、向量中每一个位置的模型参数都对应一个带水印的证明，这些证明都是证明者生成的。

25、步骤2.5：证明者将多个独立的模型参数和与其对应的证明聚合成一个证明，该聚合后的证明能够用来验证模型中间参数向量的正确性和完备性。

26、步骤3：在每轮训练迭代的过程中，证明者根据更新的模型参数更新相应的证明和承诺。

27、步骤4：验证者通过证明者提供的承诺和聚合证明验证证明者的计算完整性，从而确保模型所有权。

28、有益效果

29、本专利技术方法，与现有技术相比，具有以下优点：

30、1.本专利技术方法，除了额外的承诺记录来保证计算完整性外，不改变模型的内部结构和训练优化算法。

31、2.本专利技术通过二叉线性树结构限制承诺聚合、验证和更新的时间成本，实现了可聚合且可维护的高效承诺方案，同时还不会泄露具体的模型参数信息，从而实现了模型参数隐私本文档来自技高网...

【技术保护点】

1.一种基于二叉线性树的分布式学习所有权保护方法，其特征在于，包括分布式学习模型训练、证明者承诺生成、证明者承诺更新和验证者承诺验证；

2.如权利要求1所述的一种基于二叉线性树的分布式学习所有权保护方法，其特征在于，步骤1包括以下步骤：

3.如权利要求1所述的一种基于二叉线性树的分布式学习所有权保护方法，其特征在于，步骤2中，向量承诺的实现过程，包括以下步骤：

【技术特征摘要】

1.一种基于二叉线性树的分布式学习所有权保护方法，其特征在于，包括分布式学习模型训练、证明者承诺生成、证明者承诺更新和验证者承诺验证；

2.如权利要求1所述的一种基于二叉线性树的分布...

【专利技术属性】
技术研发人员：盖珂珂，谢天庥，祝烈煌，
申请(专利权)人：北京理工大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人