当前位置: 首页 > 专利查询>济南大学专利>正文

基于区块链和数据增强的联邦学习训练方法及系统技术方案

技术编号:38327234 阅读:13 留言:0更新日期:2023-07-29 09:09
本公开提供了基于区块链和数据增强的联邦学习训练方法及系统,涉及人工智能技术领域,包括利用原始训练集进行满足差分隐私的生成对抗网络的预训练;各客户端共同选择一个打包客户端,并将预训练完毕的生成器模型发送至打包客户端;打包客户端接收完所有客户端的生成器模型后,将接收到的生成器模型打包成一个区块上传至区块链中,客户端从区块链中下载包含所有参与方生成器模型的区块;客户端生成新的数据,将处理后的原始训练集与新生成的数据进行整合,构建新的数据集,用于联邦学习训练任务。区块链代替了原本需进行生成器模型存储的第三方机构,排除了第三方机构作恶的风险,保证了生成器模型的安全性。保证了生成器模型的安全性。保证了生成器模型的安全性。

【技术实现步骤摘要】
基于区块链和数据增强的联邦学习训练方法及系统


[0001]本公开涉及人工智能
,具体涉及基于区块链和数据增强的联邦学习训练方法及系统。

技术介绍

[0002]本部分的陈述仅仅是提供了与本公开相关的
技术介绍
信息,不必然构成在先技术。
[0003]随着人工智能相关技术的不断成熟,越来越多的机器学习算法应用于人们的实际生活中,计算机视觉、语音识别、自然语言处理、推荐系统等技术随处可见。机器学习为典型的数据驱动型任务,最终所得到的模型性能好坏与训练模型时所使用数据集的数量和质量密切相关,在进行模型训练时往往需要海量的高质量数据样本作为支撑。
[0004]为了减轻训练数据非独立同分布对最终的训练模型所带来的影响,研究者们进行一系列的研究,主要从数据共享和数据增强两个层面进行阐述,数据增强与数据共享均从数据源入手来解决FL中的Non

IID问题。不同的是,数据增强方案只由客户端上传少量的标签或样本,并通过掺杂噪声或编码解码来保证数据的隐私性。此外,上述方案虽然能够一定程度上缓解数据Non

IID问题,但相关方案仍存在部分缺陷:
[0005]1、直接进行训练数据共享的方式存在较为严重的隐私威胁,极容易造成数据泄露问题,对数据拥有者及数据本身所涉及的相关人员造成极大影响。此外,相关法律法规的颁布实施对该方法也提出了限制和制约,方法面临违法违规的风险。2、数据混合的方式虽能保证数据隐私,但混合后的数据可用性会大幅降低,寻求数据隐私性和数据可用性之间的平衡仍是现阶段的一个重要问题。3、基于联邦学习训练生成式模型的方式中,参与方与中心服务器之间需进行多轮的模型参数交互,通讯开销巨大。此外,在数据传输过程中传输速度受网络状况影响较大,联邦学习训练过程在网络环境较差的场景下存在缺陷。

技术实现思路

[0006]本公开为了解决上述问题,提出了基于区块链和数据增强的联邦学习训练方法及系统,提出一种区块链和生成式模型辅助下的联邦学习框架,该框架可以在保护原始数据的同时缓解Non

IID数据对模型性能所带来的负面影响,联邦学习各客户端无需承受为平衡Non

IID数据所带来的隐私泄露风险。
[0007]根据一些实施例,本公开采用如下技术方案:
[0008]基于区块链和联邦学习的对抗生成网络的训练方法,包括:
[0009]步骤1:将参与联邦学习的各客户端对本地数据集进行处理,得到原始训练集,利用原始训练集进行满足差分隐私的生成对抗网络的预训练;
[0010]步骤2:各客户端共同选择一个打包客户端,并将预训练完毕的生成器模型发送至打包客户端;
[0011]步骤3:打包客户端接收完所有客户端的生成器模型后,将接收到的生成器模型打
包成一个区块上传至区块链中,客户端从区块链中下载包含所有参与方生成器模型的区块;
[0012]步骤4:客户端生成新的数据,将处理后的原始训练集与新生成的数据进行整合,构建新的数据集,用于联邦学习训练任务。
[0013]根据一些实施例,本公开采用如下技术方案:
[0014]基于区块链和联邦学习的对抗生成网络的训练系统,包括:
[0015]模型预训练模块,用于将参与联邦学习的各客户端对本地数据集进行处理,得到原始训练集,利用原始训练集进行满足差分隐私的生成对抗网络的预训练;
[0016]区块下载模块,用于各客户端共同选择一个打包客户端,并将预训练完毕的生成器模型发送至打包客户端;打包客户端接收完所有客户端的生成器模型后,将接收到的生成器模型打包成一个区块上传至区块链中,客户端从区块链中下载包含所有参与方生成器模型的区块;
[0017]模型更新模块,用于数据客户端生成新的数据,将处理后的原始训练集与新生成的数据进行整合,构建新的数据集,用于联邦学习训练任务。
[0018]根据一些实施例,本公开采用如下技术方案:
[0019]一种计算机可读存储介质,其中存储有多条指令,所述指令适于由终端设备的处理器加载并执行所述的基于区块链和联邦学习的对抗生成网络的训练方法。
[0020]根据一些实施例,本公开采用如下技术方案:
[0021]一种终端设备,包括处理器和计算机可读存储介质,处理器用于实现各指令;计算机可读存储介质用于存储多条指令,所述指令适于由处理器加载并执行所述的基于区块链和联邦学习的对抗生成网络的训练方法。
[0022]与现有技术相比,本公开的有益效果为:
[0023]本公开提出了一种区块链和生成式模型辅助下的联邦学习框架,该框架可以在保护原始数据的同时缓解Non

IID数据对模型性能所带来的负面影响,联邦学习各客户端无需承受为平衡Non

IID数据所带来的隐私泄露风险。
[0024]本公开避免了以往解决Non

IID问题的方法中,通过添加噪声及编码解码的方式对数据进行处理而造成的数据可用性降低的问题,进而保证了联邦学习模型最终的模型性能。
[0025]本公开区块链代替了原本需进行生成器模型存储的第三方机构,各客户端所训练的生成器一同打包成区块上传到区块链中,并由区块链进行安全存储,排除了第三方机构作恶的风险,保证了生成器模型的安全性。
[0026]本公开区块链通过不可变的区块分类账保证了上传到区块链中的模型无法被恶意篡改,为客户端上传的生成器模型提供了高安全性保证。此外,通过选举产生的打包客户端以及本地客户端均能够对上传的生成器模型进行模型质量检测等操作,实现对模型的审计及监管,尽可能减小各参与方作恶的可能性。
附图说明
[0027]构成本公开的一部分的说明书附图用来提供对本公开的进一步理解,本公开的示意性实施例及其说明用于解释本公开,并不构成对本公开的不当限定。
[0028]图1为本公开实施例的生成器模型训练及传输流程图;
[0029]图2为本公开实施例客户端数据生成及新数据集构建流程图;
[0030]图3为本公开实施例联邦学习架构图。
具体实施方式:
[0031]下面结合附图与实施例对本公开作进一步说明。
[0032]应该指出,以下详细说明都是例示性的,旨在对本公开提供进一步的说明。除非另有指明,本文使用的所有技术和科学术语具有与本公开所属
的普通技术人员通常理解的相同含义。
[0033]需要注意的是,这里所使用的术语仅是为了描述具体实施方式,而非意图限制根据本公开的示例性实施方式。如在这里所使用的,除非上下文另外明确指出,否则单数形式也意图包括复数形式,此外,还应当理解的是,当在本说明书中使用术语“包含”和/或“包括”时,其指明存在特征、步骤、操作、器件、组件和/或它们的组合。
[0034]技术术语解释:
[0035]GS

WGAN:GS

WGAN是陈丁凡等人于2020年提出的一种满本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.基于区块链和联邦学习的对抗生成网络的训练方法,其特征在于,包括:步骤1:将参与联邦学习的各客户端对本地数据集进行处理,得到原始训练集,利用原始训练集进行满足差分隐私的生成对抗网络的预训练;步骤2:各客户端共同选择一个打包客户端,并将预训练完毕的生成器模型发送至打包客户端;步骤3:打包客户端接收完所有客户端的生成器模型后,将接收到的生成器模型打包成一个区块上传至区块链中,客户端从区块链中下载包含所有参与方生成器模型的区块;步骤4:客户端生成新的数据,将处理后的原始训练集与新生成的数据进行整合,构建新的数据集,用于联邦学习训练任务。2.如权利要求1所述的基于区块链和联邦学习的对抗生成网络的训练方法,其特征在于,所述生成对抗网络包括生成器和判别其两部分。3.如权利要求1所述的基于区块链和联邦学习的对抗生成网络的训练方法,其特征在于,所述预训练的方式为:各客户端使用本地数据集进行模型的训练,并在模型训练梯度上添加噪声,得到满足差分隐私性质的生成对抗网络模型。4.如权利要求1所述的基于区块链和联邦学习的对抗生成网络的训练方法,其特征在于,在客户端生成数据之前,客户端对下载完毕的生成器模型进行模型相似度检测操作,分别计算客户端生成器模型与其他客户端模型之间的欧几里得距离。5.如权利要求4所述的基于区块链和联邦学习的对抗生成网络的训练方法,其特征在于,所述计算客户端生成器模型与其他客户端生成器模型之间的欧几里得距离,若距离值大于最大阈值则将判断为恶意模型,若距离值小于最小阈值则将判断为相似模型。6.如权利要求5所述的基于区块链和联邦学习的对抗生成网络的训练方法,其特征在于,所述恶意模型与相似模型均无法通过检测,无法进行数据生成任务。7.如权利要求1所述的基于区块链和联邦学习的对...

【专利技术属性】
技术研发人员:赵川吴昊荆山赵圣楠陈贞翔
申请(专利权)人:济南大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1