一种基于不平衡数据的去中心化联邦集成学习方法及系统技术方案

技术编号：38826264 阅读：13 留言：0更新日期：2023-09-15 20:05

本发明专利技术提供一种基于不平衡数据的去中心化联邦集成学习方法及系统。本发明专利技术方法，包括：采集本地原始计算分类数据，并对数据进行处理；确定训练所使用的模型结构，并将处理后的数据作为本地模型训练的输入，得到训练后的本地模型；采用集成学习bagging的思想，得到模型的预测值，并根据预测值做硬投票操作，得到最终的分类结果。本发明专利技术的技术方案采用了去中心化联邦学习结构，在没有中心服务器节点的情况下依然能够完成整个联邦学习的过程，避免了可能因中心服务器节点造成的单点故障等问题。本发明专利技术采用集成学习的策略，综合考虑了多模型的预测结果，提高了联邦学习的性能。提高了联邦学习的性能。提高了联邦学习的性能。

全部详细技术资料下载

【技术实现步骤摘要】
一种基于不平衡数据的去中心化联邦集成学习方法及系统

[0001]本专利技术涉及数据处理
，具体而言，尤其涉及一种基于不平衡数据的去中心化联邦集成学习方法及系统。

技术介绍

[0002]现有的联邦学习模式中，中央服务器编排训练过程并接收所有客户端的数据。因此，服务器是一个潜在的单点故障的中心参与者，故而去中心化联邦学习模式是必要的；另外，现实中联邦学习的数据大多为Non
‑
IID(即非独立同分布)，此时，传统的联邦优化方法在处理此类高度倾斜的异构数据则表现不佳(即精度降低)。其中，Non
‑
IID的一种形式为标签分布偏移，表现为标签在不同客户端的分布不同。因此，如何在Non
‑
IID的情况下提高联邦学习的性能也是一个需要解决的问题。

技术实现思路

[0003]根据上述提出的技术问题，而提供一种基于不平衡数据的去中心化联邦集成学习方法及系统。本专利技术通过将集成学习融入联邦学习框架，实现在数据不平衡的情况下，提高联邦学习的性能。
[0004]本专利技术采用的技术手段如下：
[0005]一种基于不平衡数据的去中心化联邦集成学习方法，包括：
[0006]采集本地原始计算分类数据，并对数据进行处理；
[0007]确定训练所使用的模型结构，并将处理后的数据作为本地模型训练的输入，得到训练后的本地模型；
[0008]采用集成学习bagging的思想，得到模型的预测值，并根据预测值做硬投票操作，得到最终的分类结果。r/>[0009]进一步地，所述采集本地原始计算分类数据，并对数据进行处理，包括：
[0010]数据参与方分别准备本地原始计算分类数据，并将数据划分为训练集、验证集、测试集；
[0011]每个客户端分别确定本地参与训练的数据集，不同的客户端包括符合不同狄利克雷分布的标签倾斜的数据集和相同的分类目标；
[0012]最终确定总共n个客户端参与训练，第i个客户端参与训练的数据集为D
i
，其中1≤i≤n，使用邻接矩阵P表示客户端节点间的拓扑结构。
[0013]进一步地，所述训练集是符合狄利克雷分布的Non
‑
IID数据，用于客户端本地模型的训练，所述验证集用于验证本地模型的精度，所述测试集用于测试最终模型的性能。
[0014]进一步地，所述确定训练所使用的模型结构，并将处理后的数据作为本地模型训练的输入，得到训练后的本地模型，包括：
[0015]客户端之间协商确定训练使用的模型结构，其中，训练所使用的模型结构一致，用于完成不同图像的分类，且模型由不同的客户端各自训练；
[0016]确定联邦学习的参数，包括全局迭代次数R、本地训练次数E、学习率η；
[0017]每个客户端利用训练集和相应的训练参数，采用联邦学习的方式并行训练，得到训练后的本地模型；训练过程形式化表示如下：
[0018][0019]其中表示为t次下客户端的旧本地模型参数，1≤t≤E，i为第i个客户端，l为损失函数，客户端将训练数据集训练多次，当训练次数达到E时，视为一次模型的本地更新；
[0020]客户端使用未参与训练的验证集获得自身预测准确率，利用邻接矩阵P获得节点间关系，将自身预测准确率和模型参数一并发送给邻居节点；
[0021]每个客户端对收集到的所有准确率进行判断，选出最大准确率对应的模型参数w
maxacc
；
[0022]使用模型参数w
maxacc
对本地模型进行更新，更新过程形式化如下所示：
[0023]w
i
＝w
maxacc
[0024]客户端返回执行采用联邦学习的方式进行并行训练的步骤，直至达到预先所设置的全局迭代次数R。
[0025]进一步地，所述采用集成学习bagging的思想，得到模型的预测值，并根据预测值做硬投票操作，得到最终的分类结果，包括：
[0026]每个客户端对测试集做分类任务，并将自身的预测值发送给邻居节点；
[0027]邻居节点对收集到的所有预测值进行硬投票，得到最终的分类结果。
[0028]本专利技术还提供了一种基于上述基于不平衡数据的去中心化联邦集成学习方法的基于不平衡数据的去中心化联邦集成学习系统，包括：
[0029]数据采集模块，用于采集本地原始计算分类数据，并对数据进行处理；
[0030]模型学习模块，用于确定训练所使用的模型结构，并将处理后的数据作为本地模型训练的输入，得到训练后的本地模型；
[0031]模型预测模块，用于采用集成学习bagging的思想，得到模型的预测值，并根据预测值做硬投票操作，得到最终的分类结果。
[0032]较现有技术相比，本专利技术具有以下优点：
[0033]1、本专利技术提供的基于不平衡数据的去中心化联邦集成学习方法，采用了去中心化联邦学习结构，在没有中心服务器节点的情况下依然能够完成整个联邦学习的过程，避免了可能因中心服务器节点造成的单点故障等问题。
[0034]2、本专利技术提供的基于不平衡数据的去中心化联邦集成学习方法，采用的数据为不平衡数据，具体来说是指如图3所示的标签倾斜场景，本专利技术采用集成学习的策略，综合考虑了多模型的预测结果，提高了联邦学习的性能。
[0035]基于上述理由本专利技术可在数据处理等领域广泛推广。
附图说明
[0036]为了更清楚地说明本专利技术实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图做以简单地介绍，显而易见地，下面描述中的附图是本专利技术的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以
根据这些附图获得其他的附图。
[0037]图1为本专利技术方法流程图。
[0038]图2为本专利技术预测过程示意图。
[0039]图3为本专利技术实施例提供的实验对比图。
具体实施方式
[0040]需要说明的是，在不冲突的情况下，本专利技术中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本专利技术。
[0041]为使本专利技术实施例的目的、技术方案和优点更加清楚，下面将结合本专利技术实施例中的附图，对本专利技术实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本专利技术一部分实施例，而不是全部的实施例。以下对至少一个示例性实施例的描述实际上仅仅是说明性的，决不作为对本专利技术及其应用或使用的任何限制。基于本专利技术中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本专利技术保护的范围。
[0042]需要注意的是，这里所使用的术语仅是为了描述具体实施方式，而非意图限制根据本专利技术的示例性实施方式。如在这里所使用的，除非上下文另外明确指出，否则单数形式也意图包括复数形式，此外，还应当理解的是，当在本说明书中使用术语“包含”和/或“包括”时，其指明存在特征、步骤、操作、器件本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种基于不平衡数据的去中心化联邦集成学习方法，其特征在于，包括：采集本地原始计算分类数据，并对数据进行处理；确定训练所使用的模型结构，并将处理后的数据作为本地模型训练的输入，得到训练后的本地模型；采用集成学习bagging的思想，得到模型的预测值，并根据预测值做硬投票操作，得到最终的分类结果。2.根据权利要求1所述的基于不平衡数据的去中心化联邦集成学习方法，其特征在于，所述采集本地原始计算分类数据，并对数据进行处理，包括：数据参与方分别准备本地原始计算分类数据，并将数据划分为训练集、验证集、测试集；每个客户端分别确定本地参与训练的数据集，不同的客户端包括符合不同狄利克雷分布的标签倾斜的数据集和相同的分类目标；最终确定总共n个客户端参与训练，第i个客户端参与训练的数据集为Di，其中1≤i≤n，使用邻接矩阵P表示客户端节点间的拓扑结构。3.根据权利要求2所述的基于不平衡数据的去中心化联邦集成学习方法，其特征在于，所述训练集是符合狄利克雷分布的Non
‑
IID数据，用于客户端本地模型的训练，所述验证集用于验证本地模型的精度，所述测试集用于测试最终模型的性能。4.根据权利要求1所述的基于不平衡数据的去中心化联邦集成学习方法，其特征在于，所述确定训练所使用的模型结构，并将处理后的数据作为本地模型训练的输入，得到训练后的本地模型，包括：客户端之间协商确定训练使用的模型结构，其中，训练所使用的模型结构一致，用于完成不同图像的分类，且模型由不同的客户端各自训练；确定联邦学习的参数，包括全局迭代次数R、本地训练次数E、学习率η；每个客户端利用训练集和相应的训练参数，采用联邦学习的方式并行训练，得到训练后的本地模型；训练过程形式...

【专利技术属性】
技术研发人员：战福瑞，侯筠竹，陈荣，张程伟，
申请(专利权)人：大连海事大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人