高可靠半监督联邦学习方法及系统技术方案

技术编号：38147549 阅读：10 留言：0更新日期：2023-07-13 09:11

本申请涉及一种高可靠半监督联邦学习方法及系统，解决了半监督学习中现有技术对类不平衡数据处理效果较差、半监督学习中共用监督学习参数与无监督学习参数而相互影响的问题；本申请提供了良好的基于自定义可靠性的模型聚合方法，并且增强了处理类不平衡数据的能力；而对模型参数进行稀疏可加分解，以减少有监督和无监督任务之间的干扰，从而提高了联邦学习中半监督学习的性能；同时通过参数分解减少了服务端与客户端间的通讯成本，以此提高了联邦学习的通讯效率。联邦学习的通讯效率。联邦学习的通讯效率。

全部详细技术资料下载

【技术实现步骤摘要】
高可靠半监督联邦学习方法及系统

[0001]本申请涉及联邦半监督学习
，具体地，涉及一种高可靠半监督联邦学习方法及系统。

技术介绍

[0002]半监督学习(Semi
‑
Supervised Learning)，是一种利用少量带标签数据和大量无标签数据进行模型训练的机器学习方法。一方面，考虑到根据半监督学习的定义，其可以解决带标签数据量少的现实问题；另一方面，考虑到相较于无监督学习，其仍然可以利用一部分标签信息来降低训练模型的难度，因此，对半监督学习的研究具有非常重要的现实意义。半监督学习其实就是利用大量的无标签数据来弥补少量标签数据指导模型训练所容易造成的过拟合现象(提高泛化能力)。
[0003]联邦学习(Federated Learning)，是一种在确保本地客户端数据隐私安全的前提下，通过中心化服务器调用多方本地客户端联合训练模型的一种学习范式。联邦学习的一个非常重要的作用，就是可以在极高的隐私保护要求下，为机器学习相关任务提供大量的训练数据。联邦学习的这一特性在人们对于隐私保护日益重视的今天，对目前仍需要大量数据支撑的机器学习方法来说起着至关重要的作用。
[0004]而联邦半监督学习(Federated Semi
‑
Supervised Learning,FSSL)，其实就是将半监督学习方法应用于联邦学习的应用场景之中，结合两种技术的优势来更好地解决现实问题。该技术一方面可以通过联邦学习保证具备充足的训练数据，另一方面又可以通过半监督学习来缓解各个客户端...

【技术保护点】

【技术特征摘要】
1.一种高可靠半监督联邦学习方法，其特征在于，包括：对多个客户端半监督学习模型进行训练，得到每个所述客户端半监督学习模型的监督学习参数和无监督学习参数；根据所述监督学习参数和所述无监督学习参数在所述多个客户端半监督学习模型中筛选至少一个高可靠模型；每个所述高可靠模型的监督学习参数和无监督学习参数用于在下一轮训练中辅助训练所述多个客户端半监督学习模型；将所有所述客户端半监督学习模型的监督学习参数进行聚合，得到聚合后的监督学习参数；将所有所述客户端半监督学习模型的无监督学习参数进行聚合，得到聚合后的无监督学习参数；将所述聚合后的监督学习参数和所述聚合后的无监督学习参数进行合并，得到合并后的参数；所述合并后的参数用于更新服务端模型；将所述聚合后的监督学习参数和所述聚合后的无监督学习参数回传至所述多个客户端半监督学习模型，作为下一轮模型训练的初始监督学习参数和初始无监督学习参数。2.如权利要求1所述的方法，其特征在于，所述对多个客户端半监督学习模型进行训练，得到每个客户端半监督学习模型的监督学习参数和无监督学习参数，包括：所述训练包括监督学习和无监督学习；针对每个客户端半监督学习模型，模型整体参数θ分解为了监督学习参数α和无监督学习参数β，使得θ＝α+β；所述监督学习基于带标签数据集进行训练，训练过程中冻结无监督学习参数β，得到更新后的监督学习参数；所述无监督学习基于无标签数据集进行训练；训练过程中冻结监督学习参数α，得到更新后的无监督学习参数；在每一轮的无监督学习后，将模型生成的伪标签进行采样，将采样得到的伪标签对应的数据加入带标签数据集中用于下一轮的监督学习。3.如权利要求2所述的方法，其特征在于，所述无监督学习采用的损失函数为：其中，Φ(
·
)为损失函数，CE为交叉熵损失函数，为标签，y为输出，为本地的客户端半监督学习模型对于输入γ(x)的输出，γ(x)为输入x经数据增强后的数据，H为高可靠模型的个数，KL为相对熵函数，为第j个高可靠模型对于输入x的输出，为本地的客户端半监督学习模型对于输入x的输出；其中，标签采用以下公式表示：其中，1(
·
)为one
‑
hot函数。4.如权利要求1所述的方法，其特征在于，其中，根据所述监督学习参数和所述无监督学习参数在所述多个客户端半监督学习模型中筛选至少一个高可靠模型，包括：
根据所述监督学习参数和所述无监督学习参数计算每个所述客户端半监督学习模型在验证集上的分类准确度得分；根据所述分类准确度得分计算每个所述客户端半监督学习模型的可靠性，采用的公式如下：其中，K
i
为编号为i的客户端半监督学习模型的可靠性，表示编号为i的客户端半监督学习模型在验证集上的分类准确度得分，表示从编号1开始到编号为I的所有客户端半监督学习模型的分类准确度得分总和；根据所述可靠性筛选至少一个高可靠模型。5.如权利要求1所述的方法，其特征在于，其中，将所有所述客户端半监督学习模型的监督学习参数进行聚合，得到聚合后的监督学习参数，采用的公式如下：其中，为从编号1开始到编号为I的所有客户端半监督学习模型的聚合后的监督学习参数，K
i
为编号为i的客户端半监督学习模型的可靠性，为编号为i的客户端半监督学习模型的监督学习参数，I为客户端半监督学习模型的个数；将所有所述客户端半监督学习模型的无监督学习参数进行聚合，得到聚合后的无监督学习参数，采用的公式如下：其中，为从编号1开始到编号为I的所有客户端半监督学习模型的聚合后的无监督学习参数，K
i
为编号为i的客户端半监督学习模型的可靠性，为编号为i的客户端半监督学习模型的无监督学习参数，I为客户端半监督学习模型的个数。6.一种高可靠性半监督联邦学习系统，其特征在于，包括：多个客户端模块、参数上传模块和服务端，所述服务端包括高可靠模型选取模块、参...

【专利技术属性】
技术研发人员：任杰，陈炜航，刘蓉庆，贾晨鸽，王煜华，
申请(专利权)人：陕西师范大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人