基于自监督学习的联邦学习方法和系统技术方案

技术编号:37975501 阅读:12 留言:0更新日期:2023-06-30 09:50
本申请涉及一种基于自监督学习的联邦学习方法和系统,联邦学习方法实施在多个参与方和中心节点之间,包括:各参与方利用私有数据集训练本地模型,且在训练过程中对域内数据集进行预测,获得预测值;所述中心节点利用域内数据集、以及对应所述域内数据集的预测值,训练全局模型;利用所述全局模型训练域分类器,所述域分类器从开放数据集中提取所述域内数据集。本申请并非通过简单地线性组合得到全局模型,使得全局模型具有更好的全局性能。此外,训练全局模型使用域内数据集,而非传统意义上的开放数据集,因此弱化了参与方对开放数据集的依赖,减小了开放数据集中的噪声对全局模型的负面影响。的负面影响。的负面影响。

【技术实现步骤摘要】
基于自监督学习的联邦学习方法和系统


[0001]本申请涉及深度学习领域,特别是涉及一种基于自监督学习的联邦学习方法和系统。

技术介绍

[0002]训练高精度、泛化性能强的深度神经网络模型通常需要大规模且多样化的数据集,但是当数据涉及到用户隐私和个人信息时这一要求变得难以满足。随着个人隐私保护意识的增强,用户会倾向于选择将自己的私人数据保存在本地而拒绝互联网公司收集数据的请求。在另一些场景如需要使用跨企业或跨部门的数据对模型进行训练时,法律会要求企业清晰的列出数据保护的责任方以及数据的使用范围,这些场景都为人工智能在现实生活中的发展提出了挑战。
[0003]为了克服这个问题,联邦学习(FL)为上述数据孤岛问题提供了一种解决方案。它要求所有参与方使用其私有数据集在本地训练深度模型,并通过特定的中心节点来对本地模型进行聚合从而得到一个目标一致的全局模型。虽然联邦学习被有效的应用在大规模私有数据集联合训练的场景下,但仍然存在一定的限性,以下两方面问题是传统的联邦学习亟待解决的问题。
[0004](1):参与方数据非独立同分布问题:联邦学习假设每个参与方的私有数据是独立同分布(IID)的。此要求在小规模联邦学习上是较为满足的,多个参与方以同样的方式从相似的场景中收集数据。然而,当问题的范围扩展到多个地理位置或多种应用场景时,参与方的私有数据集往往是非独立同分布的(non

IID)。在这种情况下,各参与方所训练的本地模型在特征提取的能力上有着一定的参差,仅仅通过线性组合的方式得到的全局模型会有着较弱的全局性能。
[0005](2)模型异构问题:传统的联邦学习要求每个参与方训练一个相同架构的本地模型。在参与方均配备相同硬件和软件的场景这个要求是适用的,但是当参与方涉及的跨度较大(从智能穿戴设备,到移动终端、再到数据中心的服务器)时,联邦学习只能做出模型性能和训练耗时之间的妥协,且由于内存的限制,往往会在训练时出现木桶效应,只能按照硬件条件最弱的参与方设置模型的大小。
[0006]现有的解决上述问题的研究思路是通过迁移学习将多个本地模型的知识聚合在全局模型中,以处理数据非独立同分布问题。具体为局部模型所学习到的知识被开放数据集进行统一的量化,随后在中心节点对这部分知识进行聚合从而将所有参与方的知识进行聚合。
[0007]这种基于知识蒸馏解决非独立同分步的方法需要一个共享的开放数据集作为知识传递的媒介,这对开放数据集的数据特征分布提出了很高要求,开放数据集和私有数据集在特征分布上的不一致会导致该参与方传递的知识具有误导性,从而对全局模型的泛化性能造成影响。

技术实现思路

[0008]基于此,有必要针对上述技术问题,提供一种基于自监督学习的联邦学习方法。
[0009]本申请基于自监督学习的联邦学习方法,实施在多个参与方和中心节点之间,包括:
[0010]各参与方利用私有数据集训练本地模型,且在训练过程中对域内数据集进行预测,获得预测值;
[0011]所述中心节点利用域内数据集、以及对应所述域内数据集的预测值,训练全局模型;
[0012]利用所述全局模型训练域分类器,所述域分类器从开放数据集中提取所述域内数据集。
[0013]可选的,所述全局模型、所述域分类器、以及各所述本地模型在训练过程中均迭代更新。
[0014]可选的,各所述本地模型在本轮对域内数据集进行预测时,使用上轮所述域分类器提取的域内数据集。
[0015]可选的,在首轮对域内数据集进行预测时,所述域内数据集随机提取于所述开放数据集。
[0016]可选的,各所述本地模型作为老师模型,所述全局模型作为学生模型,所述全局模型利用知识蒸馏的方式进行迭代更新;
[0017]各所述本地模型获得的预测值的均值,用于训练所述全局模型。
[0018]可选的,各所述本地模型为相同的结构类别,各所述本地模型的迭代,通过所述全局模型分发至各参与方的方式完成。
[0019]可选的,利用所述全局模型训练域分类器,包括:
[0020]所述全局模型产生输入样本的输出层信息;
[0021]所述域分类器获得所述输入样本、以及所述输入样本的输出层信息;
[0022]所述域分类器根据所述输出层信息得到评分,根据所述评分将符合预期的输入样本置入所述域内数据集。
[0023]可选的,根据所述评分将符合预期的输入样本置入所述域内数据集,具体包括:对所述评分排序后,按次序提取绝对数量或占比数量的对应的输入样本,置入所述域内数据集。
[0024]可选的,利用所述全局模型训练域分类器,包括:
[0025]利用所述全局模型的中间层信息,自监督地训练所述域分类器,所述中间层信息来源于所述全局模型中间层内在每个批量归一化层之前的特征图。
[0026]可选的,所述域分类器包括基底模型和多层感知机,所述基底模型为每轮迭代的所述全局模型,所述多层感知机作为检测头。
[0027]可选的,所述域分类器包括多层感知机,训练过程包括:
[0028]对输入样本进行数据增强,获得对比样本,所述输入样本和所述对比样本一一对应;
[0029]基于所述输入样本获得第一层次特征,基于所述对比样本获得第二层次特征,所述第一层次特征和所述第二层次特征一一对应;
[0030]利用所述第一层次特征、所述第二层次特征、以及二者的对应关系训练所述域分类器。
[0031]可选的,所述域分类器从开放数据集中提取所述域内数据集,包括:
[0032]所述域分类器接收所述第一层次特征、所述批量归一化层中的特征平均值串联,并输出二者的相对距离,所述相对距离用于将所述开放数据集划分为所述域内数据集和域外数据集。
[0033]可选的,所述域分类器从开放数据集中提取所述域内数据集,包括:
[0034]所述域分类器接收所述第一层次特征、所述批量归一化层中的特征平均值串联,并二者投影到嵌入空间中,所述相对距离为二者在投影在嵌入空间中的余弦距离,根据所述相对距离保留选择符合预期的、与所述第一层次特征相对应的输入样本,进而置入域内数据集。
[0035]可选的,基于所述对比样本获得第二层次特征,按照基于所述输入样本获得第一层次特征的方式进行;
[0036]基于所述输入样本获得第一层次特征,利用下式进行:
[0037][0038]式中,x为输入样本;
[0039]v(x)为输入样本的第一层次特征;
[0040]f
i
表示全局模型对于输入样本x在第i个批量归一化层之前的特征图;
[0041]GAP表示将一张二维的特征图进行全局平均池化得到一个标量值;
[0042]为串联操作。
[0043]本申请还提供一种基于自监督学习的联邦学习系统,包括多个参与方和中心节点,实施有如本申请所述的基于自监督学习的联邦学习方法。
[0044]可选的,各参与方本地模型的结构类别至少包括两本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.基于自监督学习的联邦学习方法,实施在多个参与方和中心节点之间,其特征在于,包括:各参与方利用私有数据集训练本地模型,且在训练过程中对域内数据集进行预测,获得预测值;所述中心节点利用域内数据集、以及对应所述域内数据集的预测值,训练全局模型;利用所述全局模型训练域分类器,所述域分类器从开放数据集中提取所述域内数据集。2.根据权利要求1所述的基于自监督学习的联邦学习方法,其特征在于,所述全局模型、所述域分类器、以及各所述本地模型在训练过程中均迭代更新;各所述本地模型在本轮对域内数据集进行预测时,使用上轮所述域分类器提取的域内数据集;各所述本地模型作为老师模型,所述全局模型作为学生模型,所述全局模型利用知识蒸馏的方式进行迭代更新;各所述本地模型获得的预测值的均值,用于训练所述全局模型。3.根据权利要求2所述的基于自监督学习的联邦学习方法,其特征在于,各所述本地模型为相同的结构类别,各所述本地模型的迭代,通过所述全局模型分发至各参与方的方式完成。4.根据权利要求1所述的基于自监督学习的联邦学习方法,其特征在于,利用所述全局模型训练域分类器,包括:所述全局模型产生输入样本的输出层信息;所述域分类器获得所述输入样本、以及所述输入样本的输出层信息;所述域分类器根据所述输出层信息得到评分,根据所述评分将符合预期的输入样本置入所述域内数据集。5.根据权利要求1所述的基于自监督学习的联邦学习方法,其特征在于,利用所述全局模型训练域分类器,包括:利用所述全局模型的中间层信息,自监督地训练所述域分类器,所述中间层信息来源于所述全局模型中间层内在每个批量归一化层之前的特征图。6.根据权利要求5所述的基于自监督学习的联邦学习方法,其特征在于,所述域分类器包括多层感知机,训练过程...

【专利技术属性】
技术研发人员:王德健林博董科雄王慧东赵冲
申请(专利权)人:杭州医康慧联科技股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1