面向非独立同分布场景的联邦学习蒸馏方法及装置制造方法及图纸

技术编号:37717664 阅读:8 留言:0更新日期:2023-06-02 00:14
本发明专利技术涉及人工智能技术领域,提供一种面向非独立同分布场景的联邦学习蒸馏方法及装置,该方法借助于目标终端的非标签数据与目标终端的初始标签数据的相似度、与其他终端的初始标签数据的第一特征相似度以及目标终端的初始标签数据与其他终端的初始标签数据的第二特征相似度,可以丰富初始教师模型以及基础模型的训练样本,不仅可以大大提高初始教师模型以及基础模型的训练效率,还可以使得到的目标教师模型以及学生模型的泛化能力更强,进而可以提升联邦学习得到的聚合模型的准确性。此外,该方法结合知识蒸馏以及联邦学习,可以使学生模型学习到自身完全不存在的其他终端的知识,即自身数据没有相关标签,但是能通过联邦学习学到相关知识。邦学习学到相关知识。邦学习学到相关知识。

【技术实现步骤摘要】
面向非独立同分布场景的联邦学习蒸馏方法及装置


[0001]本专利技术涉及人工智能
,尤其涉及一种面向非独立同分布场景的联邦学习蒸馏方法及装置。

技术介绍

[0002]联邦学习(Federated Learning,FL)是一种新型的模型训练方法,可以通过各个分散的终端设备,将服务端下发的全局模型通过本地数据先进行初步训练,再让每个终端设备将初步训练好的本地模型上传到服务端,在服务端对每个上传的本地模型进行统一聚合,并将聚合模型下发至各终端设备。联邦学习实现了既让本地数据不泄漏,有效地保护了本地数据的隐私安全,又实现了充分利用海量分散的本地数据进行模型训练,获得拟合性能更加优良的本地模型。由于联邦学习允许参与者在不共享数据的前提下协同训练模型,很好地保护了本地数据的隐私并打破数据孤岛,因此联邦学习受到了广泛的关注,尤其广泛应用于分布式训练场景。
[0003]在分布式训练场景下,很多传统的分布式机器学习算法,都需要假设数据分布是均匀的,即各个终端设备之间的数据分布需要服从独立同分布(Independent

andIdentically

Distritributed,IID)。然而,在现实生活中,本地数据的产生无法控制,不同终端设备上独立产生本地数据,当多个分散的终端设备作为联邦学习的参与方时,各个终端设备上的本地数据有可能是非独立同分布(Non

Independent

and

Identically

Distributed,Non

IID)的,甚至本地数据带有的标签也是非独立同分布的,这将导致联邦学习中模型训练效率大幅下降,模型泛化能力弱的问题出现。而且,联邦学习的参与方在进行联邦学习后,得到的聚合模型的准确性提升不大,甚至会有所降低。
[0004]因此,如何提高联邦学习在Non

IID场景下的模型训练效率,提升模型泛化能力,提高聚合模型的准确性至关重要。

技术实现思路

[0005]本专利技术提供一种面向非独立同分布场景的联邦学习蒸馏方法及装置,用以解决现有技术中存在的缺陷。
[0006]本专利技术提供一种面向非独立同分布场景的联邦学习蒸馏方法,应用于目标终端,所述目标终端归属的目标服务端下各终端的数据和/或标签满足非独立同分布;所述方法包括:
[0007]确定所述目标终端的初始标签数据以及非标签数据,并基于所述非标签数据与所述目标终端的初始标签数据的相似度,对所述非标签数据进行标注,得到第一标签数据;
[0008]基于所述非标签数据与所述其他终端的初始标签数据的第一特征相似度,对所述非标签数据进行标注,得到第二标签数据,基于所述目标终端的初始标签数据与所述其他终端的初始标签数据的第二特征相似度,确定第三标签数据;
[0009]将所述目标终端与所述目标服务端下其他终端进行标签对齐,并基于所述目标终
端的初始标签数据、所述第一标签数据、所述第二标签数据、所述第三标签数据以及标签对齐结果,对初始教师模型进行训练,得到目标教师模型,并基于所述目标教师模型,对所述目标终端的初始标签数据进行标签预测,得到所述目标终端的初始标签数据的软标签;
[0010]基于所述目标终端的初始标签数据的软标签、所述目标终端的初始标签数据、所述第一标签数据、所述第二标签数据以及所述第三标签数据,对基础模型进行本地蒸馏,得到学生模型,并基于所述学生模型进行联邦学习。
[0011]根据本专利技术提供的一种面向非独立同分布场景的联邦学习蒸馏方法,所述第一特征相似度,基于如下步骤确定:
[0012]确定初始特征提取模型,并基于所述初始特征提取模型,提取所述非标签数据的第一特征向量;
[0013]将所述初始特征提取模型中的预设结构进行差分隐私保护,得到目标特征提取模型;
[0014]将所述目标特征提取模型发送至所述其他终端,并接收所述其他终端基于所述目标特征提取模型提取的其初始标签数据的第二特征向量;
[0015]确定所述第一特征向量与所述第二特征向量之间的相似度为所述第一特征相似度。
[0016]根据本专利技术提供的一种面向非独立同分布场景的联邦学习蒸馏方法,所述第二特征相似度,基于如下步骤确定:
[0017]基于所述初始特征提取模型,提取所述目标终端的初始标签数据的第三特征向量;
[0018]确定所述第三特征向量与所述第二特征向量之间的相似度为所述第二特征相似度。
[0019]根据本专利技术提供的一种面向非独立同分布场景的联邦学习蒸馏方法,所述基于所述学生模型进行联邦学习,包括:
[0020]将所述学生模型上传至所述目标服务端;
[0021]接收所述目标服务端基于对所述各终端上传的学生模型进行联邦平均聚合后得到的聚合模型,并将所述聚合模型作为所述基础模型循环进行本地蒸馏,直至联邦学习结束。
[0022]根据本专利技术提供的一种面向非独立同分布场景的联邦学习蒸馏方法,所述基于所述非标签数据与所述目标终端的初始标签数据的相似度,对所述非标签数据进行标注,得到第一标签数据,包括:
[0023]确定所述目标终端的初始标签数据中与所述非标签数据的相似度最大的第一相似数据,并基于所述第一相似数据带有的标签,对所述非标签数据进行标注,得到所述第一标注数据。
[0024]根据本专利技术提供的一种面向非独立同分布场景的联邦学习蒸馏方法,所述基于所述非标签数据与所述其他终端的初始标签数据的第一特征相似度,对所述非标签数据进行标注,得到第二标签数据,包括:
[0025]确定所述其他终端的初始标签数据中与所述非标签数据的第一特征相似度最大的第二相似数据,并基于所述第二相似数据带有的标签,对所述非标签数据进行标注,得到
所述第二标注数据。
[0026]根据本专利技术提供的一种面向非独立同分布场景的联邦学习蒸馏方法,所述基于所述目标终端的初始标签数据与所述其他终端的初始标签数据的第二特征相似度,确定第三标签数据,包括:
[0027]计算第三相似数据与第四相似数据带有的标签均值,所述第三相似数据为大于预设阈值的第二特征相似度对应的所述目标终端的初始标签数据,所述第四相似数据为大于所述预设阈值的第二特征相似度对应的所述其他终端的初始标签数据;
[0028]将所述标签均值作为所述第三相似数据的标签,得到所述第三标签数据。
[0029]本专利技术还提供一种面向非独立同分布场景的联邦学习蒸馏装置,应用于目标终端,所述目标终端归属的目标服务端下各终端的数据和/或标签满足非独立同分布;所述装置包括:
[0030]数据聚合模块,用于确定所述目标终端的初始标签数据以及非标签数据,并基于所述非标签数据与所述目标终端的初始标签数据的相似度,对所述非标签数据进行标注,得到第一标签数据;
[0031]数据标注模块,用于将所述目标终端与所述目标服务端下其他终端进行标签本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种面向非独立同分布场景的联邦学习蒸馏方法,其特征在于,应用于目标终端,所述目标终端归属的目标服务端下各终端的数据和/或标签满足非独立同分布;所述方法包括:确定所述目标终端的初始标签数据以及非标签数据,并基于所述非标签数据与所述目标终端的初始标签数据的相似度,对所述非标签数据进行标注,得到第一标签数据;基于所述非标签数据与所述其他终端的初始标签数据的第一特征相似度,对所述非标签数据进行标注,得到第二标签数据,基于所述目标终端的初始标签数据与所述其他终端的初始标签数据的第二特征相似度,确定第三标签数据;将所述目标终端与所述目标服务端下其他终端进行标签对齐,并基于所述目标终端的初始标签数据、所述第一标签数据、所述第二标签数据、所述第三标签数据以及标签对齐结果,对初始教师模型进行训练,得到目标教师模型,并基于所述目标教师模型,对所述目标终端的初始标签数据进行标签预测,得到所述目标终端的初始标签数据的软标签;基于所述目标终端的初始标签数据的软标签、所述目标终端的初始标签数据、所述第一标签数据、所述第二标签数据以及所述第三标签数据,对基础模型进行本地蒸馏,得到学生模型,并基于所述学生模型进行联邦学习。2.根据权利要求1所述的面向非独立同分布场景的联邦学习蒸馏方法,其特征在于,所述第一特征相似度,基于如下步骤确定:确定初始特征提取模型,并基于所述初始特征提取模型,提取所述非标签数据的第一特征向量;将所述初始特征提取模型中的预设结构进行差分隐私保护,得到目标特征提取模型;将所述目标特征提取模型发送至所述其他终端,并接收所述其他终端基于所述目标特征提取模型提取的其初始标签数据的第二特征向量;确定所述第一特征向量与所述第二特征向量之间的相似度为所述第一特征相似度。3.根据权利要求2所述的面向非独立同分布场景的联邦学习蒸馏方法,其特征在于,所述第二特征相似度,基于如下步骤确定:基于所述初始特征提取模型,提取所述目标终端的初始标签数据的第三特征向量;确定所述第三特征向量与所述第二特征向量之间的相似度为所述第二特征相似度。4.根据权利要求1

3中任一项所述的面向非独立同分布场景的联邦学习蒸馏方法,其特征在于,所述基于所述学生模型进行联邦学习,包括:将所述学生模型上传至所述目标服务端;接收所述目标服务端基于对所述各终端上传的学生模型进行联邦平均聚合后得到的聚合模型,并将所述聚合模型作为所述基础模型循环进行本地蒸馏,直至联邦学习结束。5.根据权利要求1

3中任一项所述的面向非独立同分布场景的联邦学习蒸馏方法,其特征在于,所述基于所述非标签数据与所述目标终端的初始标签数据的相似度,对所述非标签数据进行标注,得到第一标签数据,包括:确定所述目标终端的初始标签数据中与所述非标签数据的相似度最大的第一相似数据,并基于所述第一相似数据带有的标签,对所述非标签数据进行标注,得到所述第...

【专利技术属性】
技术研发人员:沈超锋吴贻军祝言抒梁前能
申请(专利权)人:安徽科讯金服科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1