基于自步学习与邻接矩阵的标签噪声鲁棒联邦学习方法技术

技术编号:39138639 阅读:9 留言:0更新日期:2023-10-23 14:53
本发明专利技术涉及一种基于自步学习与邻接矩阵的标签噪声鲁棒联邦学习方法,基于客户端

【技术实现步骤摘要】
基于自步学习与邻接矩阵的标签噪声鲁棒联邦学习方法


[0001]本专利技术涉及分布式机器学习方法领域,具体涉及一种基于自步学习与邻接矩阵的标签噪声鲁棒联邦学习方法。

技术介绍

[0002]联邦学习(Federated Learning):是一种分布式机器学习技术,其中多个设备或者数据源在不共享原始数据的情况下,通过将模型参数在设备之间共享聚合,共同训练一个全局模型,从而实现模型的改进。然而,在实际应用中,由于客户端之间存在能力、偏好、硬件可靠性等方面的差异,导致不同客户端所拥有的数据特征也不尽相同。部分客户端可能具备高质量且无噪声的数据,而另一些客户端则可能面临标签噪声或数据分布偏移等问题,从而影响标签质量,并进一步降低联邦学习模型的准确性和鲁棒性。现有的解决联邦学习标签噪声问题的方法,如引入基准数据集或拒绝噪声客户端参与训练等,均存在引入偏见或丢失信息等缺陷。
[0003]因此,如何有效地减少噪声数据对模型的干扰,并提高模型收敛速度,仍然是一个具有挑战性的问题。

技术实现思路

[0004]本专利技术克服了现有技术的不足,提供一种安全可靠的基于自步学习与邻接矩阵的标签噪声鲁棒联邦学习方法,能够有效地减少噪声数据对模型的干扰,并提高模型收敛速度。
[0005]为达到上述目的,本专利技术采用的技术方案为:一种基于自步学习与邻接矩阵的标签噪声鲁棒联邦学习方法,基于客户端

服务器模式的横向联邦学习框架,进行分布式训练:
[0006]步骤S1,获得可信客户端:从参与横向联邦学习的所有客户端样本中采用互相进行模型评价的方式构建邻接矩阵,通过邻接矩阵选取具有良好数据质量和可靠性的客户端作为可信客户端;
[0007]步骤S2,根据步骤S1中获得的可信客户端计算所有客户端样本的近邻关系:根据步骤S1中获得的可信客户端进行联邦学习,得到全局联邦模型,使用所述全局联邦模型为所有客户端样本计算近邻关系;
[0008]步骤S3,自步更新步骤S2获得的样本近邻关系以及标签评估与矫正:对于每个客户端,使用全局联邦模型更新客户端样本的邻接矩阵,获得更新邻接矩阵;计算每个客户端样本的预测标签和原始标签之间的残差;根据更新邻接矩阵将样本分为离群样本与非离群样本;根据残差和邻居标签表示对非离群样本进行标签评估与矫正;
[0009]步骤S4,离群样本处理:对于离群样本,在前期训练中利用近邻关系将离群样本从训练数据中排除,在后期训练中,在降低学习率之后,逐渐参与训练增强模型的鲁棒数据。
[0010]具体的,离群样本是难以使用训练的网络模型进行预测标签的难样本,其中包括
了标签错误的样本造成的离群,或者是本身是难样本造成的离群。
[0011]本专利技术一个较佳实施例中,步骤S2中,对于每个可信客户端,通过所述全局联邦模型得到全连接层特征;使用欧几里得距离来计算客户端中两两样本之间的残差,该残差也可以称之为样本相似度。
[0012]本专利技术一个较佳实施例中,步骤S2中,将所有客户端样本之间的相似度转化成相似度矩阵,并将相似度矩阵转化为邻接矩阵;邻接矩阵用于描述客户端样本之间的近邻关系,将客户端样本分为非离群样本与离群样本。
[0013]本专利技术一个较佳实施例中,步骤S3中,对于每个客户端的每个样本,使用联邦模型的全连接层特征更新客户端样本的邻接矩阵,全连接层特征是深度学习网络模型的最后一层,反应了样本的深度特征,使用该特征计算两两样本之间欧氏距离,更新样本之间的相似度以得到新的相邻关系,获得所述的新邻接矩阵;在联邦学习中每轮更新样本距离,更新邻接矩阵;所述新邻接矩阵反映客户端样本之间的新的相邻关系。
[0014]本专利技术一个较佳实施例中,步骤S3中的自步更新样本近邻关系方法包括:对于每个客户端,使用全局联邦模型重新计算样本标签的全连接层特征,通过归一化指数函数(softmax函数)得到预测概率;基于计算的标签预测概率与原始标签之间的残差可以将样本分为两类:一类样本残差较小,认为是可信标签,另一类样本残差较大,认为是不可信样本;并根据两两样本之间的全连接层特征的欧氏距离计算得到距离矩阵,并通过以经验设定的阈值二值化后的得到邻接矩阵;并在每轮联邦学习中使用新模型更新样本之间的距离,更新的邻接矩阵。
[0015]本专利技术一个较佳实施例中,步骤S3中标签评估与矫正方法包括:根据邻接矩阵可以将样本分为离群样本和非离群样本;离群样本是指具与其有邻居关系的样本的数量较少的样本,非离群样本指与其具有邻居关系的样本的数量较多的样本;对邻居较多的非离群样本中的标签不可信样本使用邻居标签进行标签矫正,矫正后的新标签是该样本的邻居样本中的绝大多数类样本的标签。
[0016]具体的,简单且标签正确的样本因为残差小,容易判断;难样本与标签含有噪声的样本因为难以学习到特征,所以残差较大,因而不容易分类,离群样本中自然包括难以分类的难样本;根据残差将样本分为标签可信样本与标签不可信样本。
[0017]本专利技术一个较佳实施例中,当认为一个样本应当矫正标签时,使用该样本在邻接矩阵中的邻居来计算该样本的新标签,新标签为该样本的邻居中的多数类。
[0018]本专利技术一个较佳实施例中,一种基于自步学习与邻接矩阵的标签噪声鲁棒联邦学习方法的标签噪声鲁棒联邦学习装置,包括:
[0019]选取可信客户端模块,用于从参与横向联邦学习的所有客户端样本中,采用互相进行模型评价的方式构建邻接矩阵,通过邻接矩阵选取具有良好数据质量和可靠性的客户端作为可信客户端:获取可信客户端的数据;
[0020]计算近邻关系模块,用于近邻关系的计算,根据可信客户端计算所有客户端样本的近邻关系:根据步骤S1中获得的可信客户端进行联邦学习,得到全局联邦模型,使用所述全局联邦模型为所有客户端样本计算近邻关系;得到所有客户端样本的近邻关系数据;
[0021]自步更新样本近邻关系以及标签评估与矫正模块,用于自步更新样本近邻关系以及标签评估与矫正;对于每个客户端,使用全局联邦模型更新客户端样本的邻接矩阵,获得
更新邻接矩阵;计算每个客户端样本的预测标签和原始标签之间的残差;根据更新邻接矩阵将样本分为离群样本与非离群样本;根据残差和邻居标签对非离群样本中标签不可信的样本进行矫正;
[0022]离群样本处理模块,用于离群样本处理;对于离群样本,在前期训练中利用近邻关系将离群样本从训练数据中排除,在后期训练中,在降低学习率之后,逐渐参与训练增强模型的鲁棒数据。
[0023]具体的,因为离群样本一方面难以利用邻居判断原始标签的真实性,另一方面是因为样本本身是难以学习到特征的难样本。所以,对于这些离群样本在前期训练中将这些样本从训练数据中排除。并在训练过程中更新邻接矩阵,逐步将离群样本吸纳进非离群样本。在离群样本集合趋于稳定的后期训练中,降低学习率,逐渐加入难样本与离群样本参与训练增强模型的鲁棒性。
[0024]本专利技术一个较佳实施例中,一种计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于自步学习与邻接矩阵的标签噪声鲁棒联邦学习方法,其特征在于:基于客户端

服务器模式的横向联邦学习框架,进行分布式训练:步骤S1,获得可信客户端:从参与横向联邦学习的所有客户端样本中采用互相进行模型评价的方式构建邻接矩阵,通过邻接矩阵选取具有良好数据质量和可靠性的客户端作为可信客户端;步骤S2,根据步骤S1中获得的可信客户端计算所有客户端样本的近邻关系:根据步骤S1中获得的可信客户端进行联邦学习,得到全局联邦模型,使用所述全局联邦模型为所有客户端样本计算近邻关系;步骤S3,自步更新步骤S2获得的样本近邻关系以及标签评估与矫正:对于每个客户端,使用全局联邦模型更新客户端样本的邻接矩阵,获得更新邻接矩阵;计算每个客户端样本的预测标签和原始标签之间的残差;根据更新邻接矩阵将样本分为离群样本与非离群样本;根据残差和邻居标签表示对非离群样本进行标签评估与矫正;步骤S4,离群样本处理:对于离群样本,在前期训练中利用近邻关系将离群样本从训练数据中排除,在后期训练中,在降低学习率之后,逐渐参与训练增强模型的鲁棒数据。2.根据权利要求1所述的一种基于自步学习与邻接矩阵的标签噪声鲁棒联邦学习方法,其特征在于:步骤S2中,对于每个可信客户端,通过所述全局联邦模型得到全连接层特征;使用欧几里得距离来计算客户端中两两样本之间的残差,该残差也可以称之为样本相似度。3.根据权利要求1所述的一种基于自步学习与邻接矩阵的标签噪声鲁棒联邦学习方法,其特征在于:步骤S2中,将所有客户端样本之间的相似度转化成相似度矩阵,并将相似度矩阵转化为邻接矩阵;邻接矩阵用于描述客户端样本之间的近邻关系,将客户端样本分为非离群样本与离群样本。4.根据权利要求1所述的一种基于自步学习与邻接矩阵的标签噪声鲁棒联邦学习方法,其特征在于:步骤S3中,对于每个客户端的每个样本,使用联邦模型的全连接层特征更新客户端样本的邻接矩阵,全连接层特征是深度学习网络模型的最后一层,反应了样本的深度特征,使用该特征计算两两样本之间欧氏距离,更新样本之间的相似度以得到新的相邻关系,获得所述的新邻接矩阵;在联邦学习中每轮更新样本距离,更新邻接矩阵;所述新邻接矩阵反映客户端样本之间的新的相邻关系。5.根据权利要求1所述的一种基于自步学习与邻接矩阵的标签噪声鲁棒联邦学习方法,其特征在于:步骤S3中的自步更新样本近邻关系方法包括:对于每个客户端,使用全局联邦模型重新计算样本标签的全连接层特征,通过归一化指数函数得到预测概率;基于计算的标签预测概率与原始标签之间的残差可以将样本分为两类:一类样本残差较小,认为是可信标签,另一类样本残差较大,认为是不可信样本...

【专利技术属性】
技术研发人员:吴飞张家宾季一木金昊黄庆花
申请(专利权)人:南京邮电大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1