一种联邦学习场景中高效的错误数据检测方法技术

技术编号:27030094 阅读:43 留言:0更新日期:2021-01-12 11:13
一种联邦学习场景中高效的错误数据检测方法,其特征在于所述该方法主要包括以下模块:层次化影响分析、基于影响值的用户选择和模型更新,所述层次化影响分析为给定一训练完成的全局模型

【技术实现步骤摘要】
一种联邦学习场景中高效的错误数据检测方法
本专利技术涉及的联邦学习场景中高效的错误数据检测方法,属于数据分析与数据质量评估领域。
技术介绍
现如今,随着人工智能和移动计算的飞速发展,边缘和移动设备正产生大量的数据。由于网络带宽有限和数据隐私等问题,将所有数据上传到云端处理和使用已不再实际。联邦学习的出现使得终端用户利用本地数据联合训练网络模型成为可能。在联邦学习过程中,用户本地的数据质量影响全局模型的性能,大量的错误数据(例如,错误标签数据)将严重阻碍全局模型取得良好的效果。本专利技术旨在高效的检测出用于联邦学习训练的本地数据中的错误数据,并以较小的代价来修复错误,从而提升联邦学习系统的性能。针对深度学习的数据错误检测已有一系列工作,但他们都不适用于联邦学习系统,相关的技术包括模型的鲁棒性和可解释性研究,他们旨在通过分析数据样本对模型预测的影响来解释模型行为。在集中式学习中,现有工作通常使用影响函数(influencefunction)来评估训练样本对模型的影响,但他们不能直接用于联邦系统中:1)现有的影响函数方法是为集中式模型训练而设计,并且需要直接访问原始训练数据,而在联邦系统中,数据不能被第三方直接访问到;2)即使以某种方式访问到本地数据,现有的影响函数评估会带来大量的计算和通信开销,这对于联邦系统中资源受限的设备是不可接受的。
技术实现思路
本专利技术高效的检测出用于联邦学习训练的本地数据中的错误数据,并以较小的代价来修复错误,提升联邦学习系统的性能。本专利技术的目的是通过以下技术方案实现的:一种联邦学习场景中高效的错误数据检测方法,所述该方法主要包括以下模块:层次化影响分析、基于影响值的用户选择和模型更新,所述层次化影响分析为给定一训练完成的全局模型和多个测试错误的测试数据,serverS首先根据server端的训练日志来确定对模型存在负影响的用户,通过server使用适用于联邦系统的影响函数协调所有负影响的用户,以定位他们含有的错误样本,并通过两种检测错误样本的算法以节省计算资源或通信资源的开销,并自适应地使用该两种算法,所述基于影响值的用户选择和模型更新为给定错误样本识别结果,server要求含有错误数据的用户删除错误样本,并根据用户的影响值来调整用户被选中的概率,重新参与联邦训练得到模型由于负影响用户被选中的概率被降低,正影响用户被选中的概率被提高,从而模型收敛速度得以提高。作为优选:所述两种检测错误样本的算法为:a).检测含有错误数据的用户:server使用联邦学习的训练日志(用户的模型更新参数)来定位异常更新的参数,从而确定含有错误数据的用户。根据训练日志的后半部分更新(t>T/2),server计算用户Ck的本地更新和全局更新的距离当用户Ck被选中时,反之是用户Ck在训练的后半部分被选中的次数。如果用户Ck的距离远大于所有用户的中位距离(如,高出一个数量级),即则用户Ck是含有错误数据的用户。b)检测错误数据:当检测出含有错误数据的用户之后,server将根据联邦学习的影响函数进一步检测错误数据。为了在检测过程中保护用户隐私,server无法直接访问本地数据。当给定一训练完成的模型和被错误预测的测试样本集DT,错误数据检测的方法如下:对每个测试样本ztest∈DT,server与每个负影响用户Ck合作计算每个训练数据zk,i的影响函数值If(zk,i),如果影响函数值远大于负影响用户的影响值的中位数则该数据是错误数据。作为优选:所述节省计算资源或通信资源的开销方法为:i)首先计算然后计算我们对进行泰勒展开,通过多次随机选择用户,随机采样该用户的部分数据,计算估计出stest,计算If(zk,i)检测出错误数据。ii)节省通信开销的错误数据样本检测:我们采用基于RandomizedKaczmarz(RK)的算法以更少的通信开销计算If(zk,i).具体来说,server每次随机选择一个用户,该用户计算的第l行hl,然后将其发送给server,server使用RK算法迭代计算出的估计值,最终计算出If(zk,i)检测出错误数据。iii)自适应调整:在联邦学习系统中,大量用户在计算资源,网络状态和带宽方面表现出极大的多样性。在对错误样本检测过程开始时,server要求所有用户报告其资源限制或资源消耗偏好,然后server根据多数用户的偏好来选择是使用计算效率高的错误数据检测还是节省通信开销的错误数据检测。专利技术设计了一个面向联邦学习的高效的错误数据检测方法,并以较小的代价来修复错误,提升联邦学习系统的性能。本专利技术提出的方法优势体现在,由于采用了层次化的检测方法,检测方法高效;同时分别设计了优化计算资源和通信资源的检测方法,检测算法适应性强;另外,整个检测过程本地数据不暴露给任一第三方,检测算法保护了用户隐私。附图说明图1为本专利技术联邦学习场景中高效的错误数据检测系统流程图。具体实施方式下面结合本专利技术的具体内容,对本专利技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本专利技术一部分实施例,而不是全部的实施例。基于本专利技术的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本专利技术的保护范围。本专利技术实施例中未作详细描述的内容属于本领域专业技术人员公知的现有技术。如图1所示,本专利技术提出的联邦学习场景中高效的错误数据检测的方法主要分为以下模块:层次化影响分析、基于影响值的用户选择和模型更新。(1)层次化影响分析:给定一训练完成的全局模型和多个测试错误的测试数据,serverS首先根据server端的训练日志来确定对模型存在负影响的用户。然后,server使用适用于联邦系统的影响函数协调所有负影响的用户,以定位他们含有的负影响样本(错误样本)。其中,为了应对联邦系统中的动态资源限制,我们设计了两种检测错误样本的算法以节省计算资源或通信资源的开销,并自适应地使用该两种算法。在该模块中,该专利技术主要包括以下步骤:a)检测含有错误数据的用户:server使用联邦学习的训练日志(用户的模型更新参数)来定位异常更新的参数,从而确定含有错误数据的用户。根据训练日志的后半部分更新(t>T/2),server计算用户Ck的本地更新和全局更新的距离当用户Ck被选中时,反之是用户Ck在训练的后半部分被选中的次数。如果用户Ck的距离远大于所有用户的中位距离(如,高出一个数量级),即则用户Ck是含有错误数据的用户。b)检测错误数据:当检测出含有错误数据的用户之后,server将根据联邦学习的影响函数进一步检测错误数据。为了在检测过程中保护用户隐私,server无法直接访问本地数据。当给定一训练完成的模型和被错误预测的测试样本集DT,错误数据检测的方法如下:对每个测试样本ztest∈DT,server与每个负影响用户Ck合作计算每个训练数据zk,i的影响函数值If(zk,i),如果影响函数值远大于负影响用户的影响值的中位数则该数据是错误数据。由于计算If(zk,i)本文档来自技高网...

【技术保护点】
1.一种联邦学习场景中高效的错误数据检测方法,其特征在于所述该方法主要包括以下模块:层次化影响分析、基于影响值的用户选择和模型更新,所述层次化影响分析为给定一训练完成的全局模型

【技术特征摘要】
1.一种联邦学习场景中高效的错误数据检测方法,其特征在于所述该方法主要包括以下模块:层次化影响分析、基于影响值的用户选择和模型更新,所述层次化影响分析为给定一训练完成的全局模型和多个测试错误的测试数据,serverS首先根据server端的训练日志来确定对模型存在负影响的用户,通过server使用适用于联邦系统的影响函数协调所有负影响的用户,以定位他们含有的错误样本,并通过两种检测错误样本的算法以节省计算资源或通信资源的开销,并自适应地使用该两种算法,所述基于影响值的用户选择和模型更新为给定错误样本识别结果,server要求含有错误数据的用户删除错误样本,并根据用户的影响值来调整用户被选中的概率,重新参与联邦训练得到模型由于负影响用户被选中的概率被降低,正影响用户被选中的概率被提高,从而模型收敛速度得以提高。


2.根据权利要求1所述的联邦学习场景中高效的错误数据检测方法,其特征在于所述两种检测错误样本的算法为:
a)检测含有错误数据的用户:server使用联邦学习的训练日志(用户的模型更新参数来定位异常更新的参数,从而确定含有错误数据的用户。根据训练日志的后半部分更新(t>T/2),server计算用户Ck的本地更新和全局更新的距离当用户Ck被选中时,反之是用户Ck在训练的后半部分被选中的次数。如果用户Ck的距离远大于所有用户的中位距离(如,高出一个数量级),即则用户Ck是含有错误数据的用户。
b)检测错误数据:当检测出含有错误数据的用...

【专利技术属性】
技术研发人员:张兰李向阳李安然
申请(专利权)人:德清阿尔法创新研究院
类型:发明
国别省市:浙江;33

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1