一种联邦学习场景中高效的错误数据检测方法技术

技术编号：27030094 阅读：43 留言：0更新日期：2021-01-12 11:13

一种联邦学习场景中高效的错误数据检测方法，其特征在于所述该方法主要包括以下模块：层次化影响分析、基于影响值的用户选择和模型更新，所述层次化影响分析为给定一训练完成的全局模型

全部详细技术资料下载

【技术实现步骤摘要】
一种联邦学习场景中高效的错误数据检测方法
本专利技术涉及的联邦学习场景中高效的错误数据检测方法，属于数据分析与数据质量评估领域。
技术介绍
现如今，随着人工智能和移动计算的飞速发展，边缘和移动设备正产生大量的数据。由于网络带宽有限和数据隐私等问题，将所有数据上传到云端处理和使用已不再实际。联邦学习的出现使得终端用户利用本地数据联合训练网络模型成为可能。在联邦学习过程中，用户本地的数据质量影响全局模型的性能，大量的错误数据(例如，错误标签数据)将严重阻碍全局模型取得良好的效果。本专利技术旨在高效的检测出用于联邦学习训练的本地数据中的错误数据，并以较小的代价来修复错误，从而提升联邦学习系统的性能。针对深度学习的数据错误检测已有一系列工作，但他们都不适用于联邦学习系统，相关的技术包括模型的鲁棒性和可解释性研究，他们旨在通过分析数据样本对模型预测的影响来解释模型行为。在集中式学习中，现有工作通常使用影响函数(influencefunction)来评估训练样本对模型的影响，但他们不能直接用于联邦系统中：1)现有的影响函数方法是为集中式模型训练而设计，并且需要直接访问原始训练数据，而在联邦系统中，数据不能被第三方直接访问到；2)即使以某种方式访问到本地数据，现有的影响函数评估会带来大量的计算和通信开销，这对于联邦系统中资源受限的设备是不可接受的。
技术实现思路
本专利技术高效的检测出用于联邦学习训练的本地数据中的错误数据，并以较小的代价来修复错误，提升联邦学习系统的性能。本专利技术的目的是通过...

【技术保护点】
1.一种联邦学习场景中高效的错误数据检测方法，其特征在于所述该方法主要包括以下模块：层次化影响分析、基于影响值的用户选择和模型更新，所述层次化影响分析为给定一训练完成的全局模型

【技术特征摘要】
1.一种联邦学习场景中高效的错误数据检测方法，其特征在于所述该方法主要包括以下模块：层次化影响分析、基于影响值的用户选择和模型更新，所述层次化影响分析为给定一训练完成的全局模型和多个测试错误的测试数据，serverS首先根据server端的训练日志来确定对模型存在负影响的用户，通过server使用适用于联邦系统的影响函数协调所有负影响的用户，以定位他们含有的错误样本，并通过两种检测错误样本的算法以节省计算资源或通信资源的开销，并自适应地使用该两种算法，所述基于影响值的用户选择和模型更新为给定错误样本识别结果，server要求含有错误数据的用户删除错误样本，并根据用户的影响值来调整用户被选中的概率，重新参与联邦训练得到模型由于负影响用户被选中的概率被降低，正影响用户被选中的概率被提高，从而模型收敛速度得以提高。

2.根据权利要求1所述的联邦学习场景中高效的错误数据检测方法，其特征在于所述两种检测错误样本的算法为：
a)检测含有错误数据的用户：server使用联邦学习的训练日志(用户的模型更新参数来定位异常更新的参数，从而确定含有错误数据的用户。根据训练日志的后半部分更新(t>T/2)，server计算用户Ck的本地更新和全局更新的距离当用户Ck被选中时，反之是用户Ck在训练的后半部分被选中的次数。如果用户Ck的距离远大于所有用户的中位距离(如，高出一个数量级)，即则用户Ck是含有错误数据的用户。
b)检测错误数据：当检测出含有错误数据的用...

【专利技术属性】
技术研发人员：张兰，李向阳，李安然，
申请(专利权)人：德清阿尔法创新研究院，
类型：发明
国别省市：浙江;33

全部详细技术资料下载我是这个专利的主人