【技术实现步骤摘要】
一种基于公平联邦学习算法的数据分类方法及系统
[0001]本专利技术涉及数据隐私
,特别是涉及一种基于公平联邦学习算法的数据分类方法及系统。
技术介绍
[0002]人工智能的发展需要大量的数据,并且需要许多高质量的数据,但是通常在数据使用的过程中,面临着各方面的约束。首先是面临各种网络安全法或数据保护条例的约束;其次是各企业和机构之间的利益关系,导致数据在使用的过程中受到约束;再者是个人也在不断增强隐私保护意识,这些方面均不利于数据共享,使得数据共享成为难题,企业与企业之间、机构与机构之间存在“数据孤岛”的问题。因此,联邦学习应运而生,用于解决机器学习中的数据孤岛问题。联邦学习自2017年Google提出,受到学者们的广泛关注。如无线通信与边缘计算、智慧医疗、环境保护等领域。
[0003]在传统的联邦学习训练过程中,在聚合时每一个用户的聚合权重是一样的,或者采用用户数据数量占总数据量的比重作为聚合时的权重,这样的方式对数据量多的用户有优势,但是对有些数据量多但其数据质量不好的用户,给该用户分配更多的权重会影响全 ...
【技术保护点】
【技术特征摘要】
1.一种基于公平联邦学习算法的数据分类方法,其特征在于,所述方法包括:基于熵权法,根据用户端本地数据集中每种属性的熵权及每种属性对应的样本数据的数量确定得到各用户端的数据质量分数;所述本地数据集中包含若干个样本数据和每个样本数据的属性;初始化全局模型,并将初始化后的所述全局模型的参数发送给各用户端;根据所述全局模型的参数,利用各用户端拥有的本地数据集,在各用户端进行训练,得到各用户端的本地模型参数;根据各用户端的数据数量和各用户端的数据质量分数,确定各用户端的聚合权重;根据各用户端的聚合权重和各用户端的本地模型参数,确定并更新所述全局模型的参数;判断是否达到结束迭代的条件;若否,则跳转到所述“根据所述全局模型的参数,利用各用户端拥有的本地数据集,在各用户端进行训练,得到各用户端的本地模型参数”;若是,则结束训练,所述全局模型根据训练好的全局模型参数进行数据分类。2.根据权利要求1所述的数据分类方法,其特征在于,所述基于熵权法,根据用户端中每个属性的熵权及每个属性中数据的数量确定得到各用户端的数据质量分数,具体包括:对各用户端拥有的本地数据集进行预处理;根据预处理后的本地数据集,确定各用户端在本地数据集中每个样本出现的概率;根据每个样本出现的概率确定各用户端中每个属性的信息熵;根据每个属性的信息熵确定各用户端中每个属性的熵权;根据各用户端中每个属性的熵权及每个属性中数据的数量,确定各用户端的数据质量分数。3.根据权利要求2所述的数据分类方法,其特征在于,采用以下公式确定各用户端的数据质量分数:其中,表示用户u
i
的数据质量分数;k
i
表示第i个用户的属性个数,m表示第m个属性,表示用户u
i
的样本个数,j表示第j个样本。4.根据权利要求1所述的数据分类方法,其特征在于,所述根据各用户端的数据数量和数据质量分数,确定各用户端的聚合权重,具体包括:根据各用户端的数据数量占总的数据量的比重,确定各用户的数据数量权重;根据各用户数据质量分数占总的数据质量分数的比重,确定各用户的数据质量权重;根据各用户的数据数量权重和数据质量权重,确定各用户的混合权重;根据各用户的混合权重,确定各用户的聚合权重。5.根据权利要求4所述的数据分类方法,其特征在于,采用以下公式确定各用户的混合权重:
其中,表示用户u
i
的混合权重,表示用户u
i
的数据质量权重,表示用户u
i
的数据数量权重,λ表示数据质...
【专利技术属性】
技术研发人员:彭长根,杨秀清,牛坤,丁红发,李雪松,
申请(专利权)人:贵州大学,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。