System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 面向医疗数据异构场景的联邦学习公平性提升方法技术_技高网

面向医疗数据异构场景的联邦学习公平性提升方法技术

技术编号:40819416 阅读:5 留言:0更新日期:2024-03-28 19:38
本发明专利技术公开了面向医疗数据异构场景的联邦学习公平性提升方法,包括:参与方在本地基于医疗数据样本调整策略执行本地预训练;医疗云中心服务器基于参与方上传的相似模型参数聚类生成参与方簇;医疗边缘服务器基于公平选择医疗参与方机制进行簇内训练,收集簇内参与方的模型测试准确率并计算簇平均准确率;医疗云中心服务器通过簇平均准确率计算权重并进行全局聚合,下发全局模型参数。引入聚类的思想,考虑异构场景下参与方医疗样本数据量不平衡、群体大小存在差异的更复杂情形,给出自适应医疗数据样本调整策略、公平选择医疗参与方机制,在全局医疗模型聚合方法中引入动态调整策略,降低全局模型在各参与方之间的性能差异提升公平性。

【技术实现步骤摘要】

本专利技术属于分布式机器学习领域,具体涉及面向医疗数据异构场景的联邦学习公平性提升方法,该方法在保证联邦学习全局模型性能的基础上,可以降低各个参与方医疗模型之间的性能差异,提升联邦学习的公平性。


技术介绍

1、当前机器学习已成为满足人们智能化需求的重要技术手段,在医疗领域得到广泛应用。各个医疗机构、智能医疗终端都存在大量医疗样本数据,这些数据的共享有助于进行智能病例诊断、个性化治疗、疾病的检测和预防。然而传统集中式机器学习在数据共享中存在隐私泄露问题,2016年谷歌提出了一种分布式机器学习框架联邦学习,主要通过参与方进行本地训练和上传模型参数,服务器聚合模型参数,在多次迭代后生成最终稳定且准确性高的全局模型,可有效避免用户本地数据共享潜在的隐私泄露风险。然而,由于各个参与方(医疗机构、智能医疗终端)通常存在异构性(数据非独立同分布(non-iid)、样本数量不平衡和设备性能不同等),除了准确性需求,还面临公平性问题。

2、联邦学习公平性通常是指确保学习参与方之间模型性能分布的均衡性,差异(性能分布方差)越小越公平。各个参与方的本地医疗数据具有数据非独立同分布(non-iid)、样本数量不平衡等数据异构特点,如大型医院和乡镇诊所的病人样本数必然有较大差距;城市和农村医院样本中年轻人老人占比也不相同;同时,参与方训练设备具有异构性,如医院和智能医疗终端设备的训练机器内存、处理器存在差异等,上述数据和设备的异构性导致现有联邦学习算法(根据样本数量进行聚合权重分配、随机等概率选择参与方等)难以拟合所有参与方要求,会更偏向样本多、设备性能好的参与方,引起不公平问题。

3、目前,提高联邦学习公平性工作主要分为两个方面:一是通过模型聚合方法调整不同参与方权重,通过偏重局部损失更大的参与方来降低异构性带来的影响,但均为随机等概率选择参与方,忽略了参与方群体大小差异对公平性的影响。有研究考虑了聚类选择参与方,为公平联邦学习研究提供了新思路,但不适用于参与者数据不平衡的更复杂情形。二是个性化联邦学习,但该方法下各个参与方得到的模型不一致,难以实现所有参与方之间对于全局模型性能分布的均衡性。


技术实现思路

1、为提升异构场景下面向医疗数据的联邦学习公平性,解决以上现有技术的问题,本专利技术提出一种面向医疗数据异构场景的联邦学习公平性提升方法。

2、传统医疗数据联邦学习场景通常只有医疗云中心服务器完成聚合,但是本文考虑到对数据处理实时性的要求,因而引入医疗边缘服务器。本专利技术提出的面向异构场景下医疗数据的联邦学习公平性提升方法具体模型如图1所示,主要涉及三类实体:医疗云中心服务器、医疗边缘服务器和多个参与训练的参与方(医疗机构、智能医疗终端)。医疗云中心服务器用来聚类参与方上传的预训练模型、聚合医疗边缘服务器上传的簇内模型;医疗边缘服务器用来聚合簇内参与方上传的模型。该方法分为三个阶段:

3、1)基于医疗数据样本调整策略的聚类阶段:医疗云中心服务器初始化模型参数连同样本调整策略s发送给所有参与方n,n=1,2,…;参与方n根据样本调整策略执行本地预训练得到本地预训练模型参数wn,并将其上传至医疗云中心服务器;医疗云中心服务器将所有参与方的预训练模型模型参数wn进行聚类,把所有参与方聚类到不同簇中,得到簇集合,并为不同簇划分不同的医疗边缘服务器,负责簇内模型训练。

4、进一步的,医疗数据样本调整策略具体为:

5、参与方基于全局模型参数在本地进行pre_epoch轮次的预训练;对于每一轮次,都从本地医疗数据集dn中随机取出大小为b的样本,用随机梯度下降法进行模型参数的更新与优化。全部轮次训练完成后,得到参与方n的本地预训练模型参数wn并上传至医疗云中心服务器。

6、2)基于公平选择医疗参与方的簇内训练阶段:各医疗边缘服务器在簇k内随机选择na个参与方(设簇k内参与方个数为被选中的参与方在本地训练模型local_epoch轮次,将得到的模型参数上传给医疗边缘服务器;医疗边缘服务器通过联邦平均算法聚合簇内参与方的模型参数,然后将聚合得到的簇模型参数下发到簇内所有参与方;如果未达到设定的簇内训练轮次cluster_epoch,则回到簇内模型训练阶段继续进行下一轮训练,否则进入下一阶段。

7、3)基于动态调整策略的全局医疗模型聚合阶段:医疗边缘服务器在簇k内随机选择na个参与方,被选中的参与方测试上一轮全局模型在本地数据集上的准确率(第一轮仍然采用传统fedavg算法根据样本量聚合,从第二轮全局聚合开始采用动态调整策略);医疗边缘服务器计算簇平均准确率并将簇平均准确率和多轮聚合后得到的的簇模型参数上传到医疗云中心服务器;医疗云中心服务器基于动态调整策略聚合簇模型参数,然后将聚合得到的新的全局模型参数下发到医疗边缘服务器;接着医疗边缘服务器将新的全局模型参数发送给簇内所有参与方。如果未达到设定的全局训练轮次global_epoch,则回到簇内模型训练阶段继续进行下一轮训练,否则终止训练。

8、进一步的,医疗边缘服务器计算簇k平均准确率的公式如下:

9、

10、其中,为被选中的参与方集合,为被选中的参与方测试全局模型的准确率,na为每个簇内随机选择的参与方个数。

11、进一步的,医疗云中心服务器执行的动态调整策略公式如下:

12、

13、

14、其中,表示第t轮次簇k的平均准确率,k表示簇的数量,表示第t轮次全局聚合权重,表示第t轮次簇k的簇模型参数,表示聚合得到的第t+1轮次全局模型。

15、本专利技术的有益效果:

16、1.本专利技术主要解决了医疗数据异构联邦学习场景下参与方之间模型性能分布的不均衡问题。本专利技术引入聚类的思想,医疗云中心服务器基于参与方上传的相似模型参数聚类生成参与方簇,并在簇内训练过程中设计了公平参与方选择机制,以缓解各个簇群体大小差异对公平性的影响。

17、2.本专利技术在全局医疗模型聚合方法中引入动态调整策略,通过修改联邦学习全局目标函数对聚合过程进行调整,降低了参与方之间的性能差异,在保证模型性能基础上提升公平性。

18、3.本专利技术考虑了异构场景下参与方医疗样本数据量不平衡的更复杂情形,在聚类过程中,给出了自适应医疗数据样本调整策略去统一各个参与方预训练的样本数,进一步增强聚类结果的准确性,提升全局模型的公平性和性能。

本文档来自技高网...

【技术保护点】

1.面向医疗数据异构场景的联邦学习公平性提升方法,其特征在于,包括以下步骤:

2.根据权利要求1所述的面向医疗数据异构场景的联邦学习公平性提升方法,其特征在于,所述步骤1中2)参与方根据医疗数据样本调整策略进行本地预训练包括以下步骤:

3.根据权利要求1所述的面向医疗数据异构场景的联邦学习公平性提升方法,其特征在于,所述步骤2中2)医疗边缘服务器在簇内公平选择参与方进行训练的过程如下:

4.根据权利要求1所述的面向医疗数据异构场景的联邦学习公平性提升方法,其特征在于,所述步骤3中4)计算第t轮次簇k平均准确率的公式如下:

5.根据权利要求1所述的面向医疗数据异构场景的联邦学习公平性提升方法,其特征在于,所述步骤3中6)动态调整策略公式如下:

【技术特征摘要】

1.面向医疗数据异构场景的联邦学习公平性提升方法,其特征在于,包括以下步骤:

2.根据权利要求1所述的面向医疗数据异构场景的联邦学习公平性提升方法,其特征在于,所述步骤1中2)参与方根据医疗数据样本调整策略进行本地预训练包括以下步骤:

3.根据权利要求1所述的面向医疗数据异构场景的联邦学习公平性提升方法,其特征在于,所述步...

【专利技术属性】
技术研发人员:林莉沈薇赵云飞姚德陈振坤汤嘉琦
申请(专利权)人:北京工业大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1