一种基于知识蒸馏的联邦域适应方法及系统技术方案

技术编号:36778044 阅读:12 留言:0更新日期:2023-03-08 22:06
本发明专利技术属于数据安全技术领域,具体涉及一种基于知识蒸馏的联邦域适应方法及系统;该方法包括:多个医疗机构作为客户端采集数据库中的医疗图像,服务器采集本地医疗数据库中的医疗图像;将客户端中的数据作为源域数据,服务器中的数据作为目标域数据;构建基于医疗图像分类模型的联邦学习模型;根据源域数据和目标域数据对联邦学习模型进行医疗图像分类模型训练和对比学习,得到训练好的全局模型;服务器采集目标医疗机构的医疗图像并将其输入到全局模型中,得到医疗图像分类结果;本发明专利技术预测精度高,对用户数据隐私保护性好,具有良好的应用前景。的应用前景。的应用前景。

【技术实现步骤摘要】
一种基于知识蒸馏的联邦域适应方法及系统


[0001]本专利技术属于数据安全
,具体涉及一种基于知识蒸馏的联邦域适应方法及系统。

技术介绍

[0002]近年来,我们见证了机器学习在人工智能应用领域的迅猛发展,人工智能热潮在短短几年内席卷至各大领域成为研究热门,大数据医疗、大数据金融、智慧城市等服务孕育而生。而这些技术的成功,尤其是深度学习,无一不是基于海量数据基础之上的。然而在实际情况中,人们发现在很多应用领域无法满足如此大规模的数据量。且伴随着社会不断发展,现代社会已经逐渐意识到了数据以及隐私安全的重要性,例如在,大数据金融以及大数据医疗领域,对用户的隐私保护需求较高,这使得这些企业、机构之间数据难以流通,想要得到一份高质量、大数量的训练数据,不得不面对难以桥接的“数据孤岛”现象。为了解决以上现象,联邦学习理论被提出。在传统分布式的基础上构思,提出了数据不动模型动的思想,在数据不出域的场景下进行安全的学习,解决了“数据孤岛”问题,充分发掘了分布在各处的数据的潜在价值。
[0003]与此同时,为了避免每次对深度学习中所需的海量数据进行标签,一部分的工作选择使用相似的数据集去训练目标模型。无监督域适应的技术则致力于提升在目标场景的模型性能,且有时需要多个源域数据集来提升目标模型的性能,无监督多源域适应通过建立从多个源域到无标记目标域的可转移特征来解决此类问题。
[0004]近年来,越来越多的研究者对联邦学习的场景下进行多源域适应进行研究。研究的方面主要有利用模型对抗训练、计算域最大平均差异以及知识蒸馏方法。基于对抗训练的思想就是在特征空间中应用对抗性训练优化源域与目标域之间的H

散度。基于最大平均差异方法则是通过构建一个可复制核特征空间,然后通过缩小最大平均差异距离来优化H

散度。基于知识蒸馏方法通过教师

学生策略将知识提炼扩展到域适应场景中,在源域中训练多个教师模型,然后在目标域上集成它们训练一个学生模型。
[0005]针对数据隐私环境下多源域适应无法直接获取源域数据问题,考虑到知识蒸馏允许只访问模型即可获取知识的特点,采用知识蒸馏的方式从多个源域获取知识。现有一种基于知识投票的多源模型知识蒸馏方法,用以获取高质量的域共识知识。然后定义每个源域所贡献共识知识的质量,并得到一个可以识别无关域与恶意域的指标。最后利用深度学习模型中的正则化归一层所记录的特征滑动均值与方差,提出了BatchNorm MMD距离。但该方法在图像数据集中表现效能表现欠佳,且训练过程中同一时间源域与目标域一方必须闲置,训练效率较低;本专利技术提出了一种基于知识蒸馏的联邦域适应方法,引入了针对域数据质量参差问题的多教师师置信度知识蒸馏方法以及对比学习的思想,不仅可以一定程度上提高在目标域上的准确度,还可以识别一些不相关的源域和恶意源域,提高医疗图像分类模型的分类准确性。

技术实现思路

[0006]针对现有技术存在的不足,本专利技术提出了一种基于基于知识蒸馏的联邦域适应方法及系统,该方法包括:
[0007]S1:多个医疗机构作为客户端采集数据库中的医疗图像,服务器采集本地医疗数据库中的医疗图像;将客户端中的数据作为源域数据,服务器中的数据作为目标域数据;
[0008]S2:构建基于医疗图像分类模型的联邦学习模型;
[0009]S3:根据源域数据和目标域数据对联邦学习模型进行医疗图像分类模型训练和对比学习,得到训练好的全局模型;
[0010]S4:服务器采集目标医疗机构的医疗图像并将其输入到全局模型中,得到医疗图像分类结果。
[0011]优选的,对联邦学习模型进行医疗图像分类模型训练的过程包括:
[0012]S31:根据源域数据训练医疗图像分类模型,得到初始源域模型;
[0013]S32:根据初始源域模型对目标域数据进行知识投票,得到高质量的知识共识;
[0014]S33:根据高质量的知识共识扩展源域,得到扩展源域数据;根据扩展源域数据训练医疗图像分类模型,得到扩展源域模型;
[0015]S34:根据目标域数据对所有源域模型进行置信度多教师知识蒸馏,训练得到适应于目标域的学生模型。
[0016]进一步的,对初始源域模型进行知识投票的过程包括:
[0017]将目标域数据输入到初始源域模型中,得到输出结果;计算每个模型输出结果属于不同类别的置信度;根据置信度采用高阶置信度门进行过滤处理,去除不自信的模型;
[0018]将剩余模型按照输出结果所属类别进行计数,将计数最多的类别作为共识类,去除与共识类不一致的模型,得到共识模型;
[0019]计算所有共识模型输出结果为相同类别的置信度均值,将置信度均值作为共识模型的共识知识,将共识模型数量作为每个共识模型的共识权重;
[0020]若高阶置信度门过滤了所有模型,则将所有模型输出结果的置信度均值作为共识知识,并为其分配一个低共识权重。
[0021]进一步的,对源域模型进行置信度多教师知识蒸馏的过程包括:
[0022]将初始源域模型和扩展源域模型作为教师模型,采用目标域数据对教师模型进行置信度多教师知识蒸馏,得到预测结果;根据每个教师模型的预测结果计算第二交叉熵损失;根据第二交叉熵损失计算所有教师模型的第一权重;根据所有教师模型的第一权重和第二交叉熵损失计算标签损失;
[0023]根据教师模型分类层中的学生特征向量计算第三交叉熵损失;根据第三交叉熵损失计算所有教师模型的第二权重;根据所有教师模型的第二权重和第三交叉熵损失计算传递损失;
[0024]若目标域数据不存在标签,则根据标签损失和传递损失计算总体损失;若目标域数据存在部分标签,则根据教师模型的预测结果计算常规交叉熵损失,根据常规交叉熵损失、标签损失和传递损失计算总体损失;
[0025]根据总体损失指导学生模型训练,得到训练好的学生模型。
[0026]进一步的,计算标签损失的公式为:
[0027][0028]其中,L
KD
表示标签损失,表示第一权重,M表示教师模型的数量,表示第k个教师模型输出结果为类别c的置信度,表示第二交叉熵损失,表示学生模型输出结果类别c的置信度。
[0029]进一步的,计算传递损失的公式为:
[0030][0031]其中,L
inter
表示传递损失,表示第二权重,M表示教师模型的数量,表示第k个教师模型提取的特征,r(F
S
)表示学生模型提取的特征。
[0032]优选的,对联邦学习模型进行对比学习的过程包括:
[0033]获取输入数据在本地模型输出层前的网络中的映射表征向量、上一轮次本地训练好后发送给服务器的模型输出的表征向量、当前轮次服务器发送给本地的全局模型输出的表征向量;
[0034]根据三种表征向量进行对比学习,计算本地模型的对比学习损失和监督学习交叉熵损失;根据对比训练损失和监督学习交叉熵损失计算总体学习损失;根本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于知识蒸馏的联邦域适应方法,其特征在于,包括:S1:多个医疗机构作为客户端采集数据库中的医疗图像,服务器采集本地医疗数据库中的医疗图像;将客户端中的数据作为源域数据,服务器中的数据作为目标域数据;S2:构建基于医疗图像分类模型的联邦学习模型;S3:根据源域数据和目标域数据对联邦学习模型进行医疗图像分类模型训练和对比学习,得到训练好的全局模型;S4:服务器采集目标医疗机构的医疗图像并将其输入到全局模型中,得到医疗图像分类结果。2.根据权利要求1所述的一种基于知识蒸馏的联邦域适应方法,其特征在于,对联邦学习模型进行医疗图像分类模型训练的过程包括:S31:根据源域数据训练医疗图像分类模型,得到初始源域模型;S32:根据初始源域模型对目标域数据进行知识投票,得到高质量的知识共识;S33:根据高质量的知识共识扩展源域,得到扩展源域数据;根据扩展源域数据训练医疗图像分类模型,得到扩展源域模型;S34:根据目标域数据对所有源域模型进行置信度多教师知识蒸馏,训练得到适应于目标域的学生模型。3.根据权利要求2所述的一种基于知识蒸馏的联邦域适应方法,其特征在于,对初始源域模型进行知识投票的过程包括:将目标域数据输入到初始源域模型中,得到输出结果;计算每个模型输出结果属于不同类别的置信度;根据置信度采用高阶置信度门进行过滤处理,去除不自信的模型;将剩余模型按照输出结果所属类别进行计数,将计数最多的类别作为共识类,去除与共识类不一致的模型,得到共识模型;计算所有共识模型输出结果为相同类别的置信度均值,将置信度均值作为共识模型的共识知识,将共识模型数量作为每个共识模型的共识权重;若高阶置信度门过滤了所有模型,则将所有模型输出结果的置信度均值作为共识知识,并为其分配一个低共识权重。4.根据权利要求2所述的一种基于知识蒸馏的联邦域适应方法,其特征在于,对源域模型进行置信度多教师知识蒸馏的过程包括:将初始源域模型和扩展源域模型作为教师模型,采用目标域数据对教师模型进行置信度多教师知识蒸馏,得到预测结果;根据每个教师模型的预测结果计算第二交叉熵损失;根据第二交叉熵损失计算所有教师模型的第一权重;根据所有教师模型的第一权重和第二...

【专利技术属性】
技术研发人员:肖云鹏朱海鹏李暾李茜庞育才王蓉唐飞王国胤
申请(专利权)人:重庆邮电大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1