基于半监督联邦学习的多分类器集成训练方法技术

技术编号:39308888 阅读:7 留言:0更新日期:2023-11-12 15:55
本发明专利技术提供一种基于半监督联邦学习的多分类器集成训练方法,主要包括:客户端设计分类模型并将得到的个性化本地模型发送至可信中心服务器;中心服务器端收集多方客户端模型形成“模型池”进行有监督训练;多方客户端利用中心服务器发来的“模型池”,对本地数据进行分类;多方客户端利用本地标签数据对模型进行交错训练,并上传至可信中心服务器;中心服务器对“模型池”中的分类器模型进行联邦聚合,并对聚合后的分类器进行微调整,之后发送至多方客户端。本发明专利技术基于联邦学习框架,使用少量有标签数据和大量无标签私有数据进行训练,合理使用公开数据资源,融合用户个性化需求,有效保护多方参与用户的隐私信息。护多方参与用户的隐私信息。护多方参与用户的隐私信息。

【技术实现步骤摘要】
基于半监督联邦学习的多分类器集成训练方法


[0001]本专利技术涉及人工智能
,具体而言,尤其涉及一种基于半监督联邦学习的多分类器集成训练方法。

技术介绍

[0002]随着X射线摄影装置、CT装置、超声波检测装置等医用图像采集装置的大量应用,海量的医疗图像数据被生成并分散保存在医疗机构。由于医疗资料信息包含了大量的疾病特征数据,因此深入挖掘医疗数据的特性对疾病诊断具有重要意义。
[0003]人工智能技术的发展给医学图像应用提供了更广泛的契机。具体来说与医学图像分类相关的人工智能技术大致分为以下三种:
[0004]一、基于人工智能方法的数据自动分类技术,现有的人工智能方法大多数旨在使用公开的已标注的数据集,利用机器学习模型进行训练和测试。例如,Supratak等人在《DeepSleepNet:A Model for Automatic Sleep Stage Scoring Based on Raw Single

Channel EEG》中使用两个不同大小的卷积核提取睡眠数据中的时间特征和频率特征,并使用双向的长短时记忆(Long Short

term Memory,LSTM)模块学习时间转化规律。卷积神经网络(Convolutional Neural Network,CNN)和深度信念网络(Deep Belief Network,DBN)在特征提取方面有优良的性能,循环神经网络(Recurrent Neural Network,RNN)在时间序列信号处理方面具有良好的能力。目前,于人工智能方法的数据自动分类技术已经在政治、经济、文化等各个领域广泛推广和应用。
[0005]二、基于“分歧”的半监督学习技术,使用“多视图”,即数据对象的多个“属性集”,解决当只有少量有标记样本可用时,使用大量无标记样本来提高学习算法性能的问题。特别地,针对网页分类学习任务,每个示例的描述可以划分为两个不同的视图,如,一个网页的描述可以划分为该网页上的词语和在超链接中指向该网页的词语。当没有足够过的有标签的数据时,可以同时使用两个视图,以廉价的无标记数据来增加一个更小的有标记示例集。Blum等人在《Combining labeled and unlabeled data with co

training》中首次提出了Co

training协同训练算法,在有少量已标注数据的情况下,使用大量的未标注数据的两个“视图”对模型进行训练,获得两个模型并完成数据标注任务。目前,半监督学习技术已经被广泛推广,尤其是在网页分类任务中获得了良好的应用价值。
[0006]三、基于联邦学习的多中心大数据建模技术,是针对加强个人数据管制而限制数据收集,无法再利用集中式学习获得性能表现更好的模型这一现状而出现的一种分布式学习技术。例如,医院的患者信息往往包含个人健康信息(Personal Health Information,PHI),其中包含了姓名、地址、电话号码等大量敏感的个人信息,收集并利用这些信息用于学习过程是违反世界范围内隐私法案的,若将私有数据进行分享往往会有数据泄露的风险。进行深度学习时,一般认为更多的训练数据会导致更好的性能,但是由于涉及病人隐私,大量的数据处于闲置状态,无法得到充分的挖掘。基于联邦学习的技术解决了数据隐私的问题。
[0007]但是针对个性化的任务,涉及的隐私医学图像数据个性化标注任务,多方参与客户端积存的是无标签数据,因此现有的联邦学习框架无法直接使用。

技术实现思路

[0008]鉴于现有技术的不足,本专利技术提出了一种基于半监督联邦学习的多分类器集成训练方法,基于联邦学习框架,使用少量有标签数据和大量无标签私有数据进行训练,合理使用公开数据资源,融合用户个性化需求,有效保护多方参与用户的隐私信息,在保证准确分类的同时提升业务速度,提高公共资源的利用率。
[0009]本专利技术采用的技术手段如下:
[0010]一种基于半监督联邦学习的多分类器集成训练方法,应用于分布式分类系统,所述系统包括中心服务器端以及多方参与客户端,所述中心服务器端具有第一训练数据,所述多个客户端分别具有第二训练数据,所述第一训练数据包括有标签数据,所述第二训练数据包括有标签数据和无标签数据;
[0011]所述模型训练方法包括以下步骤:
[0012]S1、中心服务器端设置并向多方参与客户端发送分类器固定配置参数,所述分类器固定配置参数包括输入格式和输出格式;
[0013]S2、客户端根据本地私有数据特点、本地数据分类偏好以及中心服务器配置参数要求,自主设计分类模型并将得到的个性化本地模型发送至可信中心服务器;
[0014]S3、中心服务器端收集多方客户端模型形成“模型池”,使用公开的第一训练数据对“模型池”中的分类器分别进行有监督训练,获得初始化全局“模型池”,并发送至多方客户端;
[0015]S4、多方客户端利用中心服务器发来的“模型池”,对本地数据进行分类,对多个分类输出使用集成函数,获得分类结果;基于置信度扩充有标签数据集并更新无标签数据集;
[0016]S5、多方客户端利用本地标签数据对模型进行交错训练,,获得本地训练“模型池”,并上传至可信中心服务器;
[0017]S6、可信中心服务器对“模型池”中的分类器模型进行联邦聚合,并使用一个批次的服务器数据对聚合后的分类器进行微调整,之后发送至多方客户端;
[0018]S7、反复执行S4

S6,至全局模型收敛并且客户端数据完成更新任务,停止通信。
[0019]进一步地,所述集成函数为:
[0020][0021]其中,λ
j
为客户端设计的模型决策权重,用于调整“模型池”中的分类器对本地数据分类决策的影响力,f1(x)和f2(x)是集成方法子函数,f1(x)=Softmax(x),f2(x)=Sigmoid(x)。
[0022]进一步地,客户端根据本地私有数据特点、本地数据分类偏好以及中心服务器配置参数要求,自主设计分类模型并将得到的个性化本地模型发送至可信中心服务器,包括:
[0023]客户端审查本地数据,划分有标签数据和无标签数据;
[0024]确定本地分类偏好;
[0025]据本地需求设计一个或多个分类器模型框架和模型内部参数,将本地模型发送到可信中心服务器进行集中初始化。
[0026]进一步地,所述本地分类偏好为:获得目标类别标注准确率高于阈值,其中目标类别和标注准确率阈值预先设定。
[0027]进一步地,多方客户端利用中心服务器发来的“模型池”,对本地数据进行分类,对多个分类输出使用集成函数,获得分类结果;基于置信度扩充有标签数据集并更新无标签数据集,包括:
[0028]客户端接到可信服务器发来的全局“模型池”,客户端使用“模型池”中的分类器分别对本地数据进行一次遍历,得到每个分类器的分类结果;
[0029]客户本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于半监督联邦学习的多分类器集成训练方法,其特征在于,应用于分布式分类系统,所述系统包括中心服务器端以及多方参与客户端,所述中心服务器端具有第一训练数据,所述多个客户端分别具有第二训练数据,所述第一训练数据包括有标签的公开的可收集的医学图像数据,所述第二训练数据包括私有的有标签医学图像数据和无标签医学图像数据;所述模型训练方法包括以下步骤:S1、中心服务器端设置并向多方参与客户端发送分类器固定配置参数,所述分类器固定配置参数包括输入格式和输出格式;S2、客户端根据本地私有数据特点、本地数据分类偏好以及中心服务器配置参数要求,自主设计分类模型并将得到的个性化本地模型发送至可信中心服务器;S3、中心服务器端收集多方客户端模型形成“模型池”,使用公开的第一训练数据对“模型池”中的分类器分别进行有监督训练,获得初始化全局“模型池”,并发送至多方客户端;S4、多方客户端利用中心服务器发来的“模型池”,对本地数据进行分类,对多个分类输出使用集成函数,获得分类结果;基于置信度扩充有标签数据集并更新无标签数据集;S5、多方客户端利用本地标签数据对模型进行交错训练,获得本地训练“模型池”,并上传至可信中心服务器;S6、可信中心服务器对“模型池”中的分类器模型进行联邦聚合,并使用一个批次的服务器数据对聚合后的分类器进行微调整,之后发送至多方客户端;S7、反复执行S4

S6,至全局模型收敛并且客户端数据完成更新任务,停止通信。2.根据权利要求1所述的一种基于半监督联邦学习的多分类器集成训练方法,其特征在于,所述集成函数为:其中,λ
j
为客户端设计的模型决策权重,用于调...

【专利技术属性】
技术研发人员:刘航李虹金郭艳卿付海燕李祎王波
申请(专利权)人:大连理工大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1