基于联邦学习实现医疗数据的隐私保护系统技术方案

技术编号:36218284 阅读:52 留言:0更新日期:2023-01-04 12:15
本发明专利技术公开了一种基于联邦学习实现医疗数据的隐私保护系,涉及医疗数据管理技术领域,包括医疗终端设备、医疗边缘服务器和医疗云中心服务器;医疗终端设备可通过变分建模对医疗数据进行预处理以实现隐私增强并得到模型训练数据;医疗边缘服务器用于将模型训练数据传入多模态模型,筛选得到生命体征区域特征,对全局医疗模型进行训练,得到局部模型,在局部模型梯度中加入本地微分扰动噪声;初始化和更新全局医疗模型。本发明专利技术为基于联邦学习的云边、智能、安全、可信的架构,能实现云边智能协同下的医疗模型训练;实现了医疗数据多模态融合的细粒度分类,提高了模型的准确率;将变分建模和差分隐私集成到系统架构中,确保医疗数据的高机密性。数据的高机密性。数据的高机密性。

【技术实现步骤摘要】
基于联邦学习实现医疗数据的隐私保护系统


[0001]本专利技术涉及医疗数据管理
,具体而言,涉及一种基于联邦学习实现医疗数据的隐私保护系统。

技术介绍

[0002]随着机器学习技术时代的到来和可穿戴传感器的快速发展,医疗物联网(IoMT)赋能医疗保健实现智能诊疗,人工智能范式有力推动了医疗保健的发展。医疗数据采集主要依靠智能医疗传感器,如智能手环、亮带等可穿戴设备,传感器采集和预处理数据后,将其传输到云计算中心进行数据分析,形成辅助诊断和治疗的相关模型。但是,由于现在几乎所有IoMT设备中的处理都以经典形式(集中计算)或基于云服务执行,所以我们无法在设备中很好地应用机器学习方法。具体来说,主要存在以下问题:
[0003]1、云计算模型下的机器学习存在相当大的通信延迟,不能很好的将数据传递给用户。用户设备也存在计算资源不足的问题。这些都需要一个新的分布式模型范式来解决。
[0004]2、由于不同医疗传感器上传的数据集差异巨大,获取准确的诊疗模型较为复杂,模型的准确性有待提高。
[0005]3、医疗云中心服务器不可信,通信网络错综复杂。因此,共享医疗数据存在隐私泄露的风险。
[0006]针对上述问题,有学者提出用分布式边缘计算架构替代云计算架构,将模型训练任务卸载到医疗边缘服务器,以实现模型的高效训练;同时结合联邦学习架构,只在传感器端进行数据采集和预处理,来有效解决传感器计算能力有限和医疗数据之间的“数据孤岛”问题。Kairouz等人上传预处理数据并使用医疗边缘服务器资源训练医疗模型,以帮助诊断和治疗。这样原始医疗数据就不需要通过网络传输,降低了数据隐私的可能性,也解决了传感器无法进行模型训练的问题。然而,随着梯度泄漏攻击、中间人攻击、共谋攻击等攻击方式的兴起,攻击者可以利用模型梯度推断、恶意拦截等方法恢复原始医疗数据,这将导致患者不愿意将医疗数据上传到医疗边缘服务器。此外,基于联邦学习的经典FedAvg模型聚合方法依赖于云医疗中心,存在通信延迟高、带宽不足、网络拥塞等问题。而将医疗数据的分析处理委托给医疗边缘服务器虽然可以减少医疗传感器的数据传输次数,缩短通信时间,但依旧面临着泄露的风险,亟需提出新的解决方案。
[0007]Zhang等人提出了一种联邦学习同态加密方法来解决隐私泄露问题。它对医疗传感器的数据进行同态加密,随后进行机器学习。然而,针对众多医疗传感器产生的海量数据进行同态加密,将会占用大量的时间和空间,这对于医疗场景所需的实时性来说几乎是不可能的。其次,Li等人提出的安全多方计算不适用于分布式医疗系统。Wei等人建议将差分隐私应用于边缘计算场景,向医学传感器数据添加噪声以执行差分干扰。但是,加入噪声会在一定程度上扭曲医疗数据,降低模型的准确性,从而降低医疗数据诊断或治疗的准确性。Wu等人提出了一种边缘场景中的自适应差分隐私方法,该方法通过自适应裁剪模型梯度来提高训练效率,达到降低吞吐量并减少延迟的目的。Yu等人建议使用不同神经网络层的敏
感性进行模型压缩。它不仅解决了权重参数冗余的问题,而且在一定程度上保护了数据隐私。Li等人提出使用参数稀疏性来传输与掩码进行与运算后不为0的参数,它可以很好地防止模型参数泄漏,但是上述方法会降低模型的准确性。Wu等人提出使用多模态学习方法进行细粒度筛选并提高准确性。
[0008]虽然上述方法可以在一定程度上保护患者的隐私数据,但在边缘计算场景下,联邦学习需要大量的通信成本,它面临着各种攻击方法和模型准确性的破坏,具体如下:
[0009]智能终端设备数量的激增,导致网络超负荷,当大量数据在网络上传输时,会导致网络拥塞,影响医疗效果;
[0010]在医疗场景下,患者的隐私敏感数据在网络传输时面临着隐私泄露和恶意攻击等问题;
[0011]由于患者不愿共享数据以及数据监管体系的严格化,导致数据无法大量共享,造成“数据孤岛”问题。

技术实现思路

[0012]本专利技术在于提供一种基于联邦学习实现医疗数据的隐私保护系统,其能够缓解上述问题。
[0013]为了缓解上述的问题,本专利技术采取的技术方案如下:
[0014]一种基于联邦学习实现医疗数据的隐私保护系统,包括医疗终端设备、医疗边缘服务器和医疗云中心服务器;
[0015]所述医疗终端设备用于
[0016]实时采集来自患者的医疗数据,
[0017]通过变分建模对医疗数据进行预处理以实现隐私增强并得到模型训练数据,以及
[0018]将模型训练数据传输给所述医疗边缘服务器;
[0019]所述医疗边缘服务器用于
[0020]从所述医疗云中心服务器获取需要训练的全局医疗模型,
[0021]将模型图像训练数据传入多模态模型,筛选得到生命体征区域特征,
[0022]利用生命体征区域特征对全局医疗模型进行训练,得到局部模型,在局部模型梯度中添加本地微分扰动噪声,以及
[0023]将添加本地微分扰动噪声后的局部模型梯度发送给所述医疗云中心服务器;
[0024]所述医疗云中心服务器用于
[0025]生成最初的全局医疗模型,并下发至各所述医疗边缘服务器,以进入第一轮联邦学习,
[0026]接收并聚合各加入本地微分扰动噪声的局部模型梯度,得到全局模型梯度,并向全局模型梯度中添加全局噪声,其中本地微分扰动噪声是利用拉普拉斯机制对边缘服务器的局部梯度进行扰动,全局噪声是对所有的梯度进行聚合后利用高斯机制进行扰动,
[0027]使用添加全局噪声后的全局模型梯度更新全局医疗模型参数,生成新的全局医疗模型,当新的全局医疗模型收敛时,则联邦学习结束,否则将新的全局医疗模型下发至各所述医疗边缘服务器,以进入下一轮联邦学习。
[0028]在本专利技术的一较佳实施方式中,所述医疗终端设备为智能医疗传感器。
[0029]在本专利技术的一较佳实施方式中,所述医疗云中心服务器还用于监控医疗边缘服务器集群的状态,管理所述医疗终端,备份培训和诊断数据。
[0030]在本专利技术的一较佳实施方式中,变分建模的过程包括:
[0031]使用全连接网络E隐藏医疗数据x得到隐藏数据z;
[0032]将隐藏数据z输入概率编码器B得到近似概率分布b;
[0033]将近似概率分布b输入解码器D得到模型训练数据。
[0034]在本专利技术的一较佳实施方式中,所述医疗边缘服务器采用多模态模型捕获模型训练数据中最具区分度的区域,并排除模型训练数据的背景噪声,得到生命体征区域特征。
[0035]在本专利技术的一较佳实施方式中,通过多模态模型筛选得到生命体征区域特征的过程包括以下步骤:
[0036]S1、对模型训练数据的两个模态分别进行编码,得到两个模态的编码特征e
a
,e
v

[0037]S2、将两个模态的编码特征e
a
,e
v
进行多模态交叉解码得到融合特征;
[0038]S3、将融合特征传本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于联邦学习实现医疗数据的隐私保护系统,其特征在于,包括医疗终端设备、医疗边缘服务器和医疗云中心服务器;所述医疗终端设备用于实时采集来自患者的医疗图像数据,通过变分建模对医疗数据进行预处理以实现隐私增强并得到模型训练数据,以及将模型训练数据传输给所述医疗边缘服务器;所述医疗边缘服务器用于从所述医疗云中心服务器获取需要训练的全局医疗模型,将模型训练数据传入多模态模型,筛选得到生命体征区域特征,利用生命体征区域特征对全局医疗模型进行训练,得到局部模型,在局部模型梯度中加入本地微分扰动噪声,以及将加入本地微分扰动噪声的局部模型梯度发送给所述医疗云中心服务器;所述医疗云中心服务器用于生成最初的全局医疗模型,并下发至各所述医疗边缘服务器,以进入第一轮联邦学习,接收并聚合各加入本地微分扰动噪声的局部模型梯度,得到全局模型梯度,并向全局模型梯度中添加全局噪声,使用添加全局噪声后的全局模型梯度更新全局医疗模型参数,生成新的全局医疗模型,当新的全局医疗模型收敛时,则联邦学习结束,否则将新的全局医疗模型下发至各所述医疗边缘服务器,以进入下一轮联邦学习。2.根据权利要求1所述的系统,其特征在于,所述医疗终端设备为智能医疗传感器。3.根据权利要求1所述的系统,其特征在于,所述医疗云中心服务器还用于监控医疗边缘服务器集群的状态,管理所述医疗终端,备份培训和诊断数据。4.根据权利要求1所述的系统,其特征在于,变分建模的过程包括:使用全连接网络E隐藏医疗数据x得到隐藏数据z;将隐藏数据z输入概率编码器B得到近似概率分布b;将近似概率分布b输入解码器D得到模型训练数据。5.根据权利要求1所述的系统,其特征在于,所述医疗边缘服务器采用多模态模型捕获模型训练数据中最具区分度的区域,并排除模型训练数据的背景噪声,得到生命体征区域特征。6.根据权利要求5所述的系统,其特征在于,通过多模态模型筛选得到生命体征区域特征的过程包括以下步骤:S1、对模型训练数据的两个模态分别进行编码,得到两个模态的编码特征e
a
,e
v
;S2、将两个模态的编码特征e
a
,e
v
进行多模态交叉解码得到融合特征;S3、将融合特征传入细粒度筛选模块,筛选得到生命体征区域特征。7.根据权利要求6所述的系统,其特征在于,步骤S1中,在编码前,需通过卷积池对模型训练数据进行多模态处理,之后再进行编码,编码公式如下:υ1a1=Conυ2d(υ0,a0)υ2,a2=MaxPooling(υ1,a1)e
υ
=E

【专利技术属性】
技术研发人员:王瑞锦张凤荔孙鑫周世杰谭婧王雯赖金山张志扬刘东孙鹏钊
申请(专利权)人:四川大学华西医院
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1