当前位置: 首页 > 专利查询>浙江大学专利>正文

基于联邦学习系统的医疗数据分析方法、设备、存储介质和程序产品技术方案

技术编号:34339959 阅读:119 留言:0更新日期:2022-07-31 03:43
本申请提供了基于联邦学习系统的医疗数据分析方法,包括:确定待训练模型,确定参考时间,确定参与方,获得参与方数据量,发起训练,请求训练结果,等待时间根据参考时间和参与方数据量确定,获得训练结果,根据训练结果分析医疗数据。本申请提供的医疗数据分析方法、计算机设备、存储介质和程序产品,能够帮助客户端及时获得训练结果,提高效率。提高效率。提高效率。

【技术实现步骤摘要】
基于联邦学习系统的医疗数据分析方法、设备、存储介质和程序产品


[0001]本申请涉及医疗数据共享
,特别是涉及一种医疗数据分析方法、设备、存储介质和程序产品。

技术介绍

[0002]每个医院的数据都是保密,不能共享出来,但是数据是有价值的,医院的数据的价值更是具有分析性,自己医院的数据分析不能很好的进行一个分析,具有局限性,并且想知道其他医院的其他部门领域的数据是一个非常难的事,医院数据很难有互通和交流。
[0003]在传统的机器学习中,模型的效率和准确性依赖于集中式服务器的计算能力和训练数据,而数据往往牵扯到隐私。近年来,社会各界的隐私保护意识日益提升,政府的隐私保护监管力度逐渐加强,联邦学习应运而生。联邦学习的目的是保证数据隐私安全及合法合规的基础上,多方实现机器学习算法的共同建模,提升模型的效果。联邦学习本质上是一种分布式机器学习技术,又涉及到许多跨领域的研究,需要探索全新的软件和技术模式。
[0004]联邦学习需要从分布不同的数据源进行大量的机器学习计算,计算能力在各参与方之间共享,这涉及到分布式计算引擎。和集中式计算相反,分布式计算的一个计算过程将会在多台机器上进行,各方之间彼此进行交互以实现一个共同的目标,把需要进行大量计算的数据分区成小块,由多台计算机分别计算,再上传运算结果后,将结果统一合并得出数据结论。
[0005]分布式计算引擎:联邦学习需要从分布不同的数据源进行大量的机器学习计算,计算能力在各参与方之间共享,这涉及到分布式计算引擎。和集中式计算相反,分布式计算的一个计算过程将会在多台机器上进行,各方之间彼此进行交互以实现一个共同的目标,把需要进行大量计算的数据分区成小块,由多台计算机分别计算,再上传运算结果后,将结果统一合并得出数据结论。
[0006]联邦学习统计分析进行训练之后,无法通知训练的发起者已经训练完了。需要发起者去请求才知道结果如何。请求的频率如果过高,可能造成网络拥堵,浪费计算资源。频率如果过低,又难以及时获得训练结果,影响工作效率。

技术实现思路

[0007]本申请提供了基于联邦学习系统的医疗数据分析方法,能够帮助客户端及时获得训练结果,提高效率。
[0008]本申请提供的基于联邦学习系统的医疗数据分析方法,所述联邦学习系统包括多个客户端,所述医疗数据分析方法包括:
[0009]确定待训练模型;
[0010]确定所述待训练模型采用的算法,获得所述算法对第一数据量的医疗数据完成训练的时间,作为参考时间;
[0011]根据所述待训练模型,确定所述多个客户端中的参与方,
[0012]获得各所述参与方用于训练所述待训练模型的医疗数据的数据量,计算得到第二数据量;
[0013]向所述联邦学习系统发送对所述待训练模型的训练任务;
[0014]在发送所述训练任务后,经过一段等待时间,再向所述联邦学习系统发送返回训练结果的请求,所述等待时间是根据所述第一数据量、所述第二数据量、所述参考时间计算得到,且所述等待时间与所述述第二数据量、所述参考时间正相关,与所述第一数据量负相关;
[0015]接收从所述联邦学习系统返回的所述待训练模型的训练结果;
[0016]根据所述联邦学习训练结果进行医疗数据分析。
[0017]以下还提供了若干可选方式,但并不作为对上述总体方案的额外限定,仅仅是进一步的增补或优选,在没有技术或逻辑矛盾的前提下,各可选方式可单独针对上述总体方案进行组合,还可以是多个可选方式之间进行组合。
[0018]可选的,所述第一数据量的数值范围为100~1000。
[0019]可选的,所述第二数据量为各所述参与方中,用于训练所述待训练模型的所述医疗数据的数据量的最大值。
[0020]可选的,所述等待时间的计算方法包括:
[0021]选择一时间单位,将所述参考时间按所述时间单位取整,得到第一数值;
[0022]将所述第二数据量除以所述第一数据量,得到第二数值;
[0023]将所述第一数值与所述第二数值相乘得到第三数值;
[0024]将第三数值取整,得到第四数值;
[0025]根据所述时间单位,将所述第四数值转换为所述等待时间。
[0026]可选的,所述时间单位为分钟。
[0027]可选的,所述将所述参考时间按所述时间单位取整,为向上取整;将第三数值取整为向下取整。
[0028]可选的,所述向所述联邦学习系统发送返回训练结果的请求,具体包括:每隔5~20秒,向所述联邦学习系统发送一次返回训练结果的请求。
[0029]本申请还提供一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,所述处理器执行所述计算机程序时实现所述医疗数据分析方法的步骤。
[0030]本申请还提供一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现所述医疗数据分析方法的步骤。
[0031]本申请还提供一种计算机程序产品,包括计算机指令,该计算机指令被处理器执行时实现所述医疗数据分析方法的步骤。
[0032]本申请提供的基于联邦学习系统的医疗数据分析方法、计算机设备、存储介质和程序产品,能够帮助客户端及时获得训练结果,提高效率。
附图说明
[0033]图1为一个实施例中联邦学习系统的框架示意图;
[0034]图2为一个实施例中医疗数据分析方法的流程示意图;
[0035]图3为一个实施例中计算等待时间的流程示意图;
[0036]图4为一个实施例中计算机设备的内部结构图。
具体实施方式
[0037]为了使本申请的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本申请进行进一步详细说明。应当理解,此处描述的具体实施例仅仅用以解释本申请,并不用于限定本申请。
[0038]联邦学习是指在满足数据隐私保护和保护数据安全的前提下,设计出一个分布式机器学习框架,使得各参与训练的机构在不交换数据的前提下协同工作,提升模型效果。该概念的核心是同时满足数据隐私保护和数据孤岛的问题,通过建立一个数据联邦,让各参与方同时获得收益,得到泛化能力更强的模型。
[0039]在一个实施例中,联邦学习系统的框架如图1所示,参与联邦学习的各医院分别配有客户端,训练任务分布在各客户端分别计算,充分利用各医院的医疗数据和计算能力,同时避免隐私泄露。当然,本申请的联邦学习系统除了可以采用客户端

服务器架构外,还可以采用其它架构,如树形结构、利用区块链的去中心化服务器的架构等。
[0040]为了解决数据的计算,本申请使用了基于联邦学习的分布式计算方法,要实现分布式计算首先要解决其中两个最重要的问题:一是如何拆分计算逻辑;二是如何分发计算逻辑。对于联邦学习来说,计算逻辑实现分布式,将一个巨大的问题拆分成相对独立的子问题分发到各个机器上求解,同时满足数据通信的安全性,保证各个计算逻辑之间的运行符合隐私保护的要求。...

【技术保护点】

【技术特征摘要】
1.基于联邦学习系统的医疗数据分析方法,所述联邦学习系统包括多个客户端,其特征在于,所述医疗数据分析方法包括:确定待训练模型;确定所述待训练模型采用的算法,获得所述算法对第一数据量的医疗数据完成训练的时间,作为参考时间;根据所述待训练模型,确定所述多个客户端中的参与方,获得各所述参与方用于训练所述待训练模型的医疗数据的数据量,计算得到第二数据量;向所述联邦学习系统发送对所述待训练模型的训练任务;在发送所述训练任务后,经过一段等待时间,再向所述联邦学习系统发送返回训练结果的请求,所述等待时间是根据所述第一数据量、所述第二数据量、所述参考时间计算得到,且所述等待时间与所述述第二数据量、所述参考时间正相关,与所述第一数据量负相关;接收从所述联邦学习系统返回的所述待训练模型的训练结果;根据所述联邦学习训练结果进行医疗数据分析。2.根据权利要求1所述的医疗数据分析方法,其特征在于,所述第一数据量的数值范围为100~1000。3.根据权利要求1所述的医疗数据分析方法,其特征在于,所述第二数据量为各所述参与方中,用于训练所述待训练模型的所述医疗数据的数据量的最大值。4.根据权利要求1所述的医疗数据分析方法,其特征在于,所述等待时间的计算方法包括:选择一时间单位...

【专利技术属性】
技术研发人员:舒强俞刚徐玮泽林博董科雄
申请(专利权)人:浙江大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1