当前位置: 首页 > 专利查询>之江实验室专利>正文

一种数据共享策略下的多中心协同预后预测系统技术方案

技术编号:22330552 阅读:36 留言:0更新日期:2019-10-19 12:21
本发明专利技术公开了一种数据共享策略下的多中心协同预后预测系统。该系统能够在多个医疗机构中心下实现隐私保护的数据共享,从而为模型构建提供足够的数据。本发明专利技术采用相对于弱分类器能够获得更好预测结果的集成学习算法来构建系统。该系统在各个中心处理敏感的患者级数据,并同时构建出集成学习模型的子分类器,仅交换不太敏感的中间结果以构建完整的集成学习模型,从而保证了所提出的多中心模型与集中式模型具有相同甚至更优的结果。本发明专利技术多中心协同预后预测系统保护了患者的个人隐私,不需要在大型集中式数据源上运行算法模型,在实际临床应用中,为单个医疗机构中构建预测模型的样本太少提供了可靠的解决方案。

A multi center collaborative prognosis prediction system based on data sharing strategy

【技术实现步骤摘要】
一种数据共享策略下的多中心协同预后预测系统
本专利技术属于医疗领域及机器学习领域,尤其涉及一种数据共享策略下的多中心协同预后预测系统。
技术介绍
预后预测在临床研究和实践中发挥着重要作用。基于单个医疗机构的电子健康记录(EHR)数据构建的预测模型可能缺少足够的统计效力和良好的泛化能力。因此,基于多个医疗机构中心电子健康记录数据协同分析的预后预测模型构建,可以用于提高用于模型训练的患者数量和覆盖面,丰富患者的预后特征,最终提高模型的预后预测的准确性和泛化能力。集成学习是一种在临床预后中应用非常广泛的算法,与逻辑回归和cox模型等线性模型不同,集成学习算法通常精度更好,且具有捕获变量间的非线性关系的能力,能很好地避免机器学习中常见的过拟合问题。因此,利用集成学习算法进行模型构建,为多中心下的协同预后预测系统的搭建提供理想的解决方案。另外,在进行多中心预后预测的同时,必须要保护患者的隐私。现有的多中心下隐私保护的集成学习训练模型大多是基于加密的方法,如利用加性同态加密等方法。Aslett等人提出基于完全同态加密的集成学习模型。Magkos等人利用基于同态加密的协议框架构建加密模块,从而训练出集成学习分类器。虽然这些加密方法可以防止信息泄漏与数据交换,但会显著影响计算和存储效率,可扩展性差,不适用于处理多中心下的大型临床数据。
技术实现思路
本专利技术的目的在于针对现有技术的不足,提供一种新型数据共享策略下的多中心协同预后预测系统。本专利技术的目的是通过以下技术方案来实现的:一种数据共享策略下的多中心协同预后预测系统,该系统包括以下四个模块:(1)数据获取模块:在各医疗机构中心分别收集患者预后预测所需要的各个变量的数据,作为该医疗机构中心的源数据集。(2)数据匿名化模块:对每个医疗机构中心的源数据集以百分比p进行随机采样,对采样数据使用匿名化算法生成匿名化数据,剩余数据作为该医疗机构中心的本地训练集;来自每个医疗机构中心的匿名化数据由中央服务器收集合成增强数据集;将增强数据集分成两部分,即附加训练集和验证集;附加训练集用于回传并分配给每个医疗机构中心;验证集用于选择集成学习模型的超参数(hyperparameter)。(3)模型训练模块:每个医疗机构中心在本地训练集成学习模型的子分类器,在训练过程中的训练数据包括该医疗机构中心的本地训练集和中央服务器回传给该医疗机构中心的附加训练集;这表明用于训练每个医疗机构中心子分类器的训练集不仅来自中心本身还来自其他中心的数据集,从而增加数据集的随机性,以提高集成学习模型的整体性能。在训练过程中,利用从增强数据集创建的验证集选择集成学习模型的超参数。(4)预后模型应用模块:由中央服务器收集各医疗机构中心本地训练的子分类器构成完整的集成学习模型;将新的患者数据输入该集成学习模型执行预后预测。进一步地,所述数据匿名化模块中,每个医疗机构中心源数据集的随机采样百分比p选择50%。将匿名化数据比例p固定在50%能够提升集成学习模型的预测效果,子分类器的直接集成或者数据的完全匿名化再集中训练都不能实现最佳结果;p的大小可以调整以适应复杂的决策支持场景,用于不同场景下的临床实践中患者的预后预测。进一步地,所述匿名化算法可选择k-匿名算法(k-anonymity)、l-多样性(l-diversity)、t-临近度(t-closeness)以及差分隐私等匿名算法。其中具体用于实现k-匿名的方法可以选择抑制(suppression),抑制即彻底隐藏某些信息,不发布某些数据项。进一步地,该系统考虑水平分割数据(horizontal-partitioneddata),即每个医疗机构中心的源数据集具有相同种类的变量。本专利技术的有益效果是:本专利技术创新地提出了一种多中心数据共享策略,能够在多个医疗机构中心下实现隐私保护的数据共享,从而为模型构建提供足够的数据。本专利技术采用相对于弱分类器能够获得更好预测结果的集成学习算法(如随机森林算法)来构建系统。该系统在各个中心处理敏感的患者级数据,并同时构建出集成学习模型的子分类器,仅交换不太敏感的中间结果以构建完整的集成学习模型,从而保证了所提出的多中心模型与集中式模型具有相同甚至更优的结果。本专利技术多中心协同预后预测系统保护了患者的个人隐私,不需要在大型集中式数据源上运行算法模型,在实际临床应用中,为单个医疗机构中构建预测模型的样本太少提供了可靠的解决方案。附图说明图1为数据共享策略下的多中心协同预后预测系统框架图;图2为数据共享策略示意图;图3为各中心数据传输示意图;图4为本专利技术数据共享策略下的多中心协同预后预测系统与集中式训练下的预后预测系统的预测能力对比图。具体实施方式下面结合附图和具体实施例对本专利技术作进一步详细说明。本专利技术提供的一种新型数据共享策略下的多中心协同预后预测系统,如图1所示,包括以下四个模块:(1)数据获取模块:在各医疗机构中心分别收集患者预后预测所需要的各个变量的数据,作为该医疗机构中心的源数据集。本实施例采用结直肠癌的数据进行实验验证,其中医疗机构中心的个数为5个,各个医疗机构中心通过数据获取模块采集到的电子病历数据样例如表1所示,共包括年龄、性别、肿瘤大小、T分期、N分期以及癌胚抗原指数等6个变量的数据信息。表1:结直肠癌患者的单个中心的电子病历数据采集举例年龄性别肿瘤大小(mm)T分期N分期癌胚抗原指数165男4.8IIII阳性274女1.5IIIV阴性…………………(2)数据匿名化模块:如图2所示,对每个医疗机构中心的源数据集以百分比p进行随机采样,对采样数据使用匿名化算法生成匿名化数据,剩余数据作为该医疗机构中心的本地训练集。来自每个医疗机构中心的匿名化数据由中央服务器收集合成增强数据集;将增强数据集分成两部分,即附加训练集和验证集;附加训练集用于回传并分配给每个医疗机构中心;验证集用于选择集成学习模型的超参数(hyperparameter)。在实验中,匿名化数据比例p设置为50%,具体的匿名化算法采用k-匿名中的抑制算法,需要通过验证集选择的超参数有2个:单个决策树使用特征的最大数量、子分类器的数量。(3)模型训练模块:如图2所示,每个医疗机构中心在本地训练集成学习模型的子分类器,在训练过程中的训练数据包括该医疗机构中心的本地训练集和中央服务器回传给该医疗机构中心的附加训练集;这表明用于训练每个医疗机构中心子分类器的训练集不仅来自中心本身还来自其他中心的数据集,从而增加数据集的随机性,以提高集成学习模型的整体性能。在训练过程中,利用从增强数据集创建的验证集选择集成学习模型的超参数,从而解决多中心模式下的袋外误差(OOB)与标准随机森林不完全相同导致的无偏估计无效的问题。(4)预后模型应用模块:由中央服务器收集各医疗机构中心本地训练的子分类器构成完整的集成学习模型;将新的患者数据输入该集成学习模型执行预后预测。实验结果如图4所示,预后预测系统的预测能力用AUC来衡量。可以看出本专利技术提出的数据共享策略下的多中心协同预后预测系统可以取得比集中式训练下的预后预测系统更优的预测结果。上述实施例用来解释说明本专利技术,而不是对本专利技术进行限制,在本专利技术的精神和权利要求的保护范围内,对本专利技术做出的任何修改和改变,都落入本专利技术的保护范围。本文档来自技高网...

【技术保护点】
1.一种数据共享策略下的多中心协同预后预测系统,其特征在于,包括:(1)数据获取模块:在各医疗机构中心分别收集患者预后预测所需要的各个变量的数据,作为该医疗机构中心的源数据集。(2)数据匿名化模块:对每个医疗机构中心的源数据集以百分比p进行随机采样,对采样数据使用匿名化算法生成匿名化数据,剩余数据作为该医疗机构中心的本地训练集;来自每个医疗机构中心的匿名化数据由中央服务器收集合成增强数据集;将增强数据集分成两部分,即附加训练集和验证集;附加训练集用于回传并分配给每个医疗机构中心;验证集用于选择集成学习模型的超参数(hyper parameter)。(3)模型训练模块:每个医疗机构中心在本地训练集成学习模型的子分类器,在训练过程中的训练数据包括该医疗机构中心的本地训练集和中央服务器回传给该医疗机构中心的附加训练集;这表明用于训练每个医疗机构中心子分类器的训练集不仅来自中心本身还来自其他中心的数据集,从而增加数据集的随机性,以提高集成学习模型的整体性能。在训练过程中,利用从增强数据集创建的验证集选择集成学习模型的超参数。(4)预后模型应用模块:由中央服务器收集各医疗机构中心本地训练的子分类器构成完整的集成学习模型;将新的患者数据输入该集成学习模型执行预后预测。...

【技术特征摘要】
1.一种数据共享策略下的多中心协同预后预测系统,其特征在于,包括:(1)数据获取模块:在各医疗机构中心分别收集患者预后预测所需要的各个变量的数据,作为该医疗机构中心的源数据集。(2)数据匿名化模块:对每个医疗机构中心的源数据集以百分比p进行随机采样,对采样数据使用匿名化算法生成匿名化数据,剩余数据作为该医疗机构中心的本地训练集;来自每个医疗机构中心的匿名化数据由中央服务器收集合成增强数据集;将增强数据集分成两部分,即附加训练集和验证集;附加训练集用于回传并分配给每个医疗机构中心;验证集用于选择集成学习模型的超参数(hyperparameter)。(3)模型训练模块:每个医疗机构中心在本地训练集成学习模型的子分类器,在训练过程中的训练数据包括该医疗机构中心的本地训练集和中央服务器回传给该医疗机构中心的附加训练集;这表明用于训练每个医疗机构中心子分类器的训练集不仅来自中心本身还来自其他中心的数据集,从而增加数据集的随机性,以提高集成学习模型的整体性能。在训练过程中,利用从增强数据集创...

【专利技术属性】
技术研发人员:李劲松李谨田雨吴承凯池胜强
申请(专利权)人:之江实验室
类型:发明
国别省市:浙江,33

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1