一种数据共享策略下的多中心协同预后预测系统技术方案

技术编号：22330552 阅读：36 留言：0更新日期：2019-10-19 12:21

本发明专利技术公开了一种数据共享策略下的多中心协同预后预测系统。该系统能够在多个医疗机构中心下实现隐私保护的数据共享，从而为模型构建提供足够的数据。本发明专利技术采用相对于弱分类器能够获得更好预测结果的集成学习算法来构建系统。该系统在各个中心处理敏感的患者级数据，并同时构建出集成学习模型的子分类器，仅交换不太敏感的中间结果以构建完整的集成学习模型，从而保证了所提出的多中心模型与集中式模型具有相同甚至更优的结果。本发明专利技术多中心协同预后预测系统保护了患者的个人隐私，不需要在大型集中式数据源上运行算法模型，在实际临床应用中，为单个医疗机构中构建预测模型的样本太少提供了可靠的解决方案。

A multi center collaborative prognosis prediction system based on data sharing strategy

全部详细技术资料下载

【技术实现步骤摘要】
一种数据共享策略下的多中心协同预后预测系统
本专利技术属于医疗领域及机器学习领域，尤其涉及一种数据共享策略下的多中心协同预后预测系统。
技术介绍
预后预测在临床研究和实践中发挥着重要作用。基于单个医疗机构的电子健康记录(EHR)数据构建的预测模型可能缺少足够的统计效力和良好的泛化能力。因此，基于多个医疗机构中心电子健康记录数据协同分析的预后预测模型构建，可以用于提高用于模型训练的患者数量和覆盖面，丰富患者的预后特征，最终提高模型的预后预测的准确性和泛化能力。集成学习是一种在临床预后中应用非常广泛的算法，与逻辑回归和cox模型等线性模型不同，集成学习算法通常精度更好，且具有捕获变量间的非线性关系的能力，能很好地避免机器学习中常见的过拟合问题。因此，利用集成学习算法进行模型构建，为多中心下的协同预后预测系统的搭建提供理想的解决方案。另外，在进行多中心预后预测的同时，必须要保护患者的隐私。现有的多中心下隐私保护的集成学习训练模型大多是基于加密的方法，如利用加性同态加密等方法。Aslett等人提出基于完全同态加密的集成学习模型。Magkos等人利用基于同态加密的协议框架构建加密模块，从而训练出集成学习分类器。虽然这些加密方法可以防止信息泄漏与数据交换，但会显著影响计算和存储效率，可扩展性差，不适用于处理多中心下的大型临床数据。
技术实现思路
本专利技术的目的在于针对现有技术的不足，提供一种新型数据共享策略下的多中心协同预后预测系统。本专利技术的目的是通过以下技术方案来实现的：一种数据共享策略下的多中心协同预后预测系统，该系统包括以下四个模块：(1)数据获取模块：在各医...

【技术保护点】
1.一种数据共享策略下的多中心协同预后预测系统，其特征在于，包括：(1)数据获取模块：在各医疗机构中心分别收集患者预后预测所需要的各个变量的数据，作为该医疗机构中心的源数据集。(2)数据匿名化模块：对每个医疗机构中心的源数据集以百分比p进行随机采样，对采样数据使用匿名化算法生成匿名化数据，剩余数据作为该医疗机构中心的本地训练集；来自每个医疗机构中心的匿名化数据由中央服务器收集合成增强数据集；将增强数据集分成两部分，即附加训练集和验证集；附加训练集用于回传并分配给每个医疗机构中心；验证集用于选择集成学习模型的超参数(hyper parameter)。(3)模型训练模块：每个医疗机构中心在本地训练集成学习模型的子分类器，在训练过程中的训练数据包括该医疗机构中心的本地训练集和中央服务器回传给该医疗机构中心的附加训练集；这表明用于训练每个医疗机构中心子分类器的训练集不仅来自中心本身还来自其他中心的数据集，从而增加数据集的随机性，以提高集成学习模型的整体性能。在训练过程中，利用从增强数据集创建的验证集选择集成学习模型的超参数。(4)预后模型应用模块：由中央服务器收集各医疗机构中心本地训练的子分类...

【技术特征摘要】
1.一种数据共享策略下的多中心协同预后预测系统，其特征在于，包括：(1)数据获取模块：在各医疗机构中心分别收集患者预后预测所需要的各个变量的数据，作为该医疗机构中心的源数据集。(2)数据匿名化模块：对每个医疗机构中心的源数据集以百分比p进行随机采样，对采样数据使用匿名化算法生成匿名化数据，剩余数据作为该医疗机构中心的本地训练集；来自每个医疗机构中心的匿名化数据由中央服务器收集合成增强数据集；将增强数据集分成两部分，即附加训练集和验证集；附加训练集用于回传并分配给每个医疗机构中心；验证集用于选择集成学习模型的超参数(hyperparameter)。(3)模型训练模块：每个医疗机构中心在本地训练集成学习模型的子分类器，在训练过程中的训练数据包括该医疗机构中心的本地训练集和中央服务器回传给该医疗机构中心的附加训练集；这表明用于训练每个医疗机构中心子分类器的训练集不仅来自中心本身还来自其他中心的数据集，从而增加数据集的随机性，以提高集成学习模型的整体性能。在训练过程中，利用从增强数据集创...

【专利技术属性】
技术研发人员：李劲松，李谨，田雨，吴承凯，池胜强，
申请(专利权)人：之江实验室，
类型：发明
国别省市：浙江,33

全部详细技术资料下载我是这个专利的主人