System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 一种基于隐私计算的多中心专病库构建方法及介质技术_技高网

一种基于隐私计算的多中心专病库构建方法及介质技术

技术编号:40843309 阅读:8 留言:0更新日期:2024-04-01 15:10
本发明专利技术公开了一种基于隐私计算的多中心专病库构建方法及介质,涉及数据资源技术领域。所述方法包括:构建用于支持多个数据提供方,多个数据需求方和多个数据服务方的平台并进行数据治理;采用去中心化的多租户模式,各方管理自己的数据,数据的秘钥只有数据提供所有,通过授权审批的方式将数据使用权授权给数据需求方或数据服务方;根据“最小可用原则”将个人为主体的数据变为非个人数据,数据集作为最小的权限管理;在平台内部将筛查评估模型利用得到授权后的数据进行加工、计算,经过提炼后的数据价值从平台中输出。本发明专利技术在“数据不出域”的情况下,共享临床科研数据,让多方的数据发挥更大的价值,提升医学科研及数据要素流通效果。

【技术实现步骤摘要】

本专利技术涉及数据资源,特别涉及一种基于隐私计算的多中心专病库构建方法及介质


技术介绍

1、临床医学离不开真实世界研究,真实世界研究(real world study,rws;realworld research,rwr)即在真实世界环境下收集与患者有关的数据(rwd),通过分析,获得医疗产品的使用价值及潜在获益或风险的临床证据(rwe),主要研究类型是观察性研究,也可以是临床试验,而真实世界研究依赖高质量数据,同时,广大生物医疗保险、药企、医疗机构等企事业单位希望数据使用利用多元化,促进生物医药与大健康产业的应用。

2、医院通过数据治理能够产出高质量的临床数据,但单个医院本身的数据样本在医疗数据应用过程往往存在样本量不足和数据偏倚的问题,无法支撑数据需求,导致很多数据应用场景无法进行,那么就亟需多方的数据样本。医疗大数据开放是提高数据利用率、实现信息共享的基础,为满足更多的科研及医药真实世界研究的场景,需要全省各医疗机构间数据共享的程度,扩展数据共享范围,开放共享,消除信息孤岛。

3、但由于医疗健康数据的海量性、多方持有性、复杂性和安全性等特点,数据共享的技术、标准、机制突破仍存在较大的障碍。因此亟需探索具有统一标准、隐私保护、风险可控的数据共享模式,需要从医院、患者、管理者、公卫以及科研人员等各方利益相关方的需求出发,厘清典型应用场景,以助健康医疗服务模式转变和提升。


技术实现思路

1、本专利技术要解决的技术问题,在于提供一种基于隐私计算的多中心专病库构建方法及介质,在数据最小授权,“数据不出域”的情况下,共享临床科研数据,让多方的数据发挥更大的价值,提升医学科研及数据要素流通效果。

2、第一方面,本专利技术提供了一种基于隐私计算的多中心专病库构建方法,包括:

3、平台构建过程:构建用于支持多个数据提供方,多个数据需求方和多个数据服务方的平台,对各机构多源异构数据进行数据治理,对非结构化数据进行结构化标准化;采用去中心化的多租户模式,各方管理自己的数据,数据的秘钥只有数据提供所有,通过授权审批的方式将数据使用权授权给数据需求方或数据服务方;

4、数据处理过程:根据“最小可用原则”将个人为主体的数据变为非个人数据,通过训练自然语言处理模型,将医疗数据与个人的其他信息完全隔离开来,平台数据以数据集方式组织,数据集作为最小的权限管理,每个数据集都有一个指定所有者;

5、价值输出过程:在数据需求方或数据服务方将筛查评估模型上传到平台后,在平台内找到筛查评估模型需要的数据,向对应的数据所有者申请数据使用授权,在得到数据所有者授权后,在平台内部将筛查评估模型利用得到授权后的数据进行加工、计算,经过提炼后的数据价值从平台中输出。

6、进一步地,所述对各机构多源异构数据进行数据治理具体包括:对需求的数据进行采集、清洗、归一并融合,建立数据应用标准,形成数据资产目录,使数据可知、可查、可用;建立主数据管理系统,根据每一个接入数据源的具体字段的数据特点,建立、维护该数据源字段的主数据,并将各数据源的主数据融合成为数据中心的主数据;各数据源的主数据融合过程是建立映射关系的过程,根据主数据基础体系建立平台主数据的基础,再将各数据源的主数据映射到平台主数据。

7、进一步地,还包括:依据数据使用场景建立用户分类方式和数据分类方式;所述用户分类包括个人和机构;所述数据分类包括:卫生资源数据、个人属性数据、电子病历数据、健康档案数据、医疗支付数据、公共卫生数据以及医疗设备数据,技术管理方法如下:

8、和个人无关的数据或者完全脱敏的个人生物医疗数据在平台里作为公开数据集或者一般数据集,所述公开数据集使用时无需授权,所述一般数据集使用时需要数据集管理者授权,根据授权情况允许“可见可用”或“可用不可见”;

9、与个人相关的数据在导入平台之前进行部分脱敏,将18类受保护的个人信息去除或者脱敏,并用平台的用户id代替,在平台外记录并保存和平台id的对应关系;

10、个人基因数据和/或部分脱敏的个人医疗数据作为受限数据集,申请使用时必须告知数据使用目的,如果用于科研、公共卫生目的,根据授权情况允许“可用可见”和“可用不可见”;如果用于其他目的,需要得到数据集中所有相关个人的数据使用授权或数据集管理者授权,然后允许使用,并且对于数据计算的结果需要进行审查,确保结果中只包含结论性数据。

11、进一步地,还包括:提供数据文件加密系统,具备独立的数据加密能力,实现数据落盘时文件级别的不同密钥加密,保证每个数据文件都配备独立的秘钥,通过秘钥管理系统授权,数据并没有产生复制,数据使用者仅获得数据的使用权,并且数据所有者随时可以撤回访问权限。

12、进一步地,以第三方应用的方式,将应用程序和运行环境打包成镜像部署在平台上,平台根据底层操作系统提供基础镜像,平台用户下载后进行定制,定制完成并测试通过后提交部署到平台。

13、进一步地,当平台用户需要下载训练结果或者平台用户需要建立提供给平台外使用的api服务时,需要由平台管理员进行审查和批准,并且通过平台的网关服务和平台外进行交互。

14、进一步地,当经过提炼后的数据价值从平台中输出时,通过差分隐私的技术手段,在结果中加入噪音,加强数据结果中的隐私保护。

15、第二方面,本专利技术提供了一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现第一方面所述的方法。

16、本专利技术实施例中提供的技术方案,至少具有如下技术效果或优点:

17、通过平台建设建立科研数据协作生态,引入多方的科研数据生态合作伙伴,增加科研数据样本,解决科研项目数据样本量不足的问题,拥有充足样本量的多中心科研协作,可增强科研成果的泛化能力,另外需要建立平台的数据标准,来保证数据的统一性、完整性,为平台用户提供高质量的临床数据。通过模型流动而不是数据流动的创新方式,通过计算的方式共享数据的价值的隐私计算核心理念和技术,保护数据提供方对于数据安全、隐私保护、资产保护的诉求。基于平台的安全保护机制,在数据最小授权,“数据不出域”的情况下,共享临床科研数据,让多方的数据发挥更大的价值,提升医学科研及数据要素流通效果,培育健康医疗数据要素市场,激发数据要素价值。

18、上述说明仅是本专利技术技术方案的概述,为了能够更清楚了解本专利技术的技术手段,而可依照说明书的内容予以实施,并且为了让本专利技术的上述和其它目的、特征和优点能够更明显易懂,以下特举本专利技术的具体实施方式。

本文档来自技高网...

【技术保护点】

1.一种基于隐私计算的多中心专病库构建方法,其特征在于,包括:

2.根据权利要求1所述的方法,其特征在于:所述对各机构多源异构数据进行数据治理具体包括:对需求的数据进行采集、清洗、归一并融合,建立数据应用标准,形成数据资产目录,使数据可知、可查、可用;建立主数据管理系统,根据每一个接入数据源的具体字段的数据特点,建立、维护该数据源字段的主数据,并将各数据源的主数据融合成为数据中心的主数据;各数据源的主数据融合过程是建立映射关系的过程,根据主数据基础体系建立平台主数据的基础,再将各数据源的主数据映射到平台主数据。

3.根据权利要求1所述的方法,其特征在于,还包括:依据数据使用场景建立用户分类方式和数据分类方式;所述用户分类包括个人和机构;所述数据分类包括:卫生资源数据、个人属性数据、电子病历数据、健康档案数据、医疗支付数据、公共卫生数据以及医疗设备数据,技术管理方法如下:

4.根据权利要求1所述的方法,其特征在于,还包括:提供数据文件加密系统,具备独立的数据加密能力,实现数据落盘时文件级别的不同密钥加密,保证每个数据文件都配备独立的秘钥,通过秘钥管理系统授权,数据并没有产生复制,数据使用者仅获得数据的使用权,并且数据所有者随时可以撤回访问权限。

5.根据权利要求1所述的方法,其特征在于:以第三方应用的方式,将应用程序和运行环境打包成镜像部署在平台上,平台根据底层操作系统提供基础镜像,平台用户下载后进行定制,定制完成并测试通过后提交部署到平台。

6.根据权利要求1所述的方法,其特征在于:当平台用户需要下载训练结果或者平台用户需要建立提供给平台外使用的API服务时,需要由平台管理员进行审查和批准,并且通过平台的网关服务和平台外进行交互。

7.根据权利要求1所述的方法,其特征在于:当经过提炼后的数据价值从平台中输出时,通过差分隐私的技术手段,在结果中加入噪音,加强数据结果中的隐私保护。

8.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时实现如权利要求1至7任一项所述的方法。

...

【技术特征摘要】

1.一种基于隐私计算的多中心专病库构建方法,其特征在于,包括:

2.根据权利要求1所述的方法,其特征在于:所述对各机构多源异构数据进行数据治理具体包括:对需求的数据进行采集、清洗、归一并融合,建立数据应用标准,形成数据资产目录,使数据可知、可查、可用;建立主数据管理系统,根据每一个接入数据源的具体字段的数据特点,建立、维护该数据源字段的主数据,并将各数据源的主数据融合成为数据中心的主数据;各数据源的主数据融合过程是建立映射关系的过程,根据主数据基础体系建立平台主数据的基础,再将各数据源的主数据映射到平台主数据。

3.根据权利要求1所述的方法,其特征在于,还包括:依据数据使用场景建立用户分类方式和数据分类方式;所述用户分类包括个人和机构;所述数据分类包括:卫生资源数据、个人属性数据、电子病历数据、健康档案数据、医疗支付数据、公共卫生数据以及医疗设备数据,技术管理方法如下:

4.根据权利要求1所述的方法,其特征在于,还包括:提供数据文件加密系统,具备独立的数据加...

【专利技术属性】
技术研发人员:陈雯珊陈涛薛建辉张栋戴文清陈明福张发泺
申请(专利权)人:福建省星云大数据应用服务有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1