健康医疗数据的管理方法、系统、电子设备及存储介质技术方案

技术编号:35448778 阅读:12 留言:0更新日期:2022-11-03 12:02
本申请涉及健康医疗大数据处理技术领域,公开了一种健康医疗数据的管理方法。该管理方法包括:采集根据上次改善方案获得的数据,将采集的数据进行第一次分级分类,获得第一分级分类结果;根据设置的规则对第一分级分类结果进行数据清洗;生成本次数据清洗报告;在本次数据清洗报告中的问题发生的频次大于或等于预设阈值的情况下,获得与本次数据清洗报告的数据存在的问题对应的本次改善方案;利用本次改善方案更新本次数据清洗报告的问题的来源位置处的数据录入或采集方式;对数据清洗的结果再次进行数据预处理、数据挖掘处理、数据存储处理以及数据质量验证处理,形成可被使用的数据。采用该管理方法可在数据源提高健康医疗数据的质量。数据的质量。数据的质量。

【技术实现步骤摘要】
健康医疗数据的管理方法、系统、电子设备及存储介质


[0001]本申请涉及健康医疗大数据
,例如涉及一种健康医疗数据的管理方法、系统、电子设备及存储介质。

技术介绍

[0002]目前,2016年,国务院发布了《关于促进和规范健康医疗大数据规范应用发展的指导意见》,要求加快推进健康医疗大数据在行业治理、临床科研、公共卫生、新业态新模式等方面的应用;2018年,国家卫生健康委员会发布了《国家健康医疗大数据标准、安全和服务管理办法(试行)》,要求安全规范开展健康医疗大数据应用,充分释放健康医疗大数据价值。
[0003]随着国家对于健康医疗大数据工作的加大部署,卫生健康体系信息化建设不断加强,在电子病历、健康档案、人口信息及医保记录等方面积累了大量数据。因健康医疗大数据的数量大、范围广、外推好,有效支持医学人工智能、慢病管理、精准治疗等智慧医疗服务,成为数字医疗发展的重要基石。
[0004]医疗健康大数据的管理系统可包括数据采集模块,数据处理模块,数据挖掘模块,数据存储模块以及数据查阅模块,数据采集模块将采集的数据输入至数据处理模块,数据处理模块将处理结果输入至数据挖掘模块,数据挖掘模块将挖掘结果输入至数据存储模块,数据存储模块存储的数据可供数据查阅模块调用,不同类型的用户可访问其权限范围内的数据。
[0005]在实现本申请实施例的过程中,发现相关技术中至少存在如下问题:
[0006]健康医疗大数据存在“量大而质乏”的问题,如何提高健康医疗大数据的质量是亟待解决的技术问题。
专利技术内容
[0007]为了对披露的实施例的一些方面有基本的理解,下面给出了简单的概括。所述概括不是泛泛评述,也不是要确定关键/重要组成元素或描绘这些实施例的保护范围,而是作为后面的详细说明的序言。
[0008]本申请实施例提供了一种健康医疗数据的管理方法、系统、电子设备及存储介质,在数据清洗过程中的数据清洗报告,基于数据清洗报告优化数据采集流程,在数据源上提高健康医疗大数据的质量。
[0009]在一些实施例中,健康医疗数据的管理方法包括:
[0010]采集根据上次改善方案获得的数据,并将采集的数据进行第一次分级分类,以获得第一分级分类结果;其中,分级分类过程是按照数据来源进行分类,按照数据密级进行分级的过程;所述上次改善方案是根据上次数据清洗报告确定的;
[0011]根据设置的规则对所述第一分级分类结果进行数据清洗;设置的规则包括以下一个或多个:检验字段类型、最大值、最小值、字符串最大长度、字符串最小长度、缺失值和数
值精度;所述数据清洗包括以下一个或多个:进行空值插补、去重和字段过滤的一种或多种操作,进行离散化处理连续数据及稀疏化处理分类数据;
[0012]生成本次数据清洗报告;所述本次数据清洗报告包括数据存在的问题、问题的来源位置以及问题发生的频次;
[0013]在所述本次数据清洗报告中的问题发生的频次大于或等于预设阈值的情况下,根据问题与改善方案的对应关系,获得与所述本次数据清洗报告的数据存在的问题对应的本次改善方案;所述本次改善方案包括临床信息系统前端录入模板和/或规范数据标准;
[0014]利用所述本次改善方案更新所述本次数据清洗报告的问题的来源位置处的数据录入或采集方式,以便下次采集到根据本次改善方案获得的数据;
[0015]对数据清洗的结果再次进行数据预处理、数据挖掘处理、数据存储处理以及数据质量验证处理,形成可被使用的数据。
[0016]可选地,生成本次数据清洗报告,包括:在数据清洗过程中,记录对数据成功执行的清洗操作,成功执行的清洗操作所对应的问题;记录成功执行的清洗操作对应的数据在所述第一分级分类结果中的数据来源;统计成功执行的清洗操作所对应的问题以及数据来源,获得所述本次数据清洗报告。
[0017]可选地,采集根据上次改善方案获得的数据,包括:在预设数据源按照预设导入方式导入医疗健康数据;其中,所述预设数据来源包括关系型数据库、大数据体系和实时数据源接口;所述预设方式包括离线数据导入,或者,单表或批量数据导入,或者,自动定时导入,或者,全量以及增量数据导入;所述预设数据来源包括根据所述上次改善方案获得的数据;为导入的医疗健康数据建立数据唯一标识;将语义相同但表达方式不同的词汇映射为标语词汇;提供数据元、数据指标以及数据指标维度的标准定义。
[0018]可选地,对数据清洗的结果再次进行数据预处理、数据挖掘处理、数据存储处理以及数据质量验证处理,形成可被使用的数据,包括:对数据清洗的结果再次进行数据预处理,将数据预处理的结果中的需求数据进行第二次分级分类,获得第二分级分类结果,将预处理的结果的全部数据进行第三次分级分类,获得第三分级分类结果;其中,数据预处理过程中建立基于患者信息的主索引和/或基于疾病信息的数据模型,预处理的结果包括基于患者信息的主题数据集和/或基于疾病信息的数据模型;对所述第二分级分类结果进行数据挖掘处理,再对数据挖掘处理的结果进行第四次分级分类,获得第四分级分类结果;其中,数据挖掘处理的结果中包括个人或多人的患病类型及其概率,和/或患病部位及其概率;对所述第三分级分类结果和所述第四分级分类结果进行第一次数据存储处理,并对第一次存储处理后的数据进行第五次分级分类,获得第五分级分类结果;根据数据质量需求,对所述第五分级分类结果进行数据质量验证处理,再对数据质量验证的结果进行第六次分级分类,获得第六分级分类结果;对所述第六分级分类结果进行第二次数据存储处理,形成可被使用的数据。
[0019]可选地,对数据清洗的结果再次进行数据预处理,包括:
[0020]对数据清洗的结果进行数据聚合;所述数据聚合包括以下一个或多个:关联多数据源的相同实体,去除冗余属性,检测数据值的冲突并给出对应处理;进行多表联合,连接方式包括左连接、右连接、全连接和内连接;根据自定义规则,对数据进行聚合;根据自定义规则,对数据进行筛选;对数据流中的数据进行全部字段或部分字段替换;根据对应标准对
数据流中的复合字段进行分割并将分割结果放置到对应的新列;
[0021]对数据聚合的结果进行码值匹配;码值匹配过程包括以下一个或多个:对药品、疾病、手术、检验、检查、收费、机构和科室进行码值标准化标注;进行标准到标准的码值映射匹配;进行基于人工智能引擎的智能推荐;
[0022]对所述码值匹配的结果建立基于患者信息的主索引,获得基于患者信息的主题数据集;建立基于患者信息的主索引,包括以下一个或多个:进行基于规则的患者主索引识别,并对患者主索引准确度进行分级管理;进行基于人工智能模型的患者主索引识别;
[0023]和/或,
[0024]对所述码值匹配的结果建立基于疾病信息的数据模型;所述数据模型的建立过程包括以下一个或多个:配置、生成元数据模板,并基于所述元数据模板的进行元数据信息同步;将医疗健康组织数据模型映射到标准数据模型;复制相同医疗健康组织数据模型的模板。
[0025]可选地,对分级本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种健康医疗数据的管理方法,其特征在于,包括:采集根据上次改善方案获得的数据,并将采集的数据进行第一次分级分类,以获得第一分级分类结果;其中,分级分类过程是按照数据来源进行分类,按照数据密级进行分级的过程;所述上次改善方案是根据上次数据清洗报告确定的;根据设置的规则对所述第一分级分类结果进行数据清洗;设置的规则包括以下一个或多个:检验字段类型、最大值、最小值、字符串最大长度、字符串最小长度、缺失值和数值精度;所述数据清洗包括以下一个或多个:进行空值插补、去重和字段过滤的一种或多种操作,进行离散化处理连续数据及稀疏化处理分类数据;生成本次数据清洗报告;所述本次数据清洗报告包括数据存在的问题、问题的来源位置以及问题发生的频次;在所述本次数据清洗报告中的问题发生的频次大于或等于预设阈值的情况下,根据问题与改善方案的对应关系,获得与所述本次数据清洗报告的数据存在的问题对应的本次改善方案;所述本次改善方案包括临床信息系统前端录入模板和/或规范数据标准;利用所述本次改善方案更新所述本次数据清洗报告的问题的来源位置处的数据录入或采集方式,以便下次采集到根据本次改善方案获得的数据;对数据清洗的结果再次进行数据预处理、数据挖掘处理、数据存储处理以及数据质量验证处理,形成可被使用的数据。2.根据权利要求1所述的管理方法,其特征在于,生成本次数据清洗报告,包括:在数据清洗过程中,记录对数据成功执行的清洗操作,成功执行的清洗操作所对应的问题;记录成功执行的清洗操作对应的数据在所述第一分级分类结果中的数据来源;统计成功执行的清洗操作所对应的问题以及数据来源,获得所述本次数据清洗报告。3.根据权利要求1或2所述的管理方法,其特征在于,采集根据上次改善方案获得的数据,包括:在预设数据源按照预设导入方式导入医疗健康数据;其中,所述预设数据来源包括关系型数据库、大数据体系和实时数据源接口;所述预设方式包括离线数据导入,或者,单表或批量数据导入,或者,自动定时导入,或者,全量以及增量数据导入;所述预设数据来源包括根据所述上次改善方案获得的数据;为导入的医疗健康数据建立数据唯一标识;将语义相同但表达方式不同的词汇映射为标语词汇;提供数据元、数据指标以及数据指标维度的标准定义。4.根据权利要求1或2所述的管理方法,其特征在于,对数据清洗的结果再次进行数据预处理、数据挖掘处理、数据存储处理以及数据质量验证处理,形成可被使用的数据,包括:对数据清洗的结果再次进行数据预处理,将数据预处理的结果中的需求数据进行第二次分级分类,获得第二分级分类结果,将预处理的结果的全部数据进行第三次分级分类,获得第三分级分类结果;其中,数据预处理过程中建立基于患者信息的主索引和/或基于疾病信息的数据模型,预处理的结果包括基于患者信息的主题数据集和/或基于疾病信息的数据模型;对所述第二分级分类结果进行数据挖掘处理,再对数据挖掘处理的结果进行第四次分
级分类,获得第四分级分类结果;其中,数据挖掘处理的结果中包括个人或多人的患病类型及其概率,和/或患病部位及其概率;对所述第三分级分类结果和所述第四分级分类结果进行第一次数据存储处理,并对第一次存储处理后的数据进行第五次分级分类,获得第五分级分类结果;根据数据质量需求,对所述第五分级分类结果进行数据质量验证处理,再对数据质量验证的结果进行第六次分级分类,获得第六分级分类结果;对所述第六分级分类结果进行第二次数据存储处理,形成可被使用的数据。5.根据权利要求4所述的管理方法,其特征在于,对数据清洗的结果再次进行数据预处理,包括:对数据清洗的结果进行数据聚合;所述数据聚合包括以下一个或多个:关联多数据源的相同实体,去除冗余属性,检测数据值的冲突并给出对应处理;进行多表联合,连接方式包括左连接、右连接、全连接和内连接;根据自定义规则,对数据进行聚合;根据自定义规则,对数据进行筛选;对数据流中的数据进行全部字段或部分字段替换...

【专利技术属性】
技术研发人员:武雅文
申请(专利权)人:中国信息通信研究院
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1