基于健康医疗大数据标准库的多源数据处理方法与系统技术方案

技术编号:35102979 阅读:13 留言:0更新日期:2022-10-01 17:11
本发明专利技术涉及基于健康医疗大数据标准库的多源数据处理方法与系统,包括:获取各个业务平台的医疗健康数据,建立医疗健康数据库;抽取医疗健康数据库中的元数据,并对元数据的存储格式进行转换;对元数据按照元数据的应用类别进行分类存储,基于CWM元模型建立元数据标准库;对元数据进行解析和融合、元数据生命周期管理、元数据变更管理与元数据标准化处理;对元数据进行数据质量管理、元数据标准管理以及构建元数据知识图谱。本发明专利技术能够对来自不同业务平台的数据源自动化统一转换以及数据标准化处理,基于CWM元模型建立元数据标准库,能够规范对元数据对象的处理,便于对数据进行查询和维护;通过对数据的融合治理,有利于获取有价值的数据。有价值的数据。有价值的数据。

【技术实现步骤摘要】
基于健康医疗大数据标准库的多源数据处理方法与系统


[0001]本专利技术属于大数据处理
,具体的说,涉及基于健康医疗大数据标准库的多源数据处理方法。

技术介绍

[0002]大数据分析技术不断发展,为从大量医疗健康数据中发现知识提供了更好的条件,特别是在医疗和医学信息中处理大量的患者数据,识别数据之间的聚类和相关性。
[0003]然而目前不同区域的医疗机构通常采用多个不同的系统处理各种医疗健康数据,大量的数据之间经过不同信息系统的处理,多个信息系统的数据一旦混合,由于数据存在异构性,导致数据整合困难、数据责任边界模糊等,很难获取有价值的数据。

技术实现思路

[0004]本专利技术为解决上述技术问题提供了基于健康医疗大数据标准库的多源数据处理方法与系统。
[0005]本专利技术解决上述技术问题的技术方案如下:
[0006]第一方面,本专利技术提供了基于健康医疗大数据标准库的多源数据处理方法,包括:
[0007]获取各个业务平台的医疗健康数据,建立医疗健康数据库;
[0008]抽取医疗健康数据库中的元数据,并对元数据的存储格式进行转换;
[0009]对元数据按照元数据的应用类别进行分类存储,基于CWM元模型建立元数据标准库;
[0010]建立元数据功能组件,利用元数据功能组件对元数据进行解析和融合、元数据生命周期管理、元数据变更管理与元数据标准化处理;
[0011]对元数据进行数据质量管理、元数据标准管理以及构建元数据知识图谱。
[0012]第二方面,本专利技术提供了基于健康医疗大数据标准库的多源数据处理系统,包括:元数据获取层、元数据存储层、元数据解析层与元数据应用层;
[0013]元数据获取层包括数据库采集单元、数据抽取单元、数据库解析与验证单元;
[0014]数据库采集单元,用于获取各个业务平台的医疗健康数据,建立医疗健康数据库;
[0015]数据抽取单元,用于建立多个并行数据抽取进程对医疗健康数据进行ETL数据抽取,得到元数据,并对元数据的存储格式进行清洗、转换;
[0016]数据库解析与验证单元,用于获取健康数据库日志并对健康数据库日志进行解析和验证,并将验证后的元数据发送至元数据存储层;
[0017]元数据存储层包括:标准库构建单元、入库转换单元、分类单元与数据仓库单元;
[0018]标准库构建单元,用于基于CWM元模型建立元数据标准库;
[0019]入库转换单元,用于利用公共仓库元模型对元数据进行处理,对元数据的存储格式进行转换;
[0020]分类单元,用于对元数据按照元数据的应用类别进行分类;
[0021]数据仓库单元,用于将分类后的元数据以XML的形式进行描述并通过开发数据仓库的元数据访问接口,将元数据导入数据仓库中;
[0022]元数据解析层包括解析和融合组件、元数据生命周期管理组件、元数据变更管理组件与元数据标准化处理组件,用于对数据仓库中的元数据进行解析和融合、元数据生命周期管理、元数据变更管理与元数据标准化处理;
[0023]元数据应用层包括元数据质量管理单元、元数据标准管理单元以及元数据知识图谱构建单元,用于对元数据进行数据质量管理、元数据标准管理以及构建元数据知识图谱。
[0024]本专利技术的有益效果是:本专利技术能够对来自不同业务平台的数据源自动化采集,对异构数据统一转换以及数据标准化处理,基于CWM元模型建立元数据标准库,能够规范对元数据对象的处理,便于对数据进行查询和维护;通过对数据的融合治理,有利于获取有价值的数据。
[0025]在上述技术方案的基础上,本专利技术还可以做如下改进。
[0026]进一步,抽取医疗健康数据库中的元数据的方法为建立多个并行数据抽取进程对医疗健康数据进行ETL数据抽取,或者对健康数据库日志进行解析。
[0027]采用上述进一步方案的有益效果是,通过对医疗健康数据进行ETL数据抽取和对健康数据库日志进行解析,能够将分布的、异构的数据源中的数据抽取到临时中间层进行清洗、转换、集成,将元数据写入到数据仓库中。
[0028]进一步,对元数据按照元数据的应用类别进行分类存储,包括:
[0029]按照元数据应用类别建立与应用类别语义关联的典型词词表;
[0030]对元数据进行文本处理,将元数据划分为文本特征词组合;
[0031]根据典型词词表对文本特征词组合进行匹配,将匹配结果作为元数据集,对元数据集进行存储。
[0032]采用上述进一步方案的有益效果是,将元数据通过典型词词表对文本特征词组合进行匹配,将元数据按照元数据的应用类别进行分类存储,便于对元数据进行快速检索、提取。
[0033]进一步,对元数据进行解析和融合包括:
[0034]建立基础元数据语料库,对所有元数据基于元数据语料库进行翻译;
[0035]利用自然语言处理算法对元数据进行去重、归一、消歧处理;
[0036]建立业务数据模型,将元数据按照业务类型分类;
[0037]建立知识库,将分类后的元数据加入知识库的对应的目录树中。
[0038]采用上述进一步方案的有益效果是,将来自不同系统的元数据翻译成统一语言,有利于对元数据统一分类,将分类后的元数据加入知识库的对应的目录树中有利于元数据索引查找。
[0039]进一步,元数据生命周期管理包括:
[0040]按照元数据生命周期中每个数据处理节点的进度对元数据进行监控,将对元数据的所有处理流程生成XML数据流,转换为标准元数据格式的XML文件;
[0041]基于XML数据流,分析同一个XML文件中各个元数据之间的关联。
[0042]采用上述进一步方案的有益效果是,利用XML数据流对元数据进行监控,有利于保证元数据的一致性和正确性。
[0043]进一步,元数据变更管理包括:对比每一个数据处理流程元数据的结构变化,更改到元数据标准库中。
[0044]采用上述进一步方案的有益效果是,实现了元数据标准库的标准化升级。
[0045]进一步,元数据标准化处理包括:元数据结构标准化、元数据值域标准化与接口服务标准化。
[0046]采用上述进一步方案的有益效果是,通过对元数据的结构、值阈和接口标准化处理,有利于提高元数据处理效率。
附图说明
[0047]图1为本专利技术实施例1中提供的基于健康医疗大数据标准库的多源数据处理方法的流程图;
[0048]图2为本专利技术基于健康医疗大数据标准库的多源数据处理系统的系统图。
具体实施方式
[0049]以下对本专利技术的原理和特征进行描述,所举实例只用于解释本专利技术,并非用于限定本专利技术的范围。
[0050]实施例1
[0051]本实施例提供了基于健康医疗大数据标准库的多源数据处理方法,如附图1所示,该方法包括:
[0052]获取各个业务平台的医疗健康数据,建立医疗健康数据库;
[005本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.基于健康医疗大数据标准库的多源数据处理方法,其特征在于,包括:获取各个业务平台的医疗健康数据,建立医疗健康数据库;抽取所述医疗健康数据库中的元数据,并对所述元数据的存储格式进行转换;对所述元数据按照所述元数据的应用类别进行分类存储,基于CWM元模型建立元数据标准库;建立元数据功能组件,利用所述元数据功能组件对所述元数据进行解析和融合、元数据生命周期管理、元数据变更管理与元数据标准化处理;对所述元数据进行数据质量管理、元数据标准管理以及构建元数据知识图谱。2.根据权利要求1所述基于健康医疗大数据标准库的多源数据处理方法,其特征在于,所述抽取所述医疗健康数据库中的元数据的方法为建立多个并行数据抽取进程对所述医疗健康数据进行ETL数据抽取,或者对所述健康数据库日志进行解析。3.根据权利要求1所述基于健康医疗大数据标准库的多源数据处理方法,其特征在于,所述对所述元数据按照所述元数据的应用类别进行分类存储,包括:按照元数据应用类别建立与所述应用类别语义关联的典型词词表;对所述元数据进行文本处理,将所述元数据划分为文本特征词组合;根据所述典型词词表对所述文本特征词组合进行匹配,将匹配结果作为元数据集,对所述元数据集进行存储。4.根据权利要求1所述基于健康医疗大数据标准库的多源数据处理方法,其特征在于,所述对所述元数据进行解析和融合包括:建立基础元数据语料库,对所有元数据基于所述元数据语料库进行翻译;利用自然语言处理算法对所述元数据进行去重、归一、消歧处理;建立业务数据模型,将所述元数据按照业务类型分类;建立知识库,将分类后的所述元数据加入所述知识库的对应的目录树中。5.根据权利要求4所述基于健康医疗大数据标准库的多源数据处理方法,其特征在于,所述元数据生命周期管理包括:按照所述元数据生命周期中每个数据处理节点的进度对所述元数据进行监控,将对所述元数据的所有处理流程生成XML数据流,转换为标准元数据格式的XML文件;基于所述XML数据流,分析同一个所述XML文件中各个所述元数...

【专利技术属性】
技术研发人员:殷晋洪磊
申请(专利权)人:电子科技大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1