当前位置: 首页 > 专利查询>武汉大学专利>正文

一种健康医疗大数据合并后冲突项的检查与校正方法技术

技术编号:28373535 阅读:20 留言:0更新日期:2021-05-08 00:00
本发明专利技术公开了一种健康医疗大数据合并后冲突项的检查与校正方法,该方法包括通过读取需要合并的两列相同标准术语的内容,通过内置的算法对数据之间进行比较,将比对结果一致的内容合并输出,并将比对之后产生冲突的项单独输出,再通过结合数据特点及专业判断确定冲突项的处理方法,最后进行校正和输出。本发明专利技术能最大程度上保证原始数据的真实有效,提高了健康大数据的数据质量。

【技术实现步骤摘要】
一种健康医疗大数据合并后冲突项的检查与校正方法
本专利技术涉及医疗大数据的治理和数据合并
,尤其涉及一种健康医疗大数据合并后冲突项的检查与校正方法。
技术介绍
当前,健康大数据规模急剧剧增,数据体量巨大,数据类型繁多,数据质量参差不齐。如何提高数据质量问题成为大数据时代的重中之重任务。数据内在的冲突作为其中一大数据质量问题,已经成为大数据整合的一大难点。由于数据生产源头激增,产生的数据来源众多,结构各异,以及系统更新升级加快和应用技术更新换代频繁,使得不同的数据源之间、相同的数据源之间都可能存在着冲突、不一致或相互矛盾的现象,再加上数据收集与集成往往由多个团队协作完成,期间增大了数据处理过程中产生问题数据的概率。介于数据质量的提升仍需要时间,而当前已经暴露的数据冲突仍无规范解决流程,我国健康医疗大数据的整合仍困难重重。当面机构面临健康医疗大数据整合过程中出现的冲突解决方法不一,导致同一数据源数据经过不同数据治理流程可能会产生不同的数据结果,这将大大影响数据后期分析。因此本专利技术将提供一种规范的数据冲突检查和校正流程,这将为当前亟需解决的数据冲突矛盾带来统一处理方法,也为未来健康医疗大数据治理后质量的提升奠定基础。
技术实现思路
本专利技术要解决的技术问题在于针对现有技术中的缺陷,提供一种健康医疗大数据合并后冲突项的检查与校正方法。本专利技术解决其技术问题所采用的技术方案是:本专利技术提供一种健康医疗大数据合并后冲突项的检查与校正方法,该方法包括以下步骤:步骤1、提取经过数据清洗的健康体检数据,其数据类型包括:文本数据、计量数据、等级数据,健康体检数据的数据结构包括:一列体检编号、多列体检指标,基于体检编号和体检指标名称进行健康体检数据的比较合并;步骤2、判断待合并的健康体检数据的数据类型;若为文本数据,则直接合并数据;若为计量数据,则对有多个体检编号的计量数据进行去重处理,并对所有体检指标,依次循环判断体检指标中的计量冲突项,并输出计量冲突项;若为等级数据,则对有多个体检编号的等级数据进行去重处理,并对所有体检指标,依次循环判断体检指标中的等级冲突项,并输出等级冲突项;步骤3、对合并后的文本数据、冲突校正后的计量数据、冲突校正后的等级数据进行汇集整合处理,输出检查与校正后的标准健康数据。进一步地,本专利技术的所述步骤1中健康体检数据的数据结构包括:一列体检编号、多列体检指标。进一步地,本专利技术的所述步骤2中判断计量冲突项,并输出计量冲突项,其具体方法为:准备待合并的计量资料数据,算法将判断计量数据的列名中是否有多个体检编号;如果有多个体检编号,则将判断体检编号是否一致;如果一致,则去重取其作为体检编号;如果无多个体检编号,则使用其体检编号即可;接下来算法提取所有体检指标,对这些体检指标去重,依次循环这些体检指标,判断这些体检指标在计量数据的所有列名中是否有重复的指标,如果指标有重复,依次循环人群的体检编号,将这些人群的相同指标值进行内容进行判断:如果有重复指标,则去重并取其一作为该指标值;如果其中之一为空值,另一个为非空值,取非空值作为该指标值;如果二者指标值冲突,则将其指标值清空,在质检表中存储该机构名称、对应列号、冲突计量指标、冲突计量指标对应的原始数据的列号、冲突计量指标对应的内容;如果无重复指标,则取该计量指标值作为该值;直到该人群循环处理完毕;直到该体检指标循环处理完毕;最后,将存储合并后的计量数据和计量冲突列表进行输出即可。进一步地,本专利技术的所述步骤2中判断等级冲突项,并输出等级冲突项,其具体方法为:准备待合并的等级资料数据,算法将判断等级数据的列名中是否有多个体检编号,如果有多个体检编号,则将判断体检编号是否一致,如果一致,则去重取其作为体检编号;如果无多个体检编号,则使用其体检编号即可;接下来算法提取所有体检指标,对这体检些指标去重,依次循环这些体检指标,判断这些指标在等级数据的所有列名中是否有重复的指标,如果指标有重复,依次循环人群的体检编号,将这些人群的相同指标值进行内容进行判断:如果有重复指标,则去重取其一作为该指标值;如果其中之一为空值,另一个为非空值,取非空值作为该指标值;如果二者指标值冲突,则将其指标值清空,在质检表中存储该机构名称,对应列号,冲突等级指标,冲突等级指标对应的原始数据的列号,冲突等级指标对应的内容;如果无重复指标,则取该等级指标值作为该值;直到该人群循环处理完毕;直到该指标循环处理完毕。最后,将存储合并后的等级数据和等级冲突列表进行输出即可。本专利技术产生的有益效果是:本专利技术的健康医疗大数据合并后冲突项的检查与校正方法,提供一种规范的数据冲突检查和校正流程方法,为当前亟需解决的数据冲突矛盾带来统一处理方法,也为未来健康医疗大数据治理后质量的提升奠定基础;本专利技术的方法能最大程度上保证原始数据的真实有效,提高了健康大数据的数据质量。附图说明下面将结合附图及实施例对本专利技术作进一步说明,附图中:图1是本专利技术实施例的方法流程图。具体实施方式为了使本专利技术的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本专利技术进行进一步详细说明。应当理解,此处所描述的具体实施例仅用以解释本专利技术,并不用于限定本专利技术。如图1所示,本专利技术实施例的健康医疗大数据合并后冲突项的检查与校正方法,该方法包括以下步骤:步骤1、提取经过数据清洗的健康体检数据,其数据类型包括:文本数据、计量数据、等级数据,健康体检数据的数据结构包括:一列体检编号、多列体检指标,基于体检编号和体检指标名称进行健康体检数据的比较合并;步骤1中提取的健康体检数据,其数据结构为:步骤1中基于体检编号和体检指标名称进行健康体检数据的比较合并,其合并后的数据结构为:其中,||||表示合并操作。读取待合并的三类数据入程序,根据体检编号列及指标名称列进行数据的合并,如表1所示。文本数据直接合并输出。计量、等级资料分别合并并输出冲突项,如表2所示。表1待合并数据表2计量数据合并冲突项输出结果及校正体检编号列名列号指标形态校正形态818239身高_计量3||||969||||1681688186622身高_计量3||||963||||1631638187386身高_计量3||||938||||1591598196739身高_计量3||||965||||1651658203602身高_计量3||||952||||1591598205768身高_计量本文档来自技高网...

【技术保护点】
1.一种健康医疗大数据合并后冲突项的检查与校正方法,其特征在于,该方法包括以下步骤:/n步骤1、提取经过数据清洗的健康体检数据,其数据类型包括:文本数据、计量数据、等级数据,基于体检编号和体检指标名称进行健康体检数据的比较合并;/n步骤2、判断待合并的健康体检数据的数据类型;/n若为文本数据,则直接合并数据;/n若为计量数据,则对有多个体检编号的计量数据进行去重处理,并对所有体检指标,依次循环判断体检指标中的计量冲突项,并输出计量冲突项;/n若为等级数据,则对有多个体检编号的等级数据进行去重处理,并对所有体检指标,依次循环判断体检指标中的等级冲突项,并输出等级冲突项;/n步骤3、对合并后的文本数据、冲突校正后的计量数据、冲突校正后的等级数据进行汇集整合处理,输出检查与校正后的标准健康数据。/n

【技术特征摘要】
1.一种健康医疗大数据合并后冲突项的检查与校正方法,其特征在于,该方法包括以下步骤:
步骤1、提取经过数据清洗的健康体检数据,其数据类型包括:文本数据、计量数据、等级数据,基于体检编号和体检指标名称进行健康体检数据的比较合并;
步骤2、判断待合并的健康体检数据的数据类型;
若为文本数据,则直接合并数据;
若为计量数据,则对有多个体检编号的计量数据进行去重处理,并对所有体检指标,依次循环判断体检指标中的计量冲突项,并输出计量冲突项;
若为等级数据,则对有多个体检编号的等级数据进行去重处理,并对所有体检指标,依次循环判断体检指标中的等级冲突项,并输出等级冲突项;
步骤3、对合并后的文本数据、冲突校正后的计量数据、冲突校正后的等级数据进行汇集整合处理,输出检查与校正后的标准健康数据。


2.根据权利要求1所述的健康医疗大数据合并后冲突项的检查与校正方法,其特征在于,所述步骤1中健康体检数据的数据结构包括:一列体检编号、多列体检指标。


3.根据权利要求1所述的健康医疗大数据合并后冲突项的检查与校正方法,其特征在于,所述步骤2中判断计量冲突项,并输出计量冲突项,其具体方法为:
准备待合并的计量资料数据,算法将判断计量数据的列名中是否有多个体检编号;如果有多个体检编号,则将判断体检编号是否一致;如果一致,则去重取其作为体检编号;如果无多个体检编号,则使用其体检编号即可;
接下来算法提取所有体检指标,对这些体检指标去重,依次循环这些体检指标,判断这些体检指标在计量数据的所有列名中是否有重复的指标,如果指标有重复,依次循环人群的...

【专利技术属性】
技术研发人员:李红良朱丽华柳叶茂
申请(专利权)人:武汉大学
类型:发明
国别省市:湖北;42

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1