【技术实现步骤摘要】
一种健康医疗大数据合并后冲突项的检查与校正方法
本专利技术涉及医疗大数据的治理和数据合并
,尤其涉及一种健康医疗大数据合并后冲突项的检查与校正方法。
技术介绍
当前,健康大数据规模急剧剧增,数据体量巨大,数据类型繁多,数据质量参差不齐。如何提高数据质量问题成为大数据时代的重中之重任务。数据内在的冲突作为其中一大数据质量问题,已经成为大数据整合的一大难点。由于数据生产源头激增,产生的数据来源众多,结构各异,以及系统更新升级加快和应用技术更新换代频繁,使得不同的数据源之间、相同的数据源之间都可能存在着冲突、不一致或相互矛盾的现象,再加上数据收集与集成往往由多个团队协作完成,期间增大了数据处理过程中产生问题数据的概率。介于数据质量的提升仍需要时间,而当前已经暴露的数据冲突仍无规范解决流程,我国健康医疗大数据的整合仍困难重重。当面机构面临健康医疗大数据整合过程中出现的冲突解决方法不一,导致同一数据源数据经过不同数据治理流程可能会产生不同的数据结果,这将大大影响数据后期分析。因此本专利技术将提供一种规范的数据冲突检查和校正流程,这将为当前亟需解决的数据冲突矛盾带来统一处理方法,也为未来健康医疗大数据治理后质量的提升奠定基础。
技术实现思路
本专利技术要解决的技术问题在于针对现有技术中的缺陷,提供一种健康医疗大数据合并后冲突项的检查与校正方法。本专利技术解决其技术问题所采用的技术方案是:本专利技术提供一种健康医疗大数据合并后冲突项的检查与校正方法,该方法包括以下步骤:步骤 ...
【技术保护点】
1.一种健康医疗大数据合并后冲突项的检查与校正方法,其特征在于,该方法包括以下步骤:/n步骤1、提取经过数据清洗的健康体检数据,其数据类型包括:文本数据、计量数据、等级数据,基于体检编号和体检指标名称进行健康体检数据的比较合并;/n步骤2、判断待合并的健康体检数据的数据类型;/n若为文本数据,则直接合并数据;/n若为计量数据,则对有多个体检编号的计量数据进行去重处理,并对所有体检指标,依次循环判断体检指标中的计量冲突项,并输出计量冲突项;/n若为等级数据,则对有多个体检编号的等级数据进行去重处理,并对所有体检指标,依次循环判断体检指标中的等级冲突项,并输出等级冲突项;/n步骤3、对合并后的文本数据、冲突校正后的计量数据、冲突校正后的等级数据进行汇集整合处理,输出检查与校正后的标准健康数据。/n
【技术特征摘要】
1.一种健康医疗大数据合并后冲突项的检查与校正方法,其特征在于,该方法包括以下步骤:
步骤1、提取经过数据清洗的健康体检数据,其数据类型包括:文本数据、计量数据、等级数据,基于体检编号和体检指标名称进行健康体检数据的比较合并;
步骤2、判断待合并的健康体检数据的数据类型;
若为文本数据,则直接合并数据;
若为计量数据,则对有多个体检编号的计量数据进行去重处理,并对所有体检指标,依次循环判断体检指标中的计量冲突项,并输出计量冲突项;
若为等级数据,则对有多个体检编号的等级数据进行去重处理,并对所有体检指标,依次循环判断体检指标中的等级冲突项,并输出等级冲突项;
步骤3、对合并后的文本数据、冲突校正后的计量数据、冲突校正后的等级数据进行汇集整合处理,输出检查与校正后的标准健康数据。
2.根据权利要求1所述的健康医疗大数据合并后冲突项的检查与校正方法,其特征在于,所述步骤1中健康体检数据的数据结构包括:一列体检编号、多列体检指标。
3.根据权利要求1所述的健康医疗大数据合并后冲突项的检查与校正方法,其特征在于,所述步骤2中判断计量冲突项,并输出计量冲突项,其具体方法为:
准备待合并的计量资料数据,算法将判断计量数据的列名中是否有多个体检编号;如果有多个体检编号,则将判断体检编号是否一致;如果一致,则去重取其作为体检编号;如果无多个体检编号,则使用其体检编号即可;
接下来算法提取所有体检指标,对这些体检指标去重,依次循环这些体检指标,判断这些体检指标在计量数据的所有列名中是否有重复的指标,如果指标有重复,依次循环人群的...
【专利技术属性】
技术研发人员:李红良,朱丽华,柳叶茂,
申请(专利权)人:武汉大学,
类型:发明
国别省市:湖北;42
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。