当前位置: 首页 > 专利查询>武汉大学专利>正文

一种海量医疗数据入库的质检功能方法及装置制造方法及图纸

技术编号:28843458 阅读:24 留言:0更新日期:2021-06-11 23:43
本发明专利技术公开了一种海量医疗数据入库的质检功能方法及装置,属于医疗大数据领域,提供了一种将大量医疗数据统一处理,并解决数据源繁多结构不统一、使用不便的数据解决的方法。主要包括:将医疗数据通过数据共享平台或者后台导入,并将数据进行第一轮的校验(错列校验),将通过的数据文件进行第二轮校验(标准术语匹配),将通过的数据导入TDH平台,进行质检操作。本发明专利技术可将形态各异的数据内容治理为有规则的数据,便于后续的挖掘与分析。

【技术实现步骤摘要】
一种海量医疗数据入库的质检功能方法及装置
本专利技术属于医疗大数据领域,更具体地,涉及一种海量医疗数据入库的质检功能方法及装置。
技术介绍
近年来,我国在大数据科学领域取得了飞速的发展。但是,在医疗健康大数据领域仍存在着很多技术瓶颈。其中一个亟待解决的难题是如何对海量的医疗数据进行有效的治理,以便挖掘出有用的信息造福人类健康。其所涵盖的人群面十分广泛。对医疗数据进行有效的治理和挖掘,将会对我国的疾病防控等领域提供非常重要的科学参考。医疗数据主要包含了文本型数据、数值型和等级型数据这三种数据资料类型。数值型的数据如疼痛等症状的严重程度分为0(无疼痛)、1(轻度)、2(中度)、3(重度)等。分类型指有一定级别的数据,如临床疗效分为治愈、显效、好转、无效,临床检验结果分为-、+、++、+++,疼痛等症状的严重程度分为0(无疼痛)、1(轻度)、2(中度)、3(重度)等。但是这是理想情况,事实上拿到的数据实际比较混乱,数值型的疼痛可能会出现4,0(不在范围内),分类型的临床疗效可能会出现空白,相对好转等值(不合法值),导致数据难以使用。
技术实现思路
针对现有技术的以上缺陷或改进需求,本专利技术提出了一种海量医疗数据入库的质检功能方法及装置,可将形态各异的数据内容治理为有规则的数据,便于后续的挖掘与分析。为实现上述目的,按照本专利技术的一个方面,提供了一种海量医疗数据入库的质检功能方法,包括:对不同来源的txt原始医疗数据文件进行文件错列检查,以判断原始医疗数据文件是否存在错列,将通过错列检查的文件作为校验结果文件;对校验结果文件进行标准术语匹配,将通过标准术语匹配的校验结果文件导入进TDH外部表,最终导入到TDH临时数据库中保存;对TDH临时数据库中的校验结果文件再次进行标准术语匹配,确定各校验结果文件中不通过匹配的数据数量,剔除掉不满足匹配要求的校验结果文件;对保留下来的校验结果文件进行可视化展示。在一些可选的实施方案中,所述对不同来源的txt原始医疗数据文件进行文件错列检查,以判断原始医疗数据文件是否存在错列,将通过错列检查的文件作为校验结果文件,包括:将不同来源的txt原始医疗数据文件上传到数据共享平台后端,使用脚本读取该文件每一行列数,若在该文件中,有一行的列数不相同,则将该文件移除;若在该文件中,各行的列数均相同,则该文件通过错列检查,将该文件状态改为待质检,并将该文件的文件名称、录入时间、文件状态、数据来源信息录入该文件的文件状态表,得到校验结果文件。在一些可选的实施方案中,所述对校验结果文件进行标准术语匹配,将通过标准术语匹配的校验结果文件导入进TDH外部表,最终导入到TDH临时数据库中保存,包括:将校验结果文件状态改为匹配中并更新对应的文件状态表中的文件状态;获取校验结果文件的表头,使用表头与从标准术语表中获取到的标准术语进行匹配,查看表头是否存在标准术语表中,若表头中含有在标准术语表中不存在的标准术语,则移除该校验结果文件,更新文件状态表中的文件状态为标准术语匹配失败;若表头中的术语均在标准术语表中,则将校验结果文件导入进去TDH外部表,从机构文档协议中获取前台登记信息,最终导入到TDH临时数据库中保存。在一些可选的实施方案中,所述对TDH临时数据库中的校验结果文件再次进行标准术语匹配,确定各校验结果文件中不通过匹配的数据数量,剔除掉不满足匹配要求的校验结果文件,包括:从TDH临时数据库中获取校验结果文件,对校验结果文件中的所有列数据进行第二次标准术语的对比,其中,校验结果文件中的数值型数据根据国际标准对其进行数值范围的判断,文本型数据根据非法值正则匹配,等级型/分类型数据进行枚举匹配;在校验结果文件中不匹配的数据数量大于第一预设数量时,更新校验结果文件对应的文件状态表中的文件状态为质检失败,并移除该校验结果文件;在校验结果文件中不匹配的数据数量小于第二预设数量时,则将不匹配的数据进行存储为非法术语表,更新校验结果文件对应的文件状态表中的文件状态为待修改;在校验结果文件中不存在不匹配的数据时,将该校验结果文件写入质检完成数据表,更新校验结果文件对应的文件状态表中的文件状态为质检完成。在一些可选的实施方案中,所述方法还包括:对于在校验结果文件中不匹配的数据数量小于第二预设数量的校验结果文件,对该校验结果文件中的不匹配的数据进行修改,将修改后的校验结果文件中的所有列数据进行第二次标准术语的对比。在一些可选的实施方案中,所述对保留下来的校验结果文件进行可视化展示,包括:展示质检完成后的校验结果文件中的分类型、等级型、文本型的高频词汇,以及数值型的分布图。按照本专利技术的另一方面,提供了一种海量医疗数据入库的质检功能装置,包括:文件错列检查模块,用于对不同来源的txt原始医疗数据文件进行文件错列检查,以判断原始医疗数据文件是否存在错列,将通过错列检查的文件作为校验结果文件;标准术语匹配模块,用于对校验结果文件进行标准术语匹配,将通过标准术语匹配的校验结果文件导入进TDH外部表,最终导入到TDH临时数据库中保存;TDH质检模块,用于对TDH临时数据库中的校验结果文件再次进行标准术语匹配,确定各校验结果文件中不通过匹配的数据数量,剔除掉不满足匹配要求的校验结果文件;数据可视化模块,用于对保留下来的校验结果文件进行可视化展示。按照本专利技术的另一方面,提供了一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现上述任一项所述方法的步骤。总体而言,通过本专利技术所构思的以上技术方案与现有技术相比,能够取得下列有益效果:本专利技术通过对医疗数据的清洗,数据标准化,数据流转,数据分析的标准化技术。通过综合国际、国内医疗术语标准建立数据标准术语体系。通过标准术语匹配,使用表头与标准术语表进行匹配,将不存在于国内医疗术语标准的数据剔除,以建立主数据属性、编码构成规则,统一不同来源异构数据的数据结构,建立标准化的数据结构。通过质检流程,按照数值型,文本型,分类型/等级型建立出不同的质检方法,进行筛选,以建立标准化的数据清洗及标准化的数据流转过程,最后自动解析数据、统计分析、可视化、应用和共享。附图说明图1是本专利技术实施例提供的一种海量医疗数据入库的质检功能方法的流程示意图;图2是本专利技术实施例提供的一种医疗数据入库前错列校验流程示意图;图3是本专利技术实施例提供的一种校验结果文件进入TDH临时数据库流程示意图;图4是本专利技术实施例提供的一种TDH临时数据库正确的导入数据库中流程示意图;图5是本专利技术实施例提供的一种质检过程流程示意图;图6是本专利技术实施例提供的一种数据修改后的入库流程示意图。具体实施方式为了使本专利技术的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本专利技术进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解本文档来自技高网...

【技术保护点】
1.一种海量医疗数据入库的质检功能方法,其特征在于,包括:/n对不同来源的txt原始医疗数据文件进行文件错列检查,以判断原始医疗数据文件是否存在错列,将通过错列检查的文件作为校验结果文件;/n对校验结果文件进行标准术语匹配,将通过标准术语匹配的校验结果文件导入进TDH外部表,最终导入到TDH临时数据库中保存;/n对TDH临时数据库中的校验结果文件再次进行标准术语匹配,确定各校验结果文件中不通过匹配的数据数量,剔除掉不满足匹配要求的校验结果文件;/n对保留下来的校验结果文件进行可视化展示。/n

【技术特征摘要】
1.一种海量医疗数据入库的质检功能方法,其特征在于,包括:
对不同来源的txt原始医疗数据文件进行文件错列检查,以判断原始医疗数据文件是否存在错列,将通过错列检查的文件作为校验结果文件;
对校验结果文件进行标准术语匹配,将通过标准术语匹配的校验结果文件导入进TDH外部表,最终导入到TDH临时数据库中保存;
对TDH临时数据库中的校验结果文件再次进行标准术语匹配,确定各校验结果文件中不通过匹配的数据数量,剔除掉不满足匹配要求的校验结果文件;
对保留下来的校验结果文件进行可视化展示。


2.根据权利要求1所述的方法,其特征在于,所述对不同来源的txt原始医疗数据文件进行文件错列检查,以判断原始医疗数据文件是否存在错列,将通过错列检查的文件作为校验结果文件,包括:
将不同来源的txt原始医疗数据文件上传到数据共享平台后端,使用脚本读取该文件每一行列数,若在该文件中,有一行的列数不相同,则将该文件移除;
若在该文件中,各行的列数均相同,则该文件通过错列检查,将该文件状态改为待质检,并将该文件的文件名称、录入时间、文件状态、数据来源信息录入该文件的文件状态表,得到校验结果文件。


3.根据权利要求2所述的方法,其特征在于,所述对校验结果文件进行标准术语匹配,将通过标准术语匹配的校验结果文件导入进TDH外部表,最终导入到TDH临时数据库中保存,包括:
将校验结果文件状态改为匹配中并更新对应的文件状态表中的文件状态;
获取校验结果文件的表头,使用表头与从标准术语表中获取到的标准术语进行匹配,查看表头是否存在标准术语表中,若表头中含有在标准术语表中不存在的标准术语,则移除该校验结果文件,更新文件状态表中的文件状态为标准术语匹配失败;
若表头中的术语均在标准术语表中,则将校验结果文件导入进去TDH外部表,从机构文档协议中获取前台登记信息,最终导入到TDH临时数据库中保存。


4.根据权利要求3所述的方法,其特征在于,所述对TDH临时数据库中的校验结果文件再次进行标准术语匹配,确定各校验结果文件中不通过匹配的数据数量,剔除掉不满足匹配要求的校验结果文件,包括:
...

【专利技术属性】
技术研发人员:李红良张晓晶刘艳琼
申请(专利权)人:武汉大学
类型:发明
国别省市:湖北;42

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1