一种环境健康数据质量核查的自动化报告方法技术

技术编号:20118066 阅读:32 留言:0更新日期:2019-01-16 12:07
本发明专利技术公开一种环境健康数据质量核查的自动化报告方法:步骤一、将数据文件转化为数据流的形式,可供计算机程序批量操作;步骤二、将数据流转化为复杂数据对象,存入数据库;步骤三、依照领域相关研究需求,利用各类数据的校验规则对数据中的各项关键字段进行检查,对于发现的数据问题进行自动化检查和实时记录;步骤四、对于已发现数据中的问题经校验检查后的统计和记录并以审核报告的形式反馈给实施主体。本发明专利技术方法够统计大数据,简化了数据种类的复杂性,规避了数据多源异构的问题,统一了数据使用标准,提高了数据质量,从而极大的减轻了核查的人工工作量和方便研究工作的进行。

An Automatic Reporting Method for Environmental Health Data Quality Verification

The invention discloses an automatic reporting method for environmental health data quality verification: step 1, transforming data files into data streams for batch operation of computer programs; step 2, transforming data streams into complex data objects and storing them in databases; step 3, according to relevant research needs in the field, utilizing the verification rules of various types of data to key points in data. Fields are checked, and data problems are automatically checked and recorded in real time. Step 4: Statistics and records of problems found in the data are checked and verified and fed back to the implementation subject in the form of audit reports. The method of the invention is capable of statistic large data, simplifies the complexity of data types, avoids the problem of multi-source heterogeneity of data, unifies the data use standard, improves the data quality, and greatly reduces the manual workload of verification and facilitates the research work.

【技术实现步骤摘要】
一种环境健康数据质量核查的自动化报告方法
本专利技术是一种环境健康数据质量核查的自动化报告方法,属于环境健康及计算机
,主要针对领域内存在的多类型多业务主题的大量复杂数据进行规范的自动核查处理,方便领域上对数据的管理及分析。在理论方法研究的基础上结合了包括互联网技术、数据库技术、信息安全技术在内的主流计算机领域技术,以此作为应用和研究工具实现了该方法的应用价值。
技术介绍
在我国当下的环境健康领域中,环境健康问题一直备受各界关注。环境健康大数据的研究是该领域当前的热点之一,而目前环境健康领域的数据存在着海量性、复杂性、差异性等问题,这些数据特性极大地增加了数据核查方面的人工困难。通常情况下,环境健康类数据有着各自的使用标准和范围,各个地方的数据有电子系统存储记录的形式,也有传统纸质文档备案表单形式,没有综合性统一的归纳整理。数据格式的不一致性大大降低数据可用性与数据应用的效用。如何对大量的环境与健康数据进行快速核查及有效清理,使数据规范化,便于后续应用,提高工作效率,是目前环境健康领域亟待解决的技术问题。。有鉴于此,需要自动一种化数据核查技术以解决当下数据量大、种类复杂、各地质量标准不统一的问题,从而形成了应用于环境健康领域不同类型大数据的质量核查与评估的方法。当下已有成熟的数据库技术、互联网技术和信息安全传输技术,能够良好地应用于数据管理和统计计算领域。针对上述研究方法,我们将通过Web技术进行本研究方法的实施,以达到数据的自动化质量核查评估、自动化规范管理和自动化统计产出数据质量核查报告的目的。该方法的专利技术能够解决环境和健康领域数据质量层次不齐、数据清理效率低下、数据难以应用的难题,可广泛应用于环境健康类研究中,通过软件应用,形成良好的数据收集和处理的方法体系。
技术实现思路
本专利技术的目的在于提供一种环境健康数据质量核查的自动化报告方法,以解决现有技术中环境健康数据存在海量性、复杂性、差异性,极大地增加了数据核查方面的人工困难的问题,形成一种应用于环境健康领域的大数据的不同类型的数据质量核查与评估的方法。一种环境健康数据质量核查的自动化报告方法,该方法主流程为处理整个体系收集来的海量的研究数据,对其加以自动化的审核,自动产出审核报告,将数据的核查结果反馈给核查方。旨在能够统计大数据,简化数据种类的复杂性,规避数据多源异构的问题,统一数据使用标准,提高数据质量,从而极大的减轻核查的人工工作量和方便研究工作的进行。本专利技术方法的实施主体为数据核查方。方法体系可核查各类环境健康数据,包括气象指标、空气质量、饮用水监测、土壤监测、人群死亡原因监测、医院门诊病例、急救类数据、慢性病发病数据等,对多类环境健康数据进行采集、质量核查和数据质量报告产出;流程包括:自动化数据解析、数据归纳整理、自动化数据校验、自动化产出报告。本专利技术是一种环境健康数据质量核查的自动化报告方法,具体包括如下步骤:步骤一自动化数据解析:将数据文件转化为数据流的形式,可供计算机程序批量操作。步骤二数据的归纳整理:将数据流转化为复杂数据对象,存入数据库。步骤三自动化数据校验:依照领域相关研究需求,利用各类数据的校验规则对数据中的各项关键字段进行检查,对于发现的数据问题(例如数据重复,数据缺失,数据大小不合适或不符合经验概念的逻辑性数据错误等)进行自动化检查和实时记录。步骤四自动化产出核查报告:对于已发现数据中的问题经校验检查后的统计和记录并以审核报告的形式反馈给实施主体,其内容包括:数据的缺失情况,数据的重复情况(包括提供者提供的和核查方已经收录的数据),数据中存在经验性逻辑错误的聚集情况,并罗列出错误数据的详细位置。本专利技术的优点及功效在于:该方法的研究形成了一个统一完备的处理环境健康大数据的质量核查体系。对数据的采集、核查、核查结果反馈中都加以了质量标准和流程规范。落实解决了当下环境健康领域中存在的数据研究问题,同时本方法能够结合计算机互联网技术进行实施应用,在环境健康领域研究的实际工作中具有良好的推广性切实的应用前景。本专利技术方法够统计大数据,简化了数据种类的复杂性,规避了数据多源异构的问题,统一了数据使用标准,提高了数据质量,从而极大的减轻了核查的人工工作量和方便研究工作的进行。附图说明图1所示为本专利技术方法流程图。图中:D:数据块——D1:原始数据;D2:格式化数据;D3:输出结果;P:数据质量核查的自动化报告处理方法;E:实施主体;具体实施方式下面结合附图和实施例,对本专利技术的技术方案做进一步的说明。本专利技术用于环境健康数据的采集管理平台。可根据业务人员设计的规范,对平台采集的数据实现自动核查。本专利技术方法可应用的环境健康数据的采集管理平台一般包括数据采集、数据审核与标准数据集模块:第一,数据采集模块用于采集各类数据和读取数据;第二,数据审核模块用于对采集的数据进行解析和核查,功能包括数据解析、数据校验、产出审核报告;第三,标准数据集模块用于存储和查询审核后的数据,功能包括形成数据库D2。模块按照采集、审核、存储和查询的顺序依次开展,工作逻辑顺序如下,如图1所示:整个方法可概括为原始数据D1经过方法P处理后转化为格式化数据D2,并产生输出结果D3提供给实施主体E。本专利技术方法的实施主体为数据核查方和数据上传方。方法体系可核查各类环境健康数据,包括气象指标、空气质量、饮用水监测、土壤监测、人群死亡原因监测、医院门诊病例、急救类数据、慢性病发病数据等,对多类环境健康数据进行采集、质量核查和数据质量报告产出;流程包括:自动化数据解析、数据归纳整理、自动化数据校验、自动化产出报告。具体过程如下:(1)数据读取(示例数据均为与实际数据格式一致的模拟数据,并非真实数据)用户根据事先设置好的数据上传模板,上传数据(格式为xls、xlsx或csv),数据会被工具以文件为单位逐个读取。上传模版是以excel或csv的形式提供给用户的。模板中规定了用户上传数据的字段及格式等,用户在excel中通过复制和简单整理,形成与模板相同的excel表格形式后,即可形成待上传的数据。模版示例如表1所示。上传数据示例如表2所示,如果某些数据不完整,则在相应的字段下留空即可。表1表2(2)数据解析读取xls、xlsx或csv格式的数据后,将其解析为数据流,使其可以在java环境下被识别和操作。具体过程为:第一步,对于xls和xlsx文件,逐个单元格地读取其中内容;对于csv文件,按“,”分隔地逐个读取内容。第二步,将读取的内容转化为数据流。上述过程均为自动实现,用户无需进行任何操作。(3)数据校验及归纳整理对于生成的数据流,一方面,在java环境下,根据业务人员事先设定好的规则,自动逐条校验数据,并标记出重复数据、有逻辑错误的数据、其对应的逻辑错误、有缺失项的数据及其对应的缺失项;另一方面,通过sql语句,将数据以标准格式写入数据库。在本例中,校验规则为不能出现如下四种逻辑错误:“报告地区不在所选的地区范围内”(如需要报告上海市的数据,某条实际数据却来自浙江省)、“中暑日期格式不正确”、“中暑日期不在所选时间范围内”(如需要上传2017年的中暑者数据,某条实际数据是2016年的)、“性别填写有误”(如填写的是与性别无关的内容)。本专利技术会通过java程序标记出有逻辑错误本文档来自技高网
...

【技术保护点】
1.一种环境健康数据质量核查的自动化报告方法,其特征在于:该方法具体包括如下步骤:步骤一自动化数据解析:将数据文件转化为数据流的形式,可供计算机程序批量操作;步骤二数据的归纳整理:将数据流转化为复杂数据对象,存入数据库;步骤三自动化数据校验:依照领域相关研究需求,利用各类数据的校验规则对数据中的各项关键字段进行检查,对于发现的数据问题进行自动化检查和实时记录;其中所述的数据问题包括数据重复、数据缺失、数据大小不合适或不符合经验概念的逻辑性数据错误;步骤四自动化产出核查报告:对于已发现数据中的问题经校验检查后的统计和记录并以审核报告的形式反馈给实施主体,其内容包括:数据的缺失情况,数据的重复情况,数据中存在经验性逻辑错误的聚集情况,并罗列出错误数据的详细位置。

【技术特征摘要】
1.一种环境健康数据质量核查的自动化报告方法,其特征在于:该方法具体包括如下步骤:步骤一自动化数据解析:将数据文件转化为数据流的形式,可供计算机程序批量操作;步骤二数据的归纳整理:将数据流转化为复杂数据对象,存入数据库;步骤三自动化数据校验:依照领域相关研究需求,利用各类数据的校验规则对数据中的各项关键字段进行检查,对于发现的数据...

【专利技术属性】
技术研发人员:李湉湉班婕王情孙庆华杜宗豪
申请(专利权)人:中国疾病预防控制中心环境与健康相关产品安全所
类型:发明
国别省市:北京,11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1