一种互联网采集数据的过程化处理方法技术

技术编号:15542264 阅读:159 留言:0更新日期:2017-06-05 11:17
本发明专利技术公开了一种互联网采集数据的过程化处理方法,其实现过程为:根据采集数据的数据质量问题及数据需求,完成采集数据的清洗及处理,并监控整个数据处理过程,该数据处理过程包括开始执行、执行结束、处理过程实际执行的SQL语句、完成处理的数据量、执行异常信息,将监控信息保存到相应的数据表,形成完善的数据处理机制。本发明专利技术的一种互联网采集数据的过程化处理方法与现有技术相比,通过将监控信息保存到相应的数据表,形成完善的数据处理机制,提高数据处理的规范型、安全性,实用性强,适用范围广泛,易于推广。

Process processing method for collecting data on Internet

The invention discloses a process processing method for Internet data acquisition, the realization process is as follows: according to the quality problems of the data acquisition data and data requirements, complete cleaning and processing of data collection, data processing and monitoring the whole process, the process of data processing, including start execution, execution process, the actual implementation of the SQL complete the statement, the amount of data processing, abnormal information, monitoring information will be saved to the corresponding data sheet, forming the perfect data processing mechanism. An Internet data collection of the invention of the process of treatment and compared to prior art methods, through the monitoring information will be saved to the corresponding data sheet, forming the perfect data processing mechanism, improve the type, specification of data processing safety, strong practicability, wide application range, easy popularization.

【技术实现步骤摘要】
一种互联网采集数据的过程化处理方法
本专利技术涉及计算机应用
,具体地说是一种互联网采集数据的过程化处理方法。
技术介绍
互联网网页数据是大数据领域的一个重要组成部分,是互联网等公司获取用户消费、交易、产品评价信息以及其他社交信息等数据的重要途径,为数据服务提供了丰富的数据基础,因此,对互联网网页数据处理流程和技术进行探索具有重要意义。目前对采集数据的处理主要是进行抽取、转换、加载,即ETL。ETL工具将分布的、异构数据源中的数据如关系数据、平面数据文件等抽取到临时中间层后进行清洗、转换、集成,最后加载到数据仓库或数据集市中,成为联机分析处理、数据挖掘的基础。但是数据采集过程中经常会遇到数据源单一、定期采集、数据质量问题规律性不强的问题,数据采集过程容易出现异常,在处理异常时其处理效率不高,基于此,现提供一种互联网采集数据的过程化处理方法,对于数据源单一且数据质量问题规律性不强的采集数据,采用基于SQL的过程化数据处理方法,配合规范化的处理流程,实现数据的清洗、处理及数据处理过程的监控。
技术实现思路
本专利技术的技术任务是针对以上不足之处,提供一种互联网采集数据的过程化处理方法。一种互联网采集数据的过程化处理方法,其实现过程为:根据采集数据的数据质量问题及数据需求,完成采集数据的清洗及处理,并监控整个数据处理过程,该数据处理过程包括包括开始执行、执行结束、处理过程实际执行的SQL语句、完成处理的数据量、执行异常信息,将监控信息保存到相应的数据表,形成完善的数据处理机制。采集数据进行清洗、处理的具体步骤为:一、首先整理采集数据表;二、然后分析采集数据表的数据规范性,编写数据清洗SQL,完成包括去除重复数据、规范数据显示格式的数据清洗工作,清洗后的数据分别保存到临时表中;三、编写数据处理SQL,该数据处理SQL根据临时表之间的关联得到综合信息、汇总信息、分指标汇总信息,处理后的数据保存到目标表中;四、设计存放数据清洗、处理SQL的表;五、数据清洗、处理过程中的SQL均通过动态SQL执行,将动态SQL保存到步骤四设计的表中,相对应的,该表中包含:执行SQL的存储过程名称、SQL执行时间、实际执行的SQL语句,方便查看实际执行的数据清洗、处理脚本。在监控整个数据处理过程时,首先需要获取数据处理过程中产生的具体数据信息:首先记录存储过程开始执行时间;进行采集数据清洗及处理的步骤,保留处理过程中的中间表或临时表,并将最终处理结果保存至目标表,记录各级数据处理过程的实际执行SQL;记录本次清洗完成后保存到目标表的采集数据量;记录存储过程结束执行时间;当处理过程出现异常时,记录存储过程执行异常信息。监控数据处理过程中产生的数据保存在以下对应的日志表中:记录存储过程的执行日志表;记录实际执行的SQL脚本的SQL日志表;记录数据处理完成后的数据量的变化日志表;记录数据处理过程中的异常信息的异常信息表。上述执行日志表通过具有记录存储过程执行情况的函数记录,该函数通过输入参数,将输入参数相关信息保存到执行日志表中,这里的输入参数包括:过程名称、执行标志、执行时间、存储过程生成的目标数据量,这里的执行标志是指开始或结束两种标志。所述变化日志表通过记录数据处理完成后的数据量的函数实现,该函数通过输入参数,将输入参数相关信息保存至该变化日志表中,其输入参数包括:存储过程名称、目标表名称、目标表本次新增记录数、新增记录时间。所述异常信息表通过记录存储过程执行异常情况的函数实现,该函数通过输入参数,将将输入参数相关信息保存到异常信息表中,其输入参数包括:存储过程名称、执行异常时间、执行异常代码、执行异常信息。本专利技术的一种互联网采集数据的过程化处理方法和现有技术相比,具有以下有益效果:本专利技术的一种互联网采集数据的过程化处理方法,使用过程化数据处理方法,在不使用工具的情况下,通过执行规范化SQL的存储过程,实现对数据处理过程的监控,提供处理过程中的日志信息及异常信息;记录了采集数据清洗的开始时间、结束时间,可以提供数据处理过程的用时,为分析数据准确性提供参考;记录了数据处理完成后的数据量,为判断数据采集的质量和完整性提供参考;记录了数据处理过程中出现的异常问题及信息,为快速解决数据处理出现的问题提供参考;记录了整个数据处理过程中所有的实际执行SQL,查看动态参数在具体执行时传入的实际值,为分析数据处理SQL编写的正确性提供参考,同时为分析执行数据处理报错情况提供重要参考,实用性强,适用范围广泛,具有很好的推广应用价值。附图说明附图1位本专利技术的实现流程图。具体实施方式下面结合附图及具体实施例对本专利技术作进一步说明。针对数据源单一、定期采集、数据质量问题规律性不强的互联网采集数据,本专利技术设计规范化流程的存储过程完成数据的清洗、转化、处理,将采集数据的处理过程化,提高了互联网采集数据的处理效率。同时,过程化的数据处理可以有效监控数据清洗、处理的整个过程,通过监控的输出数据,查看数据清洗、处理的各个环节及最终结果,查看异常情况。如附图1所示,本专利技术提供一种互联网采集数据的过程化处理方法,采用过程化的处理方法即具有规范化流程的存储过程进行数据处理。根据采集数据的数据质量问题及数据需求,完成采集数据的清洗及处理,并监控整个数据处理过程,包括开始执行、执行结束、处理过程实际执行的SQL语句、完成处理的数据量、执行异常信息等,将监控信息保存到相应的数据表,形成完善的数据处理机制,提高数据处理的规范型、安全性。采集数据进行清洗、处理的具体步骤为:1)整理采集数据表,如:T_CJXX1_201601、T_CJXX2_201601。2)分析采集表的数据规范性,针对性的编写数据清洗SQL。如:去除重复数据、规范数据显示格式等,清洗后的数据分别保存到临时表,如T_TMP1、T_TMP2。3)根据需要编写数据处理SQL。如:根据T_TMP1、T_TMP2关联得到综合信息、汇总信息、分指标汇总信息等,处理后的数据保存到目标表T_CJXX_QXCL。4)设计存放数据清洗、处理SQL的表ZX_SQL_LOG。数据清洗、处理过程中的SQL均通过动态SQL执行,将动态SQL保存到表ZX_SQL_LOG中,方便查看实际执行的数据清洗、处理脚本。ZX_SQL_LOG包含:执行SQL的存储过程名称、SQL执行时间、实际执行的SQL语句。在上述步骤执行过程中,通过设计对采集数据进行清洗、处理的主体存储过程P_CJXX_QXCL,完成相关数据处理过程的数据采集。具体包括:1)记录存储过程开始执行时间。2)实现采集数据清洗及处理,保留处理过程中的中间表或临时表,并将最终处理结果保存至目标表,记录各级数据处理过程的实际执行SQL。3)记录本次清洗完成后保存到目标表的采集数据量。4)记录存储过程结束执行时间。5)如处理过程出现异常,记录存储过程执行异常信息。记录的相关数据保存在对应的日志表中,具体包括:记录存储过程执行日志(开始、结束情况),保存至存储过程执行日志表。统一使用动态SQL,并记录实际执行的SQL脚本,保存至SQL日志表。记录数据处理完成后的数据量,保存至数据库表的变化日志表。记录数据处理过程中的异常信息,保存至异常信息表。上述四个日志表分别通过不同的函数完成记录过程,具本文档来自技高网...
一种互联网采集数据的过程化处理方法

【技术保护点】
一种互联网采集数据的过程化处理方法,其特征在于,其实现过程为:根据采集数据的数据质量问题及数据需求,完成采集数据的清洗及处理,并监控整个数据处理过程,该数据处理过程包括包括开始执行、执行结束、处理过程实际执行的SQL语句、完成处理的数据量、执行异常信息,将监控信息保存到相应的数据表,形成完善的数据处理机制。

【技术特征摘要】
1.一种互联网采集数据的过程化处理方法,其特征在于,其实现过程为:根据采集数据的数据质量问题及数据需求,完成采集数据的清洗及处理,并监控整个数据处理过程,该数据处理过程包括包括开始执行、执行结束、处理过程实际执行的SQL语句、完成处理的数据量、执行异常信息,将监控信息保存到相应的数据表,形成完善的数据处理机制。2.根据权利要求1所述的一种互联网采集数据的过程化处理方法,其特征在于,采集数据进行清洗、处理的具体步骤为:一、首先整理采集数据表;二、然后分析采集数据表的数据规范性,编写数据清洗SQL,完成包括去除重复数据、规范数据显示格式的数据清洗工作,清洗后的数据分别保存到临时表中;三、编写数据处理SQL,该数据处理SQL根据临时表之间的关联得到综合信息、汇总信息、分指标汇总信息,处理后的数据保存到目标表中;四、设计存放数据清洗、处理SQL的表;五、数据清洗、处理过程中的SQL均通过动态SQL执行,将动态SQL保存到步骤四设计的表中,相对应的,该表中包含:执行SQL的存储过程名称、SQL执行时间、实际执行的SQL语句,方便查看实际执行的数据清洗、处理脚本。3.根据权利要求1所述的一种互联网采集数据的过程化处理方法,其特征在于,在监控整个数据处理过程时,首先需要获取数据处理过程中产生的具体数据信息:首先记录存储过程开始执行时间;进行采集数据清洗及处理的步骤,保留处理过程中的中间表或临时表,并将最终处理结果保存至目标表,记录各级数...

【专利技术属性】
技术研发人员:王颜王洪添
申请(专利权)人:山东浪潮云服务信息科技有限公司
类型:发明
国别省市:山东,37

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1