The invention discloses a process processing method for Internet data acquisition, the realization process is as follows: according to the quality problems of the data acquisition data and data requirements, complete cleaning and processing of data collection, data processing and monitoring the whole process, the process of data processing, including start execution, execution process, the actual implementation of the SQL complete the statement, the amount of data processing, abnormal information, monitoring information will be saved to the corresponding data sheet, forming the perfect data processing mechanism. An Internet data collection of the invention of the process of treatment and compared to prior art methods, through the monitoring information will be saved to the corresponding data sheet, forming the perfect data processing mechanism, improve the type, specification of data processing safety, strong practicability, wide application range, easy popularization.
【技术实现步骤摘要】
一种互联网采集数据的过程化处理方法
本专利技术涉及计算机应用
,具体地说是一种互联网采集数据的过程化处理方法。
技术介绍
互联网网页数据是大数据领域的一个重要组成部分,是互联网等公司获取用户消费、交易、产品评价信息以及其他社交信息等数据的重要途径,为数据服务提供了丰富的数据基础,因此,对互联网网页数据处理流程和技术进行探索具有重要意义。目前对采集数据的处理主要是进行抽取、转换、加载,即ETL。ETL工具将分布的、异构数据源中的数据如关系数据、平面数据文件等抽取到临时中间层后进行清洗、转换、集成,最后加载到数据仓库或数据集市中,成为联机分析处理、数据挖掘的基础。但是数据采集过程中经常会遇到数据源单一、定期采集、数据质量问题规律性不强的问题,数据采集过程容易出现异常,在处理异常时其处理效率不高,基于此,现提供一种互联网采集数据的过程化处理方法,对于数据源单一且数据质量问题规律性不强的采集数据,采用基于SQL的过程化数据处理方法,配合规范化的处理流程,实现数据的清洗、处理及数据处理过程的监控。
技术实现思路
本专利技术的技术任务是针对以上不足之处,提供一种互联网采集数据的过程化处理方法。一种互联网采集数据的过程化处理方法,其实现过程为:根据采集数据的数据质量问题及数据需求,完成采集数据的清洗及处理,并监控整个数据处理过程,该数据处理过程包括包括开始执行、执行结束、处理过程实际执行的SQL语句、完成处理的数据量、执行异常信息,将监控信息保存到相应的数据表,形成完善的数据处理机制。采集数据进行清洗、处理的具体步骤为:一、首先整理采集数据表;二、然后分析采集数据表的 ...
【技术保护点】
一种互联网采集数据的过程化处理方法,其特征在于,其实现过程为:根据采集数据的数据质量问题及数据需求,完成采集数据的清洗及处理,并监控整个数据处理过程,该数据处理过程包括包括开始执行、执行结束、处理过程实际执行的SQL语句、完成处理的数据量、执行异常信息,将监控信息保存到相应的数据表,形成完善的数据处理机制。
【技术特征摘要】
1.一种互联网采集数据的过程化处理方法,其特征在于,其实现过程为:根据采集数据的数据质量问题及数据需求,完成采集数据的清洗及处理,并监控整个数据处理过程,该数据处理过程包括包括开始执行、执行结束、处理过程实际执行的SQL语句、完成处理的数据量、执行异常信息,将监控信息保存到相应的数据表,形成完善的数据处理机制。2.根据权利要求1所述的一种互联网采集数据的过程化处理方法,其特征在于,采集数据进行清洗、处理的具体步骤为:一、首先整理采集数据表;二、然后分析采集数据表的数据规范性,编写数据清洗SQL,完成包括去除重复数据、规范数据显示格式的数据清洗工作,清洗后的数据分别保存到临时表中;三、编写数据处理SQL,该数据处理SQL根据临时表之间的关联得到综合信息、汇总信息、分指标汇总信息,处理后的数据保存到目标表中;四、设计存放数据清洗、处理SQL的表;五、数据清洗、处理过程中的SQL均通过动态SQL执行,将动态SQL保存到步骤四设计的表中,相对应的,该表中包含:执行SQL的存储过程名称、SQL执行时间、实际执行的SQL语句,方便查看实际执行的数据清洗、处理脚本。3.根据权利要求1所述的一种互联网采集数据的过程化处理方法,其特征在于,在监控整个数据处理过程时,首先需要获取数据处理过程中产生的具体数据信息:首先记录存储过程开始执行时间;进行采集数据清洗及处理的步骤,保留处理过程中的中间表或临时表,并将最终处理结果保存至目标表,记录各级数...
【专利技术属性】
技术研发人员:王颜,王洪添,
申请(专利权)人:山东浪潮云服务信息科技有限公司,
类型:发明
国别省市:山东,37
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。