网络互联数据抓取分发的系统和方法技术方案

技术编号:18767132 阅读:223 留言:0更新日期:2018-08-25 12:51
本发明专利技术提供了一种网络互联数据抓取分发的系统和方法,数据接收:从不同的数据来源接收数据;数据处理:包括数据解码阶段以及数据聚合阶段,所述解码阶段包括据根据网络协议把数据变为结构化指标的数据,所述数据聚合阶段包括根据后端的需求把结构化指标的数据聚合到设定的维度;数据存储/分发:对于数据解码阶段以及数据聚合阶段的数据分别设置存储和索引,按自定义方式将数据发送至后端。本发明专利技术能够从多种数据来源获取网络互联数据,可以和现有系统更好的结合;按不同解码阶段的数据有不同的索引和存储设置;将数据结构化后的数据按自定义方式发送到后端数据分析应用;可以对数据进行任意维度的聚合;可以查询和处理历史数据。

【技术实现步骤摘要】
网络互联数据抓取分发的系统和方法
本专利技术涉及数据处理
,具体地,涉及网络互联数据抓取分发的系统和方法。
技术介绍
信息科技高速发展的今天,人们通过互联网不仅仅只是简单的获取信息,移动支付、共享单车使我们的生活发生了翻天覆地的变化,我们生活中的一切都已离不开互联网。网络互联数据已经成为企业和机构重要的数据资源,怎样有效利用这些资源成为企业需要掌握的基本技术。随着互联网络尤其是移动端的爆发式增长,如何从海量互联数据中获取有价值的数据成为企业的一个难题。传统网络探针或数据分析技术有如下问题:1、数据获取方式单一,只能或接收特定格式数据,只能从特定输入获取;2、对于历史数据访问不友好;3、不能根据特定场景或需求自定义存储数据类型和时间;4、实现复杂需要使用专用设备;5、不能解码后按不同的统计维度和颗粒度分发到后端数据分析引擎。
技术实现思路
针对现有技术中的缺陷,本专利技术的目的是提供一种网络互联数据抓取分发的系统和方法。根据本专利技术提供的一种网络互联数据抓取分发的方法,包括:数据接收步骤:从不同的数据来源接收数据;数据处理步骤:包括数据解码阶段以及数据聚合阶段,所述数据解码阶段包括据根据网络协议把数据变为结构化指标的数据,所述数据聚合阶段包括根据后端的需求把结构化指标的数据聚合到设定的维度;数据存储/分发步骤:对于数据解码阶段以及数据聚合阶段的数据分别设置存储和索引,按自定义方式将数据发送至后端。较佳的,还包括:数据清理步骤:根据不同的数据设置不同的清理方式,减少磁盘使用。较佳的,还包括:任务调度步骤:对所述数据处理步骤进行调度、启停和管理。较佳的,还包括:采用API模块提供对外接口,后端通过所述API模块控制所述数据处理步骤以及所述任务调度步骤。根据本专利技术提供的一种网络互联数据抓取分发的系统,包括:数据接收模块:从不同的数据来源接收数据;数据处理模块:包括数据解码子模块以及数据聚合子模块,所述数据解码子模块包括据根据网络协议把数据变为结构化指标的数据,所述数据聚合子模块包括根据后端的需求把结构化指标的数据聚合到设定的维度;数据存储/分发模块:对于数据解码子模块以及数据聚合子模块的数据分别设置存储和索引,按自定义方式将数据发送至后端。较佳的,还包括:数据清理模块:根据不同的数据设置不同的清理方式,减少磁盘使用。较佳的,还包括:任务调度模块:对所述数据处理模块进行调度、启停和管理。较佳的,还包括:API模块:提供对外接口,后端通过所述API模块控制所述数据处理模块以及所述任务调度模块。与现有技术相比,本专利技术具有如下的有益效果:1、能够从多种数据来源获取网络互联数据,可以和现有系统更好的结合;2、按不同处理阶段的数据有不同的索引和存储设置;3、将数据结构化后的数据按自定义方式发送到后端数据分析应用;4、可以对数据进行任意维度的聚合;5、可以查询和处理历史数据。附图说明通过阅读参照以下附图对非限制性实施例所作的详细描述,本专利技术的其它特征、目的和优点将会变得更明显:图1为本专利技术的系统模块图;图2为本专利技术数据抓取和处理流程图;图3为本专利技术历史数据抓取和处理流程图。具体实施方式下面结合具体实施例对本专利技术进行详细说明。以下实施例将有助于本领域的技术人员进一步理解本专利技术,但不以任何形式限制本专利技术。应当指出的是,对本领域的普通技术人员来说,在不脱离本专利技术构思的前提下,还可以做出若干变化和改进。这些都属于本专利技术的保护范围。如图1所示,本专利技术提供的网络互联数据抓取分发的系统包括:API模块:提供对外接口,通过所述API模块控制数据处理模块以及任务调度模块;任务调度模块:对数据处理模块进行调度、启停和管理;数据接收模块:现有系统一般只支持从网卡抓包获取数据,本专利技术分离出独立的数据接收模块,支持从网络、ipfix、及第三方系统获取数据;数据处理模块:包括数据解码子模块以及数据聚合子模块,数据解码子模块包括据根据网络协议对原始数据进行解码、计算和整合变为结构化指标的数据,不但可以以更合理的结构进行存储优化,也可以灵活的提供给聚合程序按不同需求的进一步处理。数据聚合子模块包括根据后端的需求把结构化指标的数据按照需要的维度和指标进行聚合,灵活的维度和指标定义使后端程序不需要关心技术细节,只需定义需要的数据类型,就可以满足各种自定义需求;数据存储/分发模块:对于数据解码子模块以及数据聚合子模块的数据分别设置存储和索引,按自定义方式将数据发送至后端数据分析应用;数据清理模块:支持过期时间清理和磁盘容量清理等多种方式,更可以对不同数据类型实行差异化的清理逻辑。比如可以设定原始数据优先清理,一周内的低颗粒度数据晚于一周外的高颗粒度数据清理等等。也可以自定义清理任务,达到减少磁盘使用和最优化数据存储的目的。本专利技术的工作原理如下:后端数据分析应用通过API模块接入本系统,通过任务调度模块控制本系统开启或关闭不同数据源的抓取、存储,后端数据分析应用可以定义需要的数据维度和颗粒度以及获取历史数据。根据不同的场景设置数据来源,可同时设置不同类型数据来源,如图2和图3所示,数据来源包括socket、文件和网卡,通过数据接收模块进行数据抓取,数据抓取后会存储为原始数据在系统磁盘上,并另外通过数据总线发送到数据处理模块进行处理。数据处理模块通过数据解码子模块,据根据网络协议把数据解码变为结构化指标的数据,同样存储便于后续查询,并发送到数据聚合子模块,数据聚合子模块会根据后端数据分析应用的需求聚合到一定的时间颗粒度或ip等的维度存储并发送到后端数据分析应用,有利于减少数据量。后端数据分析应用通过任务调度模块可以直接控制数据处理模块内的数据获取、数据解码、数据聚合和数据存储,也可以通过任务调度启动新的数据查询、定义所需数据的维度和颗粒度。数据存储/分发模块对数据进行存储和索引,例如根据不同场景设置不同存储方案,原始数据、解码数据和聚合数据可分别设置,根据数据来源的ip或者ipport设置索引,便于后端数据分析应用查询。数据清理模块根据不同的数据设置不同的清理方式,以减少磁盘使用。本领域技术人员知道,除了以纯计算机可读程序代码方式实现本专利技术提供的系统及其各个装置、模块、单元以外,完全可以通过将方法步骤进行逻辑编程来使得本专利技术提供的系统及其各个装置、模块、单元以逻辑门、开关、专用集成电路、可编程逻辑控制器以及嵌入式微控制器等的形式来实现相同功能。所以,本专利技术提供的系统及其各项装置、模块、单元可以被认为是一种硬件部件,而对其内包括的用于实现各种功能的装置、模块、单元也可以视为硬件部件内的结构;也可以将用于实现各种功能的装置、模块、单元视为既可以是实现方法的软件模块又可以是硬件部件内的结构。以上对本专利技术的具体实施例进行了描述。需要理解的是,本专利技术并不局限于上述特定实施方式,本领域技术人员可以在权利要求的范围内做出各种变化或修改,这并不影响本专利技术的实质内容。在不冲突的情况下,本申请的实施例和实施例中的特征可以任意相互组合。本文档来自技高网...

【技术保护点】
1.一种网络互联数据抓取分发的方法,其特征在于,包括:数据接收步骤:从不同的数据来源接收数据;数据处理步骤:包括数据解码阶段以及数据聚合阶段,所述数据解码阶段包括据根据网络协议把数据变为结构化指标的数据,所述数据聚合阶段包括根据后端的需求把结构化指标的数据聚合到设定的维度;数据存储/分发步骤:对于数据解码阶段以及数据聚合阶段的数据分别设置存储和索引,按自定义方式将数据发送至后端。

【技术特征摘要】
1.一种网络互联数据抓取分发的方法,其特征在于,包括:数据接收步骤:从不同的数据来源接收数据;数据处理步骤:包括数据解码阶段以及数据聚合阶段,所述数据解码阶段包括据根据网络协议把数据变为结构化指标的数据,所述数据聚合阶段包括根据后端的需求把结构化指标的数据聚合到设定的维度;数据存储/分发步骤:对于数据解码阶段以及数据聚合阶段的数据分别设置存储和索引,按自定义方式将数据发送至后端。2.根据权利要求1所述的网络互联数据抓取分发的方法,其特征在于,还包括:数据清理步骤:根据不同的数据设置不同的清理方式,减少磁盘使用。3.根据权利要求1所述的网络互联数据抓取分发的方法,其特征在于,还包括:任务调度步骤:对所述数据处理步骤进行调度、启停和管理。4.根据权利要求3所述的网络互联数据抓取分发的方法,其特征在于,还包括:采用API模块提供对外接口,后端通过所述API模块控制所述数据处理步骤以及所述任务调度步骤。5....

【专利技术属性】
技术研发人员:朱晓峰蔡晓华杨光辉贺晓麟王涛周育樑
申请(专利权)人:上海天旦网络科技发展有限公司
类型:发明
国别省市:上海,31

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1