一种基于网络数据传输设备实时数据采集与解析方法技术

技术编号:22471134 阅读:36 留言:0更新日期:2019-11-06 12:56
本发明专利技术公开了一种基于网络数据传输设备实时数据采集与解析方法,包括数据采集模块DCP、数据解析模块、数据过滤模块,所述数据采集模块负责从网络设备接口获取数据,所述数据解析模块负责对数据包进行解析,所述数据过滤模块从队列中获取数据,按照配置提取需要保留的数据信息,数据过滤后,交由后面所述数据过滤模块进行数据处理。有益效果在于:数据丢包率得到了控制,提升了采集源水平扩展能力,提升了数据处理效率。

A real-time data acquisition and analysis method based on network data transmission equipment

【技术实现步骤摘要】
一种基于网络数据传输设备实时数据采集与解析方法
本专利技术涉及数据传输设备领域,本专利技术涉及一种基于网络数据传输设备实时数据采集与解析方法。
技术介绍
随着“互联网+”的普及,社会从“IT”时代跨越到了“DT”时代,大数据平台应运而生,而数据的量级是平台发展的前提,如果大数据平台没有足够的数据需要处理,无法发挥其真正的作用,因此数据获取则是大数据平台关键的和不可获取的组成部分。当今大数据平台的数据采集模块多倾向于离线采集和实时采集相结合,以定时采集文件和实时从消息队列获取数据为主要方式;这种数据采集方式有比较多的局限性:数据获取受限于消息队列的提供方的效率;另外,随着网络带宽不断提升,直接从网络设备上获取数据将成为必然的趋势,并且海量宝贵的数据资源如果不能实时获取,长远来看,本身也是一种损失。因此我们专利技术了直接从网络传输设备上直接获取数据,从而提高数据采集的速率,快速把大量数据采集到系统中来,并进行相应的网络协议、数据协议解析,输出为可以使用的结构化数据,所谓从网络传输设备上实时进行数据采集,是指直接从网络接口卡、光纤分光器等网络数据传输设备上按照既定的数据协议读取网络中传输的数据,这样可以进最大速率把数据采集到大数据平台中,进行数据增值处理和加工。现有技术存在丢包率高,采集源水平扩展能力较差,数据处理效率较低的问题。
技术实现思路
本专利技术的目的就在于为了解决上述问题而提供一种基于网络数据传输设备实时数据采集与解析方法。本专利技术通过以下技术方案来实现上述目的:一种基于网络数据传输设备实时数据采集与解析方法,包括数据采集模块DCP、数据解析模块、数据过滤模块,所述数据采集模块负责从网络设备接口获取数据,所述数据解析模块负责对数据包进行解析,所述数据过滤模块从队列中获取数据,按照配置提取需要保留的数据信息,数据过滤后,交由后面所述数据过滤模块进行数据处理。本实施例中,所述数据采集模块DCP是大数据解决方案中的一个子系统,位于总体架构的前端,负责信令报文和数据报文的采集、解析和清洗。所述数据采集模块DCP在完成数据加工处理以后,按照约定格式保存到数据交换系统中,流处理平台和批处理平台分别各自从数据交换系统中读取,结合各自业务需求开展数据分析和数据挖掘作业,用户通过多种设备经过身份认证后接入城域网,数据采集设备部署在城域网骨干出口,采用分光方式把用户数据和认证数据通过镜像方式汇聚到SplitFlow设备,由SplitFlow设备对上述数据进行采集和预处理,按照数据报文网络层源IP地址信息进行数据分流处理,将报文原文转发至下游数据分析计算处理设备集群。本实施例中,所述数据解析模块包括信令协议解析、数据业务协议解析、移动网络核心网3G协议解析、移动网络核心网3G、4G协议解析。其中所述信令协议的解析包括固网radius信令、移动网络Radius信令、移动网络核心网网GTP-C信令和自定义信令协议;所述移动网络核心网3G、4G协议解析负责3G、4G业务数据的采集,包括HTTP协议、DNS协议解析。本实施例中,所述数据过滤模块主要负责过滤一些特质数据,如文件扩展名、UserAgent、时间戳、Referer、Host、门户网站定制化过滤等。其中对HTTP报文过滤时,使用了UserAgent来识别和过滤浏览器发出的HTTP报文。本实施例中,所述SplitFlow设备的数据丢包率小于万分之一,对网络层协议进行预分析,以源地址作为数据分流依据。本实施例中,所述采集系统与数据交换系统设计有异常处理机制。本实施例中,所述数据分析处理设备满足集群化平滑扩展需要,分析处理功能在设计实现上满足模块化要求,允许单独或批量调用。本专利技术的有益效果在于:1:数据丢包率得到了控制:在此专利技术中我们引入了SplitFlow采集技术,此技术的应用使得数据丢包率小于万分之一,提升了系统的服务质量。2:提升了采集源水平扩展能力:平台设计了程序包即插即用能力,并且封装目前主流的几种数据协议处理器,因此在面向不同的数据源时,可以灵活地处理不同的数据源。3:多种实时技术的应用,提升了数据处理效率:平台中引入了C/C++/Kafka/Socket/Avro等技术,数据在系统内容以流的方式流转,以及分析系统内部维护了用户关联关系,用户实时状态做到了快速更新,从而满足了大并发操作,大大提升了数据处理的效率,数据处理响应降低到了微秒级。附图说明图1是本专利技术所述一种基于网络数据传输设备实时数据采集与解析方法的采集解析应用部署图;图2是本专利技术所述一种基于网络数据传输设备实时数据采集与解析方法的采集解析技术框架图;图3是本专利技术所述一种基于网络数据传输设备实时数据采集与解析方法的数据采集系统网络部署方案图;图4是本专利技术所述一种基于网络数据传输设备实时数据采集与解析方法的实时采集功能框架图。具体实施方式下面结合附图对本专利技术作进一步说明:如图1-图4所示,一种基于网络数据传输设备实时数据采集与解析方法,包括数据采集模块DCP、数据解析模块、数据过滤模块,所述数据采集模块负责从网络设备接口获取数据,所述数据解析模块负责对数据包进行解析,所述数据过滤模块从队列中获取数据,按照配置提取需要保留的数据信息,数据过滤后,交由后面所述数据过滤模块进行数据处理。本实施例中,所述数据采集模块DCP是大数据解决方案中的一个子系统,位于总体架构的前端,负责信令报文和数据报文的采集、解析和清洗。所述数据采集模块DCP在完成数据加工处理以后,按照约定格式保存到数据交换系统中,流处理平台和批处理平台分别各自从数据交换系统中读取,结合各自业务需求开展数据分析和数据挖掘作业,用户通过多种设备经过身份认证后接入城域网,数据采集设备部署在城域网骨干出口,采用分光方式把用户数据和认证数据通过镜像方式汇聚到SplitFlow设备,由SplitFlow设备对上述数据进行采集和预处理,按照数据报文网络层源IP地址信息进行数据分流处理,将报文原文转发至下游数据分析计算处理设备集群。本实施例中,所述数据解析模块包括信令协议解析、数据业务协议解析、移动网络核心网3G协议解析、移动网络核心网3G、4G协议解析。其中所述信令协议的解析包括固网radius信令、移动网络Radius信令、移动网络核心网网GTP-C信令和自定义信令协议;所述移动网络核心网3G、4G协议解析负责3G、4G业务数据的采集,包括HTTP协议、DNS协议解析。本实施例中,所述数据过滤模块主要负责过滤一些特质数据,如文件扩展名、UserAgent、时间戳、Referer、Host、门户网站定制化过滤等。其中对HTTP报文过滤时,使用了UserAgent来识别和过滤浏览器发出的HTTP报文。本实施例中,所述SplitFlow设备的数据丢包率小于万分之一,对网络层协议进行预分析,以源地址作为数据分流依据。本实施例中,所述采集系统与数据交换系统设计有异常处理机制。本实施例中,所述数据分析处理设备满足集群化平滑扩展需要,分析处理功能在设计实现上满足模块化要求,允许单独或批量调用。具体工作原理为:所述数据采集模块负责从网络设备接口获取数据,获取数据协议采用的是原始套接字,采集到数据以后,按照数据协议,进行网络协议解析,去除网络协议后,写入Kafka消息队列由数据解析模本文档来自技高网...

【技术保护点】
1.一种基于网络数据传输设备实时数据采集与解析方法,其特征在于:包括数据采集模块DCP、数据解析模块、数据过滤模块,所述数据采集模块负责从网络设备接口获取数据,所述数据解析模块负责对数据包进行解析,所述数据过滤模块从队列中获取数据,按照配置提取需要保留的数据信息,数据过滤后,交由后面所述数据过滤模块进行数据处理。

【技术特征摘要】
1.一种基于网络数据传输设备实时数据采集与解析方法,其特征在于:包括数据采集模块DCP、数据解析模块、数据过滤模块,所述数据采集模块负责从网络设备接口获取数据,所述数据解析模块负责对数据包进行解析,所述数据过滤模块从队列中获取数据,按照配置提取需要保留的数据信息,数据过滤后,交由后面所述数据过滤模块进行数据处理。2.根据权利要求1所述的一种基于网络数据传输设备实时数据采集与解析方法,其特征在于:所述数据采集模块DCP是大数据解决方案中的一个子系统,位于总体架构的前端,负责信令报文和数据报文的采集、解析和清洗。所述数据采集模块DCP在完成数据加工处理以后,按照约定格式保存到数据交换系统中,流处理平台和批处理平台分别各自从数据交换系统中读取,结合各自业务需求开展数据分析和数据挖掘作业,用户通过多种设备经过身份认证后接入城域网,数据采集设备部署在城域网骨干出口,采用分光方式把用户数据和认证数据通过镜像方式汇聚到SplitFlow设备,由SplitFlow设备对上述数据进行采集和预处理,按照数据报文网络层源IP地址信息进行数据分流处理,将报文原文转发至下游数据分析计算处理设备集群。3.根据权利要求1所述的一种基于网络数据传输设备实时数据采集与解析方法,其特征在于:所述数据解析模块包括信令协议解析、数...

【专利技术属性】
技术研发人员:刘青山郑菀俪
申请(专利权)人:北京资采信息技术有限公司
类型:发明
国别省市:北京,11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1