一种基于元数据的数据采集方法技术

技术编号:16878482 阅读:862 留言:0更新日期:2017-12-23 15:15
本发明专利技术公开了一种基于元数据的数据采集方法,使用一台设备替代分布式采集系统进行多点采集网络流量从而跟踪对比端到端的网络性能。在TCP/IP协议分析中增加了区分来自不同端口流量的能力,从而用一台高性能的智能分析采集器替代多台低速采集设备。本发明专利技术首先通过给每个物理端口的流量打入不同的二层标签,然后在逐层分析中使用这个标签用以区分来自于不同端口的流量。分析的结果以元数据的形式存入大数据分析平台,在大数据分析技术解决同一条流在数据传送中被修改后还能对比识别的难题。本发明专利技术公开的基于元数据的单点采集和大数据分析方法解决了网络性能分析中同一条TCP/UDP逻辑流被分成若干个物理TCP流后难以跟踪对比的难题。

A data acquisition method based on Metadata

The invention discloses a data acquisition method based on metadata, which uses a device instead of distributed collection system to collect network traffic at multiple points, so as to track and compare end to end network performance. In the TCP/IP protocol analysis, the ability to distinguish traffic from different ports is added, so that a high-performance intelligent analysis collector is used to replace multiple low-speed acquisition devices. The invention first divides the flow of each physical port into two different layers of labels, and then uses this tag in layer by layer analysis to distinguish traffic from different ports. The result of analysis is stored in the form of metadata in big data analysis platform. In big data analysis technology, it can solve the problem of identifying the same flow in data transmission. The single point collection and big data analysis method based on metadata solves the difficult problem of tracking and contrasting the same TCP/UDP logic flow after being divided into several physical TCP streams in network performance analysis.

【技术实现步骤摘要】
一种基于元数据的数据采集方法
本专利技术属于信息
,涉及一种网络上基于元数据的数据多点采集、单点分析的方法。
技术介绍
从客户端发出一个网络请求到被数据库服务器接收,网络上的报文要历经千辛万苦才能从原点到达目的地。就以报文已经通过因特网到达数据中心为例,在数据中心里要经过边缘交换机,防火墙、入侵检测、核心交换机、路由器、负载平衡、网页应用防火墙、网页服务器、应用服务器、数据库安全检测,最后达到数据库服务器。任何一个环节出了问题,都会导致网络的传输性能受到影响,甚至网络不通。如何能实现端到端(end-to-end)的网络性能监测并及时发现任何一个环节出现的问题是一个梦寐以求的目标,这也是网络性能监测(NetworkPerformanceMonitoring)领域里一个没有解决好的问题。网络性能监测可以用探针技术来解决。例如在手机上布探针,就能知道每一个从手机上发出的TCP连接的延迟。但探针只能在有限的情况下部署。例如:刷卡机、智能穿戴设备由于硬件条件所限,一般不支持布探针;网络安全设备、金融用的服务器一般也不容许第三方布探针。所以单靠软件探针布点是无法解决端到端的网络性能监测问题,更不用说在没有探针地方要监测网络性能了。在数据中心里,通过光分流器或者交换机(路由器)的SPAN端口(镜像端口)把流量引出,再基于TCP/IP协议栈的分析也可以了解数据中心的网络性能。这种旁路分析不影响现有的网络和服务器,可以在数据中心里进行性能监测。Application-awareNPM(AA-NPM)0就是这样一种性能监测的思路,该方法正受到越来越多的关注。AA-NPM方法通过核心交换机SPAN端口把流量导出给能进行协议分析的iTAP(intelligentTAP)。iTAP在完成协议分析后,把有关协议的交易层信息以元数据(metadata)的形式输出给iMAP.这里iMAP(intelligentMetadataAnalyticPlatform)是一个大数据分析平台,支持对元数据描述的流量性能信息进行对比、关联、和分析,从而得出端到端的性能分析结果。由于是在网络上布点采集流量,布点的位置可以在数据中心里的任何位置。但是原有的方案需要多个iTAP设备。例如:防火墙前后、负载平衡前后、服务器前后等地方使用iTAP导出流量。这样就要为多个iTAP设备单独组建一个网络,例如:用一台交换机把多台iTAP的分析结果汇集、然后送入iMAP大数据分析平台。本专利技术用一台高性能的iTAP替代多台低速的iTAP,用于减少网络设备占有的空间和连线组网的复杂性,同时也便于iTAP的管理。
技术实现思路
本专利技术所要解决的技术难点是:多点采集网络流量时用一台高性能iTAP的多个物理端口来集中采集流量,然后在大数据分析平台上进行TCP流对比分析的问题。多台变一台后,在TCP流对比分析过程中需要解决以下两大新问题:1)区分属于不同的监测点貌似一样的TCP流;2)对比同一条TCP逻辑流被其它的网络设备分成若干个物理TCP流。为解决上述技术问题本专利技术所采用的技术方案是:1)对每一物理端口来的流量打上IEEE802.1ad0的VLANID(VID)用于区分不同端口的流量,从而标记不同的采集点。2)在TCP/IP协议分析中考虑二层VALNID(VID),形成网络协议(链路层,网络层,传输层(L2/L3/L4)协议头一起分析用于区分不同端口的流量。3)对于经过NAT的流量,考虑使用NAT日志来关联进入、进出的TCP流量。4)对于经过Proxy的流量,使用DPI分析技术计算出应用层(七层)的特征信息来关联TCP(四层)的信息。5)对于经过Proxy的流量,在没有应用层特征信息的情况下用TCP层报文体(payload)的的哈希值来关联TCP四层的信息。6)借用网络层(L3)到应用层(L7)特征值的布尔表达式(逻辑与、或、非)提炼出基于元数据的大数据下的TCP层(L4)和应用层(L7)的性能分析技术。在本专利技术中,多种技术要相互配合才能发挥作用。·智能探点(iTAP)中使用IEEE802.1ad标识好不同采集点来的流量·TCP/IP协议栈要考虑二层的VLANID来构建哈希表做分析·分析出的元数据要有足够的网络信息支持后续的大数据分析技术·利用NAT日志来关联进、出的TCP/UDP流·利用元数据中的应用层信息关联Proxy后的不同TCP/UDP流·利用报文的哈希值关联Proxy后的不同TCP/UDP流本专利技术的有益效果是:本专利技术通过一台高性能的iTAP来代替多台低速的iTAP。实现多个采集点的流量直接从不同的物理端口进入一台高性能的iTAP,形成一个支持多点采集网络流量的单点分析方案时的要求,即:1)一台直接汇聚流量的iTAP具有大流量高性能的分析能力。单台设备就能处理40G的流量以减少监控系统的成本和提高系统分析的稳定性。计算出的元数据要有足够的信息用于性能分析。2)高性能iTAP要有能力区分貌似同一个TCP流来自于不同的物理端口,属于不同的监测点。假设,在一个交换机上把三个监控点的流量同时打入一个监控口的情况。如果服务器1和服务器2之间通讯,同样的TCP层的信息,即TCP的五元组:(IPsrc,IPdst,Portsrc,Portdst,Protocol)在连接服务器1的以太网交换机端口上被采集一次,在服务器2的以太网端口上再被采集一次(如图3所示)。这里IPsrc,IPdst,Portsrc,Portdst是TCP的四元组,代表源地址、目的地址、源端口、目的端口,这样在TCP层上就会看到两个一模一样的网络四层报文,会被认为是TCP的重传,丢掉其中的一个。这时如果要计算这两个端口的延迟就无法进行了。同样如果采集的流量来自于没有NAT的防火墙前后,类似的情况也会发生。3)iMAP大数据分析平台要有能力对比几条不同TCP物理流属于同一个逻辑的TCP流。这个情况和上面情况相反:当网络设备对TCP流做了转换时,例如:防火墙可以做NAT,负载平衡可以做Proxy,这是流进、流出网络设备的TCP流就属于不同的TCP物理流。但做TCP性能分析时要求把它们当成同一个TCP逻辑流来对比、分析才能计算正确出TCP性能信息。过去的方法要么以插件技术为主,或者需要部署多个探点来采集流量。即使用了多个探点,NAT、Proxy前后被截断的TCP流也无法处理。基于前述的原因,需要一种适应多点采集网络流量而又能计算出数据中心任何一条路径各个采集点之间的网络性能分析方法。这个方法即能够区分和识别来自不同端口的TCP流量又能把不同的TCP流进行合适地对比和关联。本专利技术利用识别不同端口来的网络流量这一核心技术,完成了用一台设备支持网络多点流量采集问题、保留各个物理端口的四层网络元数据信息,然后用大数据分析技术计算出通过各个采集点的网络性能,从而形成对网络性能端到端的掌握。和原来的多台设备采集相比,有以下优点:(1)节省了部署空间、网线长度、网络设备(例如:10G设备的10:1的节省);(2)单个节点便于探点的管理,例如软件的一次更新和系统的一次配置;(3)算法的实现不需要增加TCP协议栈的存储空间;(4)概率算法的通用性:通过对TCP报文体哈希值的的对比分析来关联Proxy后的TCP流。对应于以本文档来自技高网
...
一种基于元数据的数据采集方法

【技术保护点】
一种基于元数据的数据采集方法,其特征在于:该方法通过多点引出流量到单台设备,再使用高性能的智能探点计算导出元数据、从而利用大数据分析平台进行TCP/UDP流的性能对比分析技术。

【技术特征摘要】
1.一种基于元数据的数据采集方法,其特征在于:该方法通过多点引出流量到单台设备,再使用高性能的智能探点计算导出元数据、从而利用大数据分析平台进行TCP/UDP流的性能对比分析技术。2.如权利要求1所述的方法,其特征在于:识别同一台机器上从不同物理端口来的不同采集点的TCP/UDP报文,用高性能的单点部署来替代原有的多台低速探点。3.如权利要求2所述的方法,其特征在于:对于支持IEEE802.1.ad的网卡,在二层协议分析时嵌入所需要的IEEE802.1ad的VLANID。4.如权利要求2所述的方法,其特征在于:对于不支持IEEE802.1.ad网卡,在网络做配置时先接受硬件错误的报文,然后忽略二层报文的格式错误,再在驱动里加入VALNID。5.如权利要求4所述的方法,其特征在于,所述的方法在网卡由于二层分析的格式问题不支持负载平衡时,用软件的方法实...

【专利技术属性】
技术研发人员:唐锡南
申请(专利权)人:南京云利来软件科技有限公司
类型:发明
国别省市:江苏,32

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1