一种分布式网络流量的聚合降维统计方法技术

技术编号:23343661 阅读:28 留言:0更新日期:2020-02-15 03:58
本发明专利技术公开了一种分布式网络流量的聚合降维统计方法,用户配置数据聚合挖掘条件,分布式服务器集群中各个服务器节点分别根据数据聚合挖掘条件对数据进行匹配挖掘;分布式服务器集群中的各个服务器节点分别对匹配挖掘到的数据进行累加;中心服务器合并并累加分布式服务器集群中各个服务器节点累加后的数据。大大的降低数据包的数量级别,提高了数据挖掘分析效率。

An aggregate dimension reduction statistical method for distributed network traffic

【技术实现步骤摘要】
一种分布式网络流量的聚合降维统计方法
本专利技术属于网络流量分析
,尤其涉及一种分布式网络流量的聚合降维统计方法。
技术介绍
随着计算机技术和互联网的发展,宽带速率的提高和费用的降低,使得人们的生活和工作与网络的联系愈发紧密,网络数据包数量呈几何级增长。对于目前的网络流量数据分析,即使是经验丰富的分析员,一天也最多只能分析约1700000个数据包。而据统计一个家庭一周所产生的数据包能够达到1亿级别,已然不是一个可以轻易分析的量级。若是采集一个公司、学校、政府等端点的流量,数据包将是一个天文级别。
技术实现思路
本专利技术的目的就在于为了解决上述问题而提供一种分布式网络流量的聚合降维统计方法,包括如下步骤:S1:系统获取网络流量数据包;S2:中心服务器进行负载均衡后将数据包拆分发送至分布式服务器集群;S3:用户配置数据聚合挖掘条件,分布式服务器集群中各个服务器节点分别根据数据聚合挖掘条件对数据进行匹配挖掘;S4:分布式服务器集群中的各个服务器节点分别对匹配挖掘到的数据进行累加;S5:中心服务器合并并累加分布式服务器集群中各个服务器节点累加后的数据;S6:系统判断数据聚合类型,若数据聚合类型为求和数据,则转S7;若为均值数据则将得到的累加数据在中心服务器上进行一次平均值计算,完成后转S7;S7:输出聚合挖掘数据结果。本专利技术的有益效果在于:本专利技术通过聚合降维的方式合并原始数据,从而大大的降低数据包的数量级别,提高分析效率,且数据量越大效果越明显;通过前端可视化的聚合条件配置与挖掘结果数据显示,再辅以后端服务器集群的多任务智能化调度与多路并发数据挖掘运算,大大降低了用户配置复杂挖掘条件的难度,提升了挖掘结果数据的针对性,通过智能化和多路并发加成大幅提升了数据挖掘的效率。附图说明图1是本专利技术的流程图;图2是本专利技术的分布式架构图。具体实施方式下面结合附图对本专利技术作进一步说明:如图1所示,本专利技术一种分布式网络流量的聚合降维统计方法,包括如下步骤:S1:系统获取网络流量数据包;S2:中心服务器进行负载均衡后将数据包拆分发送至分布式服务器集群;S3:用户配置数据聚合挖掘条件,分布式服务器集群中各个服务器节点分别根据数据聚合挖掘条件对数据进行匹配挖掘;S4:分布式服务器集群中的各个服务器节点分别对匹配挖掘到的数据进行累加;S5:中心服务器合并并累加分布式服务器集群中各个服务器节点累加后的数据;S6:系统判断数据聚合类型,若数据聚合类型为求和数据,则转S7;若为均值数据则将得到的累加数据在中心服务器上进行一次平均值计算,完成后转S7;S7:输出聚合挖掘数据结果。进一步的,所述S2中负载均衡里中心服务器是根据分布式服务器集群中各服务器节点的硬件配置性能和当前负载来分配任务量的。进一步的,所述S3中的匹配挖掘过程是根据用户配置条件对数据流量包中七元组信息的匹配。进一步的,所述S5中的中心服务器合并数据是一个异步操作,只要收到一个分布式节点中的结果返回便进行一次合并计算。系统获取原始网络流量数据包,对数据包按比例进行拆分,这个拆分是根据服务器集群中各个服务器节点的状态来匹配的,主要有两个判断维度:硬件配置、当前负载。例如,一共有100万条数据源,共有三台用于分析的服务器A、B、C,其中服务器A和服务器C配置较好,但A的当前负载低于C的当前负载,那么A分配到50%的数据条数,C分配到40%的数据条数,服务器B配置稍差只分配20%的数据条数。集群中的节点服务器对拆分后的数据进行数据匹配,匹配条件是作用于数据流量包中七元组数据,将符合匹配条件的会话数据提取出来,并只保留会话中用于求和或者求均值的数据,得到多组数值。例如,匹配条件为求和源IP为1.1.1.1会话的出流量总数,那么首先通过条件“源IP为1.1.1.1”匹配所有会话,得到所有源IP为1.1.1.1的会话,然后只取出会话中的出流量数据,得到匹配的最终结果。集群中的节点服务器对匹配到的数据进行累加,并将累加结果回传给中心服务器,中心服务器合并并再次累加所有结果数据。中心服务器判断数据聚合类型,若为求和数据则直接输出聚合挖掘结果,若为均值数据则将累加得到的数据除以数据量(会话的条数)得到并输出聚合挖掘结果。具体的,如一共有100万条会话,用户在用户终端配置分析AVG数据。取数据条件为源IP等于1.1.1.1,均值计算字段为入流量。首先中心服务器将这100万条会话进行负载均衡,拆分后分配给集群中各个节点服务器;节点服务器使用遍历条件“源IP等于1.1.1.1”遍历所有会话,提取符合条件的会话,并只保留会话中入流量该字段的值;然后将这些值全部累加得到结果,并记录会话条数。例如服务器A(节点)累加入流量500GB,会话条数10万;服务器B(节点)累加入流量400GB,会话条数20万;服务器C(节点)累加入流量200GB,会话条数10万;将服务器A、B、C的最终结果汇总给服务器D(中心服务器),D(中心服务器)再次累加所有入流量记录得到共1.1TB,会话条数40万;若获取均值数据则将入流量结果除以会话条数:1.1TB/40万得到2.884MB,即最终输出结果。本专利技术通过提取网络流量数据包中的共有属性,并以这些属性为基准条件,通过聚合降维的方式合并原始数据,从而大大的降低数据包的数量级别,提高分析效率。这里面提到的降维就是指降低数据的量级,通常来说经过聚合操作后,降维比例能达到2000比1,而且数据量越大效果越明显。本专利技术通过聚合降维的方式合并原始数据,从而大大的降低数据包的数量级别,提高分析效率,且数据量越大效果越明显;通过前端可视化的聚合条件配置与挖掘结果数据显示,再辅以后端服务器集群的多任务智能化调度与多路并发数据挖掘运算,大大降低了用户配置复杂挖掘条件的难度,提升了挖掘结果数据的针对性,通过智能化和多路并发加成大幅提升了数据挖掘的效率。本专利技术的技术方案不限于上述具体实施例的限制,凡是根据本专利技术的技术方案做出的技术变形,均落入本专利技术的保护范围之内。本文档来自技高网...

【技术保护点】
1.一种分布式网络流量的聚合降维统计方法,其特征在于,包括如下步骤:/nS1:系统获取网络流量数据包;/nS2:中心服务器进行负载均衡后将数据包拆分发送至分布式服务器集群;/nS3:用户配置数据聚合挖掘条件,分布式服务器集群中各个服务器节点分别根据数据聚合挖掘条件对数据进行匹配挖掘;/nS4:分布式服务器集群中的各个服务器节点分别对匹配挖掘到的数据进行累加;/nS5:中心服务器合并并累加分布式服务器集群中各个服务器节点累加后的数据;/nS6:系统判断数据聚合类型,若数据聚合类型为求和数据,则转S7;若为均值数据则将得到的累加数据在中心服务器上进行一次平均值计算,完成后转S7;/nS7:输出聚合挖掘数据结果。/n

【技术特征摘要】
1.一种分布式网络流量的聚合降维统计方法,其特征在于,包括如下步骤:
S1:系统获取网络流量数据包;
S2:中心服务器进行负载均衡后将数据包拆分发送至分布式服务器集群;
S3:用户配置数据聚合挖掘条件,分布式服务器集群中各个服务器节点分别根据数据聚合挖掘条件对数据进行匹配挖掘;
S4:分布式服务器集群中的各个服务器节点分别对匹配挖掘到的数据进行累加;
S5:中心服务器合并并累加分布式服务器集群中各个服务器节点累加后的数据;
S6:系统判断数据聚合类型,若数据聚合类型为求和数据,则转S7;若为均值数据则将得到的累加数据在中心服务器上进行一次平均值计算,完成后转S7;...

【专利技术属性】
技术研发人员:代先勇王炜邓金祥刘洋谷峰曾海刚佘朝裕
申请(专利权)人:成都深思科技有限公司
类型:发明
国别省市:四川;51

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1