一种多路并发数据分组挖掘与统计方法技术

技术编号:24353329 阅读:82 留言:0更新日期:2020-06-03 02:02
本发明专利技术公开了一种多路并发数据分组与统计方法,通过前端可视化的聚合条件配置与挖掘结果数据显示,再辅以后端服务器集群的多任务智能化调度与多路并发数据挖掘运算,大大降低了用户配置复杂挖掘条件的难度,通过智能化和多路并发加成大幅提升了数据挖掘的效率。

A group mining and statistical method of multi-channel concurrent data

【技术实现步骤摘要】
一种多路并发数据分组挖掘与统计方法
本专利技术属于网络流量分析
,尤其涉及一种多路并发数据分组挖掘与统计方法。
技术介绍
随着计算机技术和互联网的发展,宽带速率的提高和费用的降低,使得人们的生活和工作与网络的联系愈发紧密,网络数据包数量呈几何级增长。对于目前的网络流量数据分析,即使是经验丰富的分析员,一天也最多只能分析约1700000个数据包,而据统计一个家庭一周所产生的数据包能够达到1亿级别,已然不是一个可以轻易分析的量级,若是采集一个公司、学校、政府等端点的流量,数据包将是一个天文级别。数据量级大、数据复杂程度高、数据处理慢等严重影响着数据挖掘与统计效率。
技术实现思路
本专利技术的目的就在于为了解决上述问题而提供一种多路并发数据分组挖掘与统计方法,包括如下步骤:S1:系统获取网络流量数据包;S2:中心服务器进行负载均衡后将数据包拆分发送至分布式服务器集群;S3:用户配置数据聚合挖掘条件,分布式服务器集群中各个服务器节点分别根据数据聚合挖掘条件对数据进行匹配挖掘,得到分组数据;S4:分布式服务器分别获取分组数据副本;S5:用户配置数据统计条件,分布式服务器按统计条件进行计算;S6:分布式服务器汇总分布式服务器分组数据统计计算结果;S7:中心服务器合并所有分组统计结果;S8:输出聚合挖掘数据结果。本专利技术的有益效果在于:本专利技术通过聚合降维的方式合并原始数据,从而大大的降低数据包的数量级别,提高分析效率,且数据量越大效果越明显;通过前端可视化的聚合条件配置与挖掘结果数据显示,再辅以后端服务器集群的多任务智能化调度与多路并发数据挖掘运算,大大降低了用户配置复杂挖掘条件的难度,提升了挖掘结果数据的易读性,通过智能化和多路并发加成大幅提升了数据挖掘的效率。附图说明图1是本专利技术的流程图;图2是本专利技术的系统框图。具体实施方式下面结合附图对本专利技术作进一步说明:如图1所示,本专利技术一种多路并发数据分组挖掘与统计方法,一种多路并发数据分组与统计方法,包括如下步骤:S1:系统获取网络流量数据包;S2:中心服务器进行负载均衡后将数据包拆分发送至分布式服务器集群;S3:用户配置数据聚合挖掘条件,分布式服务器集群中各个服务器节点分别根据数据聚合挖掘条件对数据进行匹配挖掘,得到分组数据;S4:分布式服务器分别获取分组数据副本;S5:用户配置数据统计条件,分布式服务器按统计条件进行计算;S6:分布式服务器汇总分布式服务器分组数据统计计算结果;S7:中心服务器合并所有分组统计结果;S8:输出聚合挖掘数据结果。进一步的,所述S2中负载均衡过程中心服务器是根据分布式服务器集群中各服务器节点的硬件配置性能和当前负载来分配任务量的。进一步的,所述S3中的匹配挖掘过程是根据用户配置条件对数据流量包中七元组信息的匹配。进一步的,所述S7中的中心服务器合并数据为异步操作,只要中心服务器收到一个分布式节点中的结果返回便进行一次合并计算。系统获取原始网络流量数据包,对数据包按比例进行拆分,这个拆分是根据服务器集群中各个服务器节点的状态来匹配的,主要有两个判断维度:硬件配置、当前负载。例如,一共有100万条数据源,共有三台用于分析的服务器A、B、C,其中服务器A和服务器C配置较好,但A的当前负载低于C的当前负载,那么A分配到50%的数据条数,C分配到40%的数据条数,服务器B配置稍差只分配20%的数据条数。匹配条件是通过用户设置的网络流量会话七元组来进行的,系统将符合匹配条件的会话数据取出来,得到的数据为一个会话集合。比如,用户设置的条件是按源地址和目标地址来分组,那么系统将遍历所有会话,将会话按源地址和目标地址进行分组,得到多个会话集合映射模型,这个Key-Value映射模型中的Key是源地址和目标地址,Value是会话列表的数据,这样就得到了最终结果。统计条件是通过用户设置的网络流量会话七元组来进行的,遍历会话集合中的所有会话,并取出对应的字段的值进行统计计算,得到最终结果,这个最终结果是一个数值。支持的统计计算类型有求和、求均值、求最大值、求最小值、求会话条数。例如:一共有100万条会话,设置的分组条件为源地区,统计条件为计数、入流量均值、出流量最大值。首先系统将这100万条会话按照配置文件的配置进行负载均衡,自动拆分后分配给各个服务器(服务器A、服务器B和服务器C);各个服务器自行遍历所有分配到的会话,使用源地址对会话进行分组操作,得到一个会话集合Key-Value映射模型,Key为源地址,Value为计数、入流量均值、出流量最大值;各个服务器分别遍历集合,得到统计结果,其中计数为集合的条数,入流量均值为集合中所有入流量全部相加除以集合的条数,出流量最大值为集合中所有出流量从大到小排序并只保留最大值;服务器B和服务器C的映射关系结果汇总给服务器A,服务器A再将所有映射关系合并,其中统计结果合并方式为计数等于所有计数相加,入流量均值等于所有入流量均值相加除以所有入流量均值的个数,出流量最大值等于所有出流量最大值按从大到小排序取出最大的值。本专利技术通过聚合降维的方式合并原始数据,从而大大的降低数据包的数量级别,提高分析效率,且数据量越大效果越明显;通过前端可视化的聚合条件配置与挖掘结果数据显示,再辅以后端服务器集群的多任务智能化调度与多路并发数据挖掘运算,大大降低了用户配置复杂挖掘条件的难度,提升了挖掘结果数据的易读性,通过智能化和多路并发加成大幅提升了数据挖掘的效率。本专利技术的技术方案不限于上述具体实施例的限制,凡是根据本专利技术的技术方案做出的技术变形,均落入本专利技术的保护范围之内。本文档来自技高网...

【技术保护点】
1.一种多路并发数据分组挖掘与统计方法,其特征在于,包括如下步骤:/nS1:系统获取网络流量数据包;/nS2:中心服务器进行负载均衡后将数据包拆分发送至分布式服务器集群;/nS3:用户配置数据聚合挖掘条件,分布式服务器集群中各个服务器节点分别根据数据聚合挖掘条件对数据进行匹配挖掘,得到分组数据;/nS4:分布式服务器分别获取分组数据副本;/nS5:用户配置数据统计条件,分布式服务器按统计条件进行计算;/nS6:分布式服务器汇总分布式服务器分组数据统计计算结果;/nS7:中心服务器合并所有分组统计结果;/nS8:输出聚合挖掘数据结果。/n

【技术特征摘要】
1.一种多路并发数据分组挖掘与统计方法,其特征在于,包括如下步骤:
S1:系统获取网络流量数据包;
S2:中心服务器进行负载均衡后将数据包拆分发送至分布式服务器集群;
S3:用户配置数据聚合挖掘条件,分布式服务器集群中各个服务器节点分别根据数据聚合挖掘条件对数据进行匹配挖掘,得到分组数据;
S4:分布式服务器分别获取分组数据副本;
S5:用户配置数据统计条件,分布式服务器按统计条件进行计算;
S6:分布式服务器汇总分布式服务器分组数据统计计算结果;
S7:中心服务器合并所有分组统计结果;
S8:输出聚合挖掘数据结果。...

【专利技术属性】
技术研发人员:代先勇王炜邓金祥刘洋谷峰曾海刚佘朝裕
申请(专利权)人:成都深思科技有限公司
类型:发明
国别省市:四川;51

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1