一种基于数据去重的分布式数据挖掘与统计方法技术

技术编号：23932334 阅读：61 留言：0更新日期：2020-04-25 01:54

本发明专利技术公开了一种基于数据去重的分布式数据挖掘与统计方法，分布式服务器集群遍历数据包所有数据，并根据用户配置的数据聚合挖掘条件，分布式服务器集群中各个服务器节点分别判断数据是否重复，若不重复则保留，否则删除重复多余的数据。本发明专利技术通过分布式处理原始数据，从而大大的降低数据包的数量级别，大大降低了用户配置复杂挖掘条件的难度，强化了数据挖掘的针对性，大幅提升了数据挖掘的效率。

A distributed data mining and statistics method based on data De duplication

全部详细技术资料下载

【技术实现步骤摘要】
一种基于数据去重的分布式数据挖掘与统计方法
本专利技术属于网络流量分析
，尤其涉及一种基于数据去重的分布式数据挖掘与统计方法。
技术介绍
随着计算机技术和互联网的发展，宽带速率的提高和费用的降低，使得人们的生活和工作与网络的联系愈发紧密，网络数据包数量呈几何级增长。对于目前的网络流量数据分析，即使是经验丰富的分析员，一天也最多只能分析约1700000个数据包。而据统计一个家庭一周所产生的数据包能够达到1亿级别，已然不是一个可以轻易分析的量级。若是采集一个公司、学校、政府等端点的流量，数据包将是一个天文级别。数据量级大、数据复杂程度高、数据处理慢等严重影响着数据挖掘与统计效率。
技术实现思路
本专利技术的目的就在于为了解决上述问题而提供一种基于数据去重的分布式数据挖掘与统计方法，包括如下步骤：S1:系统获取网络流量数据包；S2:中心服务器进行负载均衡后将数据包拆分发送至分布式服务器集群；S3:用户配置数据聚合挖掘条件，分布式服务器集群中各个服务器节点分别根据数据聚合挖掘条件对数

【技术保护点】
1.一种基于数据去重的分布式数据挖掘与统计方法，其特征在于，包括如下步骤：/nS1:系统获取网络流量数据包；/nS2:中心服务器进行负载均衡后将数据包拆分发送至分布式服务器集群；/nS3:分布式服务器集群遍历数据包所有数据，并根据用户配置的数据聚合挖掘条件，分布式服务器集群中各个服务器节点分别判断数据是否重复，若不重复则保留，否则删除重复多余的数据；/nS4:中心服务器合并去重后的数据；/nS5:中心服务器遍历去重后的数据，并根据用户配置数据聚合挖掘条件，判断数据是否重复，若不重复则保留，否则删除重复多余的数据；/nS6:系统输出聚合挖掘数据结果。/n

【技术特征摘要】
1.一种基于数据去重的分布式数据挖掘与统计方法，其特征在于，包括如下步骤：
S1:系统获取网络流量数据包；
S2:中心服务器进行负载均衡后将数据包拆分发送至分布式服务器集群；
S3:分布式服务器集群遍历数据包所有数据，并根据用户配置的数据聚合挖掘条件，分布式服务器集群中各个服务器节点分别判断数据是否重复，若不重复则保留，否则删除重复多余的数据；
S4:中心服务器合并去重后的数据；
S5:中心服务器遍历去重后的数据，并根据用户配置数据聚合挖掘条件，判断数据是否重复，若不重复则保留，否则删除重复多余的数据；
S6:系统输出聚合挖掘数据结果。

2.根据权利要求1所述一种基于数据去重的分布式数据挖掘与统计方法，其特征在于，所述S2中负载均衡过程中心服务器是根据分布式服务器集群中各服务器节点的硬件配置性能和当前负载来分配...

【专利技术属性】
技术研发人员：邓金祥，王炜，代先勇，谷峰，曾海刚，佘朝裕，刘洋，
申请(专利权)人：成都安思科技有限公司，
类型：发明
国别省市：四川;51

全部详细技术资料下载我是这个专利的主人