基于GPU、Hadoop/Spark混合计算框架的网络流量分析方法技术

技术编号：14818652 阅读：181 留言：0更新日期：2017-03-15 12:08

本发明专利技术提供了一种基于GPU、Hadoop/Spark混合计算框架的网络流量分析方法。该方法主要包括：构建GPU计算分析框架和Hadoop/Spark计算分析框架，选择GPU或者Hadoop/Spark计算分析框架来处理实时或者离线的网络流量。GPU计算分析框架部署在装有GPU的单机节点上，Hadoop/Spark计算框架为分布式处理系统，部署在服务器集群中，当GPU的可用内存的大小大于或者等于两倍的网络流量数据的大小时，则优先采用GPU计算分析框架来处理实时或者离线的网络流量。本发明专利技术通过构建GPU计算分析框架和Hadoop/Spark计算分析框架GPU计算分析框架，选择GPU或者Hadoop/Spark计算分析框架GPU计算分析框架来处理实时或者离线的网络流量，可以有效地应对高速网络流量的实时或者离线统计分析处理，便于运营、维护、管理人员回溯分析数据。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及网络通信
，尤其涉及一种基于GPU、Hadoop/Spark混合计算框架的网络流量分析方法。
技术介绍
网络流量统计分析主要分为实时和离线计算两类。实时计算主要针对流量按单位、信息系统等聚类统计、排序、排重、过滤和异常监测的实时分析场景；离线计算主要针对信息系统网络流量回溯分析和效能评估等离线场景。网络流量分析的敏感性和价值依赖于流量数据统计处理速度，理想状态的数据分析处理要在秒级时间范围内给出分析结果。目前，网络监测普遍将数据存储在关系型数据库中。关系型数据库中长期积累的数据量巨大，关系型数据库中的单表记录数接近1亿时，其查询等操作性能将急剧减低。为不影响数据分析效率，导致关系型数据库中只能记录近几天的细粒度数据，对于更早的数据只能按天或周合并，记录更粗时间粒度统计数据。这种方式导致的缺点包括：一方面实时数据处理速度无法达到秒级，另一方面对于流量的长期细粒度回溯几乎不可能。因此，寻找一种有效地分析实时流数据、长时间历史数据的计算方法是一个亟待解决的问题。
技术实现思路
本专利技术的实施例提供了一种基于GPU、Hadoop/Spark混合计算框架...
基于GPU、Hadoop/Spark混合计算框架的网络流量分析方法

【技术保护点】
一种基于GPU、Hadoop/Spark混合计算框架的网络流量分析方法，其特征在于，包括：构建GPU计算分析框架和Hadoop/Spark计算分析框架，选择GPU或者Hadoop/Spark计算分析框架来处理实时或者离线的网络流量。

【技术特征摘要】
1.一种基于GPU、Hadoop/Spark混合计算框架的网络流量分析方法，其特征在于，包括：构建GPU计算分析框架和Hadoop/Spark计算分析框架，选择GPU或者Hadoop/Spark计算分析框架来处理实时或者离线的网络流量。2.根据权利要求1所述的方法，其特征在于，所述的GPU计算分析框架部署在装有GPU的单机节点上，所述Hadoop/Spark计算框架为分布式处理系统，部署在服务器集群中，当GPU的可用内存的大小大于或者等于两倍的网络流量数据的大小时，则优先采用GPU计算分析框架来处理实时或者离线的网络流量。3.根据权利要求1或2所述的方法，其特征在于：采用GPU计算分析框架来处理实时网络流量的处理过程包括：步骤1、将输入流传输来的数据按照时间条件进行过滤，去除冗余的数据，按照用户设定的时间力度将过滤后的数据分片，创建GPU缓存，将分片后的数据拷贝到GPU缓存中存储；步骤2、采用Map算子抽取GPU缓存中存储的数据，按用户指定的集合和设定的hash策略给抽取过的每条数据记录生成对应的groupID(标识)，将数据连同groupID一起传递给GPU聚合算子计算；步骤3、GPU聚合算子包括用来处理聚合操作的一系列GPUkernel算子，GPU聚合算子将数据分发到不同的GPUkernel算子进行聚合处理，步骤4、Reduce算子将聚合处理后的具有相同groupID的数据聚合汇总到一起，拷贝到目标地址。步骤5、将所述目标地址中缓存的数据复制回CPU缓存。4.根据权利要求3所述的方法，其特征在于，所述GPUkernel算子包括：OrderBykernel算子、SUMkernel算子、Filterkernel算子和Filterkernel算子。5.根据权利要求4所述的方法，其特征在于，所述OrderBykernel算子选择GPU并行度最好的基数排序，OrderBykernel算子的基数排序操作包括如下过程：(1)统计基数的出现情况；(2)计算前置和求出关键字的偏移量；(3)根据关键字的偏移量重新进行排序；(4)分别对排序序列的每一条数据记录进行上述三步部操作，直到全部数据记录最终排序完成。6.根据权利要求4所述的方法，其特征在于，所述Sumkernel算子根据数据规模来设定GPU工作组个数，每个工作组由256个GPU线程组成，工作组中的每个线程先将数据从全局内存拷贝到到每个线程对应位置的本地缓存中，再对本地缓存中的数据做缩减操作，累计的偏移量从128、64一直缩减到1，最终完成本地缓存整体数据的累加，工作组中的第一个线程对应的本地缓存中存储了Sumkernel算子的运算结果。7.根据权利要求4所述的方法，其特征在于，所述Filterkernel算子先定义一张与整体数据等长的映射表，该映射表用来存储原始数据是否满足过滤条件，整个Filterkernel分为两部分操作...

【专利技术属性】
技术研发人员：王璐，唐威强，
申请(专利权)人：中国人民解放军九一六五五部队，
类型：发明
国别省市：北京;11

全部详细技术资料下载我是这个专利的主人