一种基于Spark的大规模流量数据关键节点计算方法技术

技术编号:34604938 阅读:43 留言:0更新日期:2022-08-20 09:09
本发明专利技术公开了一种基于Spark的大规模流量数据关键节点计算方法,通过基于Spark框架进行大数据下的关键节点计算,通过对不同连通分量分布式计算关键节点,从单节点变成集群计算,在效率和处理上都获得大幅提升,此外,通过融合连通分量规模和去除关键节点后的连通分量离散程度实现对关键节点重要度的评估,解决了不同连通分量中关键节点重要性难以比较的问题。问题。问题。

【技术实现步骤摘要】
一种基于Spark的大规模流量数据关键节点计算方法


[0001]本专利技术属于大规模网络流量数据处理
,具体涉及一种基于Spark的大规模流量数据关键节点计算方法。

技术介绍

[0002]网络广泛出现在生活的各个领域,如互联网、铁路交通运输网、流行疾病传输网等,研究网络的特征、挖掘有效信息在网络攻防、社会科学、生物学等多领域中都有重要的指导作用。其中,网络关键节点是网络重要的特征之一,对其的发现和重要性排序都有助于发现网络关键部位从而加以重点管理。
[0003]然而不同的研究背景中,节点关键性的衡量标准不同,计算方式也不相同。通常而言,可以根据节点的特征属性进行计算分析。节点的特征属性主要分为结构属性和功能属性,结构属性是指根据节点在网络拓扑结构中的位置以及节点内在的组成方式所决定的结构特征属性;功能属性是指根据节点自身结构属性及所在现实网络特性的具体要求,使其具备特定含义和功能的特征属性,如节点在网络中所起到的控制作用等,还根据数据流量、开放的常见端口等识别数据量大,或者开放了重要功能的服务器。
[0004]现有的关键节本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种基于Spark的大规模流量数据关键节点计算方法,其特征在于,包括:将大规模流量数据转化为图数据,根据所述图数据计算图的连通分量;将IP之间的通信数据转化为ID之间的通信数据,根据IP对数据进行聚合,采用连通分量ID标记每条数据的连通分量;采用计算割点的方式得到关键节点,计算关键节点的重要度并对根据重要度对关键节点排序。2.根据权利要求1所述的大规模流量数据关键节点计算方法,其特征在于,所述根据所述图数据计算图的连通分量的方式为,采用分布式框架Spark提供的Pregel框架计算连通分量。3.根据权利要求1所述的大规模流量数据关键节点计算方法,其特征在于,所述采用计算割点的方式得到关键节点的方式包括以下步骤:步骤3.1、根据连通分量词典,将ID间的一一对应关系的二元组转化为带有连通分量的三元组;步骤3.2、根据连通分量ID字段对三元组进行聚合操作,将同一连通分量ID下的所有节点和边的数据聚合到同一计算节点中;步骤3.3、各计算节点分别进行割点计算,得到割点信息包括割点ID及分割数,所述割点即为关键节点。4.根据权利要求3所述的大规模流量数据关键节点计算方法,其特征在于,所述二元组表示为(节点ID1,节点ID2),所述三元组表示为(连通...

【专利技术属性】
技术研发人员:高泽苏亚维王杉陈福健武迪李茜赵静
申请(专利权)人:中国电子科技集团公司第十五研究所
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1