一种基于Spark的大规模流量数据关键节点计算方法技术

技术编号:34604938 阅读:34 留言:0更新日期:2022-08-20 09:09
本发明专利技术公开了一种基于Spark的大规模流量数据关键节点计算方法,通过基于Spark框架进行大数据下的关键节点计算,通过对不同连通分量分布式计算关键节点,从单节点变成集群计算,在效率和处理上都获得大幅提升,此外,通过融合连通分量规模和去除关键节点后的连通分量离散程度实现对关键节点重要度的评估,解决了不同连通分量中关键节点重要性难以比较的问题。问题。问题。

【技术实现步骤摘要】
一种基于Spark的大规模流量数据关键节点计算方法


[0001]本专利技术属于大规模网络流量数据处理
,具体涉及一种基于Spark的大规模流量数据关键节点计算方法。

技术介绍

[0002]网络广泛出现在生活的各个领域,如互联网、铁路交通运输网、流行疾病传输网等,研究网络的特征、挖掘有效信息在网络攻防、社会科学、生物学等多领域中都有重要的指导作用。其中,网络关键节点是网络重要的特征之一,对其的发现和重要性排序都有助于发现网络关键部位从而加以重点管理。
[0003]然而不同的研究背景中,节点关键性的衡量标准不同,计算方式也不相同。通常而言,可以根据节点的特征属性进行计算分析。节点的特征属性主要分为结构属性和功能属性,结构属性是指根据节点在网络拓扑结构中的位置以及节点内在的组成方式所决定的结构特征属性;功能属性是指根据节点自身结构属性及所在现实网络特性的具体要求,使其具备特定含义和功能的特征属性,如节点在网络中所起到的控制作用等,还根据数据流量、开放的常见端口等识别数据量大,或者开放了重要功能的服务器。
[0004]现有的关键节点的计算方式主要有社会网络分析法和节点删除法。
[0005]社会网络分析法的核心思想是从网络中寻找节点有用的属性信息来区别网络节点。节点的重要性根据所抽象的网络不同以及节点评估指标的自身特性,决定了节点“重要性”的含义也是不同的。其中,已提出的节点重要性度量方法主要分为核心性和声望两大类。基于核心性的节点重要性度量方法,是试图在网络中量化节点的结构重要性,度量指标主要包括节点的度、紧密度、中介性,子图等。基于声望的节点重要性评估方法是从声望的角度猜测节点的全局重要性,包括特征向量和累计提名等指标度量节点在整个网络图中的排名。
[0006]节点删除方法是利用网络的连通性反映系统某种功能的完整性,将节点的“重要性等价为破坏性”,通过度量节点删除对网络连通性的破坏程度来反映网络节点的重要性,其主要基于“核与核度”理论、生成树理论和图熵理论。基于“核与核度”理论的节点重要性评估方法,基本思路是通过度量节点被删除后对网络连通性的破坏程度来定义其重要性的。该理论将系统抽象成网络,定义系统的“核”为那些对系统功能具有重要的或支配性作用的,且一旦遭到破坏使整个系统瘫痪或造成重大损失的节点或节点的集合,而“核度”的计算方法则采用点断集和连通分支数来定义。基于“生成树”的节点重要性度量方法的思想是:节点的重要性决定于该节点被删除后网络中最小生成树数量的变化情况。去掉节点以及相关联的边后,所得到的生成树数量越少,则表明该节点越重要。基于“图熵”理论的节点重要性度量方法思想是:节点的删除使之改变图的熵值,而熵的改变越多,则该节点越重要。
[0007]根据上述方法可见,不同的方法其对关键点重要程度的衡量标准是不同的,这种不同并没有好坏优劣,应该根据现实网络和应用场景,结合网络特性,选择合适的计算方
法,才有助于更加准确的发现有用的关键节点。
[0008]现有的技术在不同的网络中发挥作用,在大规模流量数据场景中,根据社会网络分析法中的基于核心性的节点重要性度量方法,以节点度为衡量指标,可以计算节点数据流量情况,得到数据量大的节点;根据基于声望的节点重要性评估方法,根据开放的常见端口,提高特征中相应端口的权重,可以发掘开放重要功能的服务器节点。
[0009]但在实际的大规模流量数据中,还存在一类影响网络连通性的节点,被称作网络边际节点,通过此类节点能与其他重要数据网络进行数据交换,是网络中非常重要的一类节点。目前的基于割点删除的方法可以计算出影响网络连通性的节点,但在大规模流量数据中计算速度较慢、效率低,并且在不同连通分量中,难以对关键节点进行重要性排序。

技术实现思路

[0010]有鉴于此,本专利技术提供了一种基于Spark的大规模流量数据关键节点计算方法,能够计算大规模流量数据的关键节点及关键节点的重要度。
[0011]本专利技术提供的一种基于Spark的大规模流量数据关键节点计算方法,包括:
[0012]将大规模流量数据转化为图数据,根据所述图数据计算图的连通分量;将IP之间的通信数据转化为ID之间的通信数据,根据IP对数据进行聚合,采用连通分量ID标记每条数据的连通分量;采用计算割点的方式得到关键节点,计算关键节点的重要度并对根据重要度对关键节点排序。
[0013]进一步地,所述根据所述图数据计算图的连通分量的方式为,采用分布式框架Spark提供的Pregel框架计算连通分量。
[0014]进一步地,所述采用计算割点的方式得到关键节点的方式包括以下步骤:
[0015]步骤3.1、根据连通分量词典,将ID间的一一对应关系的二元组转化为带有连通分量的三元组;
[0016]步骤3.2、根据连通分量ID字段对三元组进行聚合操作,将同一连通分量ID下的所有节点和边的数据聚合到同一计算节点中;
[0017]步骤3.3、各计算节点分别进行割点计算,得到割点信息包括割点ID及分割数,所述割点即为关键节点。
[0018]进一步地,所述二元组表示为(节点ID1,节点ID2),所述三元组表示为(连通分量ID,节点ID1,节点ID2)。
[0019]进一步地,所述计算关键节点的重要度的方式包括以下步骤:
[0020]步骤5.1、采用公式(1)计算各连通分量的规模Scorescale(C(n)):
[0021]Scorescale(C(n))=num(vn)+num(en)
ꢀꢀ
(1)
[0022]其中,C(n)为关键节点n所在的连通分量,num(vn)为关键节点n所在的连通分量的节点个数,num(en)为关键节点n所在的连通分量的边的个数;
[0023]步骤5.2、采用公式(2)计算关键节点n对连通分量离散程度的影响值Scorediscretion(n):
[0024]Scorediscretion(n)=num(con)
ꢀꢀ
(2)
[0025]其中,num(con)为移除关键节点n后形成的连通分量个数;
[0026]步骤5.3、采用公式(3)计算关键节点的重要度的分值Score(n),Score(n)越大表
示关键节点n的重要程度越高:
[0027]Score(n)=αScorediscretion(n)+βScorescale(C(n))
ꢀꢀ
(3)
[0028]其中,α、β均为调节因子,且满足α+β=1;Scorediscretion(n)表示去掉关键节点n后连通分量的离散程度。
[0029]有益效果:
[0030]本专利技术通过基于Spark框架进行大数据下的关键节点计算,通过对不同连通分量分布式计算关键节点,从单节点变成集群计算,在效率和处理上都获得大幅提升,此外,通过融合连通分量规模和去除关键节点后的连通分量离散程度实现对关键节点重要度的评估,解决了不同连通分量中关键节点重要本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于Spark的大规模流量数据关键节点计算方法,其特征在于,包括:将大规模流量数据转化为图数据,根据所述图数据计算图的连通分量;将IP之间的通信数据转化为ID之间的通信数据,根据IP对数据进行聚合,采用连通分量ID标记每条数据的连通分量;采用计算割点的方式得到关键节点,计算关键节点的重要度并对根据重要度对关键节点排序。2.根据权利要求1所述的大规模流量数据关键节点计算方法,其特征在于,所述根据所述图数据计算图的连通分量的方式为,采用分布式框架Spark提供的Pregel框架计算连通分量。3.根据权利要求1所述的大规模流量数据关键节点计算方法,其特征在于,所述采用计算割点的方式得到关键节点的方式包括以下步骤:步骤3.1、根据连通分量词典,将ID间的一一对应关系的二元组转化为带有连通分量的三元组;步骤3.2、根据连通分量ID字段对三元组进行聚合操作,将同一连通分量ID下的所有节点和边的数据聚合到同一计算节点中;步骤3.3、各计算节点分别进行割点计算,得到割点信息包括割点ID及分割数,所述割点即为关键节点。4.根据权利要求3所述的大规模流量数据关键节点计算方法,其特征在于,所述二元组表示为(节点ID1,节点ID2),所述三元组表示为(连通...

【专利技术属性】
技术研发人员:高泽苏亚维王杉陈福健武迪李茜赵静
申请(专利权)人:中国电子科技集团公司第十五研究所
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1