一种基于随机森林的复杂网络集聚延续风险预测方法技术

技术编号:24208630 阅读:35 留言:0更新日期:2020-05-20 15:48
本发明专利技术提供一种基于随机森林的复杂网络集聚延续风险预测方法,步骤包括:A:计算静态网络的复杂网络特征与其他特征,并构建时刻集聚子团集;B:提取时序集聚延续子团预备集,随后通过延续指标判定得到时刻集聚子团集内各个集聚子团的延续时刻长度;C:构建集聚延续风险阈值,结合各个集聚子团复杂网络特征与其他特征,建立网络集聚延续风险预测数据集;D:将网络集聚延续风险预测数据集划分为训练集与预测集,采用随机森林构建风险预测模型,进行复杂网络集聚延续风险预测与分析。本发明专利技术能实现基于随机森林的复杂网络集聚延续风险预测的目的,该方法的通用性强,客观度高,易于操作,解决了网络中集聚延续的风险难以预测的问题。

A continuous risk prediction method of complex network clustering based on random forest

【技术实现步骤摘要】
一种基于随机森林的复杂网络集聚延续风险预测方法
本专利技术提出了一种基于随机森林的复杂网络集聚延续风险预测方法,它涉及风险识别、网络科学、机器学习等

技术介绍
风险是指在某一特定环境下,在某一特定时间段内或时间点上,某种损失或不期望结果发生的可能性或不确定性。风险是一种客观存在,并且可以通过采用防范措施防止或降低风险发生导致的损失,却不能消除风险。风险在生活中各个领域都普遍存在。比如,航海界中渔民出海打渔时有可能遭遇由于天气不佳等原因导致的空猎风险、覆船风险等;而在金融界,投资者购买股票等产品时也存在无法收回本金的风险;即使是普通群众,生活中也可能遭遇灾害带来的风险如地震、洪水、火灾等对人身安全与财产安全造成的损失与侵害。在一个系统内,某些风险往往并非仅存于某一特定时刻,而是会随着时间推演,在系统内或增长或消散,较为典型的例子是复杂网络的集聚风险。对于非单一成分的网络,网络中由于部分节点与连边之间的联系与网络中其他部分成分相比更加紧密,从而导致集聚子团的产生。具体来说,一个有向的图结构中,两节点间至少存在一条路径使得一个节点能够到达另一个节点,则这样的图结构即为该有向图的弱联通图。对于系统的整体网络中,可以提取出这样的局部网络,称为该系统的集聚子团。集聚子团对于交通网络、电力网络以及计算机网络等现实复杂系统来说都可能会导致系统整体运行性能的下降甚至崩溃的风险。由于复杂网络的集聚风险存在的普遍性及其产生的损失给人们的生活甚至社会运行都带来了巨大的影响,因此对复杂网络的集聚风险的时序演化过程进行分析,从而判断该类风险的时序延续性是十分必要的。在对网络集聚风险的识别过程中,可以采用多种识别方法,包括基于结构的分析方法、基于统计的分析方法等。对于具有集聚风险的网络系统,充分理解和深入研究集聚风险在时序推进中的演化是预测网络集聚延续风险的重中之重。根据时序演化下的某一系统的内部结构与属性,首先需要提取出静态时刻的系统内部特征,而如何在时序中将这些静态特征串接起来、根据系统的时序相关属性建立延续风险判定指标,成为了本专利技术的重点。以往无论是基于流行性疾病的风险扩散分析、基于网络拓扑结构的风险传播阈分析还是基于级联失效的风险传播过程分析,都较少对系统的集聚子团作为研究对象,并且较少将系统在各个时段或时点上的特征进行关联与对比分析,因此上述方法虽然能够针对系统风险进行定量或定性的评估,却是缺少时间动态性特征与网络集聚特征的。而已有研究表明,系统的集聚是不容忽视的一大风险因素,而复杂网络的集聚在时序中的延续性风险亦不容小觑。在机器学习中,随机森林(RandomForest)是一个包含多个决策树的分类器。决策树本身通过自己在数据集中学到的知识对于新的数据进行分类,而随机森林则是通过对数据的随机选取构建子决策树,在子树的每一个分裂过程中选择性地使用待选特征,之后再在随机选取的特征中选取最优的特征,从而达到综合各个子树的最佳效果,实现分类。此方法在目标预测、分类问题中都具有较好的表现,因此本专利应用此方法对复杂网络的集聚延续风险进行预测。本专利通过引入时间序列的特征,使用随机森林模型进行网络集聚子团的延续性风险预测,考虑到了风险的时延性,能够评估各个网络集聚子团的时序风险大小,具有较好的通用性及创新性。基于以上的方法基础及现实的意义提出了一种基于随机森林的复杂网络集聚延续风险预测方法。
技术实现思路
(一)专利技术的目的本专利技术主要用于解决在复杂系统与网络结构背景下的网络集聚延续风险预测问题,现有的方法大多是基于机器学习方法与数理统计方法的静态网络结构集聚风险识别,而这些方法都未将系统在各个时段或时点上的集聚特征进行关联,从而对集聚的延续风险进行预测,缺少时间动态性特征。因此针对于现有方法的不足,本专利提出了一种基于随机森林的复杂网络集聚延续风险预测方法。通过使用该方法实现在非单一部件、非单一节点系统中的时序集聚子团构建与应用随机森林的集聚延续风险识别,将系统的静态结构特征与组分属性提取为集聚组分的静态特征,随后通过组合获取时间序列中的系统集聚组分的时序特征从而得到系统的集聚延续特征,进而能够实现针对集聚组分的延续性风险识别,从而为后续的风险传播抑制与阻断手段提供信息支持。(二)技术方案为了实现上述目的,本专利技术的方法所采用的技术方案是:一种基于随机森林的复杂网络集聚延续风险预测方法。本专利技术所述的一种基于随机森林的系统风险预测方法是一种结合复杂网络建模、时间序列分析和机器学习预测的综合方法。本专利技术所述的“一种基于随机森林的复杂网络集聚延续风险预测方法”,其步骤如下:步骤A:提取网络拓扑结构与信息构建静态复杂网络,计算静态网络的复杂网络特征与其他特征,并构建时刻集聚子团集;步骤B:构建某给定时序内各时刻复杂网络集聚子团集,提取时序集聚延续子团预备集,随后通过延续指标判定得到时刻集聚子团集内各个集聚子团的延续时刻长度;步骤C:构建集聚延续风险阈值,对时刻集聚子团集内各个集聚子团进行集聚延续风险标记,结合各个集聚子团复杂网络特征与其他特征,建立网络集聚延续风险预测数据集;步骤D:将网络集聚延续风险预测数据集划分为训练集与预测集,采用随机森林构建风险预测模型,进行复杂网络集聚延续风险预测与分析。通过以上步骤,可以实现基于随机森林的复杂网络集聚延续风险预测的目的,该方法的通用性强,客观度高,易于操作,解决了网络中集聚延续的风险难以预测的问题。其中,步骤A中所述的“提取网络拓扑结构与信息构建静态复杂网络,计算静态网络的复杂网络特征与其他特征,并构建时刻集聚子团集”,其做法如下:基于含有时序T={t1,t2,...,ti,...,tt}的现实数据D(Data,T),首先提取某时刻ti的数据切片di(datai,ti)中的静态复杂网络拓扑结构与信息构建静态复杂网络,随后计算该时刻ti的静态复杂网络特征与其他特征,构建该时刻ti的时刻集聚子团集clusteri;以上所述过程的具体步骤如下:步骤A1:对含有时序T={t1,t2,...,ti,...,tt}现实数据D(Data,T)={d1(data1,t1),...,di(datai,ti),...,dt(datat,tt)},其时序长度为t,对该现实数据某时刻ti的第i个数据切片di(datai,ti)中静态数据datai(network(v,e),otheri)中的数值部分依据但不仅依据插值方法或前后取平均方法进行缺失值补全,随后提取该静态数据中的网络部分v,e进行静态复杂网络network(v,e)构建,其中v,e分别为该静态复杂网络的节点、连边,且v,e个数为有限个,分别为m,n;步骤A2:根据已建立的静态复杂网络network(v,e)中每个节点、连边及其相应属性,采用如数学统计的方法来计算该静态复杂网络的复杂网络特征featurenetwork如网络规模G、度均值degree_average、度方差degree_variance、介数均值betweenes本文档来自技高网
...

【技术保护点】
1.一种基于随机森林的复杂网络集聚延续风险预测方法,其特征在于:其步骤如下:/n步骤A:提取网络拓扑结构与信息构建静态复杂网络,计算静态网络的复杂网络特征与其他特征,并构建时刻集聚子团集;/n步骤B:构建一给定时序内各时刻复杂网络集聚子团集,提取时序集聚延续子团预备集,随后通过延续指标判定得到时刻集聚子团集内各个集聚子团的延续时刻长度;/n步骤C:构建集聚延续风险阈值,对时刻集聚子团集内各个集聚子团进行集聚延续风险标记,结合各个集聚子团复杂网络特征与其他特征,建立网络集聚延续风险预测数据集;/n步骤D:将网络集聚延续风险预测数据集划分为训练集与预测集,采用随机森林构建风险预测模型,进行复杂网络集聚延续风险预测与分析。/n

【技术特征摘要】
1.一种基于随机森林的复杂网络集聚延续风险预测方法,其特征在于:其步骤如下:
步骤A:提取网络拓扑结构与信息构建静态复杂网络,计算静态网络的复杂网络特征与其他特征,并构建时刻集聚子团集;
步骤B:构建一给定时序内各时刻复杂网络集聚子团集,提取时序集聚延续子团预备集,随后通过延续指标判定得到时刻集聚子团集内各个集聚子团的延续时刻长度;
步骤C:构建集聚延续风险阈值,对时刻集聚子团集内各个集聚子团进行集聚延续风险标记,结合各个集聚子团复杂网络特征与其他特征,建立网络集聚延续风险预测数据集;
步骤D:将网络集聚延续风险预测数据集划分为训练集与预测集,采用随机森林构建风险预测模型,进行复杂网络集聚延续风险预测与分析。


2.根据权利要求1所述的一种基于随机森林的复杂网络集聚延续风险预测方法,其特征在于:在步骤A中所述的“提取网络拓扑结构与信息构建静态复杂网络,计算静态网络的复杂网络特征与其他特征,并构建时刻集聚子团集”,其做法如下:
基于含有时序T={t1,t2,...,ti,...,tt}的现实数据D(Data,T),首先提取某时刻ti的数据切片di(datai,ti)中的静态复杂网络拓扑结构与信息构建静态复杂网络,随后计算该时刻ti的静态复杂网络特征与其他特征,构建该时刻ti的时刻集聚子团集clusteri;以上所述过程的具体步骤如下:
步骤A1:对含有时序T={t1,t2,...,ti,...,tt}现实数据D(Data,T)={d1(data1,t1),...,di(datai,ti),...,dt(datat,tt)},其时序长度为t,对该现实数据某时刻ti的第i个数据切片di(datai,ti)中静态数据datai(network(v,e),otheri)中的数值部分依据但不仅依据插值方法及前后取平均方法进行缺失值补全,随后提取该静态数据中的网络部分v,e进行静态复杂网络network(v,e)构建,其中v,e分别为该静态复杂网络的节点、连边,且v,e个数为有限个,分别为m,n;
步骤A2:根据已建立的静态复杂网络network(v,e)中每个节点、连边及其相应属性,采用数学统计的方法来计算该静态复杂网络的复杂网络特征featurenetwork;网络规模G、度均值degree_average、度方差degree_variance、介数均值betweeness_average和介数方差betweeness_variance,从而有:
featurenetwork(G,degree_average,degree_variance,betweeness_average,betweeness_variance,...);
步骤A3:基于此时刻ti的数据切片di(datai,ti)里的静态数据datai(network(v,e),otheri)中的其他部分otheri,计算此时刻ti的其他特征各个连边的属性在整个静态数据datai(network(v,e),otheri)中的特征集合与各个节点的属性在现实中的特征集合:
feature_edgei={feature_edgei_e1,...,feature_edgei_ei,...,feature_edgei_en}
feature_nodei={feature_nodei_v1,...,feature_nodei_vi,...,feature_nodei_vm}
因此对整个ti时刻的静态数据datai(network(v,e),otheri)能提取出整体静态特征featurei(featurenetwork,);
步骤A4:根据所建立的静态复杂网络network(v,e)中的节点与连边拓扑信息及静态数据的其他信息otheri,计算该静态复杂网络的q个弱联通集聚子团,随即能得时刻ti的集聚子团集clusteri={clusteri_1,...,clusteri_j,...,clusteri_q},其中所含的特征种类与步骤A2所描述的相同。


3.根据权利要求1所述的一种基于随机森林的复杂网络集聚延续风险预测方法,其特征在于:在步骤B中所述的“构建一给定时序内各时刻复杂网络集聚子团集,提取时序集聚延续子团预备集,随后通过延续指标判定得到时刻集聚子团集内各个集聚子团的延续时刻长度”,其做法如下:
首先对于给定的时序遍历其各个时刻并由步骤A得到对应时刻的集聚子团集,随后设置对某时刻的某基准集聚子团的延续判定阈值,并按时刻顺序对该基准集聚子团后续各个时刻的集聚子团集中各集聚子团依次进行延续判定指标计算,并加总符合延续判定指标的延续时刻长度,对时序内的所有集聚子团计算前述延续时刻长度,以上所述过程的具体步骤如下:
步骤B1:对时序T={t1,t2,...,ti,...,tt}中的每个时刻应用步骤A,能得到对应每个时刻的集聚子团集,按照时序顺序将所有时刻集聚子团集组合为对应时序T的集聚子团集集合Cluster={cluster1,...,clusteri,...,clustert};
步骤B2:设时刻t0的集聚子团集cluster0中的第k个子团cluster0_k为一个基准集聚子团,则该基准集聚子团及其后续时刻T'={t0+1,...,t0+(t-0)}的t-0个集聚子团集中的所有子团形成一个基准子团cluster0_k的时序集聚延续子团预备集Clusterk'={cluster0_k,...,cluster(t-0)};
步骤B3:对于基准集聚子团cluster0_k能根据其特征,应用数学变换及逻辑组合诸方式构建延续判定阈值并命名为随后依序遍历T'={t0+1,...,t0+(t-0)}中的时序集聚延续子团预备集Clusterk'内的所有时刻,应用与构建延续判定阈值相同的数学变换及逻辑组合诸方式计算各时刻ti的延续判定指标其中0≤i≤0+(t-0),且该延续判定指标能随时刻与集聚子团而改变;
步骤B4:初始化基准集聚子团cluster0_k的延续时刻长度R0_k=0,对T'={t0+1,...,t0+(t-0)}时序下,时序集聚延续子团预备集Cluste...

【专利技术属性】
技术研发人员:李大庆张欣予
申请(专利权)人:北京航空航天大学
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1