一种基于贝叶斯混合模型的网络故障数据合成方法技术

技术编号:21484586 阅读:26 留言:0更新日期:2019-06-29 06:29
本发明专利技术公开了一种基于贝叶斯混合模型的网络故障数据合成方法,该方法用于解决现有网络故障预测中由于故障数据较少而产生的预测性能下降的缺陷,本发明专利技术首先对于采集到的具有非均衡特性的网络数据集,用贝叶斯混合模型表示该数据集中的少数类故障数据分布,而后完成模型参数估计,利用训练好的模型产生少数类故障样本,使故障和非故障这两类数据达到均衡。采用本发明专利技术的方法,能够准确地把握具有非均衡特性的网络数据集特性,有效地提升网络故障预测准确率。

【技术实现步骤摘要】
一种基于贝叶斯混合模型的网络故障数据合成方法
本专利技术涉及一种基于贝叶斯混合模型的网络故障数据合成方法,属于非均衡数据处理

技术介绍
随着互联网技术的发展,越来越多的用户开始使用各类网络业务。网络运营商也在努力的为用户提供更高质量和传输更加稳定的流媒体视频服务。由于网络故障的产生,容易造成用户体验质量下降。换言之,如果运营商能够提前准确预判网络故障,并且采取措施解决网络中可能出现的问题,那么就可以有效的提升用户体验。因此,用户的故障的预测与及时处理对于网络运营商而言至关重要。在实际系统中,网络故障数据在系统收集到的整个网络数据集中所占的比例相对较小,换句话说,网络故障产生的概率要远远低于网络正常的概率。因此,网络数据集具有非均衡特性。非均衡数据集指的是数据集中的一类数据明显比其他类数据少很多。在这里,网络故障(少数类样本)的数据量要远远少于网络正常(多数类样本)的数据量。对于这样的情况,传统的二分类器在处理非均衡数据时,通常训练得到的分类器具有偏好,使得多数类预测具有很高的正确率,而对于少数类则正确率很低。在处理非均衡数据集的方法中,通常基于抽样的方法,通过改变数据集的分布,使得非均衡数据集变成均衡的数据集。大多数现有方法是采用直接从现有样本生成新的少数类样本的方式来处理非均衡数据的,如SyntheticMinorityOversamplingTechnique(SMOTE)方法。这些方式比较直观,但是由于其并没有深入挖掘少数类样本的分布特性,其产生的样本不仅不一定有助于分类,往往对分类起着反作用,究其原因,生成的新的少数类样本并不具有代表性,因而无法较好地应用于网络故障预测。
技术实现思路
本专利技术目的是在于解决现有的网络故障数据处理中的缺陷,提出了一种基于贝叶斯混合模型的网络故障数据合成方法,该方法采用贝叶斯混合模型用于描述网络故障数据(少数类样本)的分布状况,首先,用贝叶斯混合模型描述现有故障数据分布,而后进行参数估计,最终利用估计出参数的模型,产生新的故障数据,从而使得非均衡数据变得相对均衡。本专利技术的技术方案是:一种基于贝叶斯混合模型的网络故障数据合成方法,该方法包括如下步骤:步骤1:设采集到的网络数据集为其中xn的由六个属性组成,分别为丢包率、终端下载速率、传输时延、抖动、视频传输质量、终端用户体验评分;该数据集对应的标签集合为yn=0或1,即X对应于两类标签,其中yn=0为网络正常类标签,yn=1类为网络故障类标签,由于网络正常类的数据个数远远多于网络故障类的数据个数,定义yn=1对应的xn所组成的集合为少数类其中为少数类样本,Nalm为少数类样本数目,而yi=0对应的xi所组成的集合为多数类其中为多数类样本,Nmaj为多数类样本数目;步骤2:选用贝叶斯混合模型来表示Xalm的分布,其概率分布函数表达式包括:其中,K为混合成分数,πj(V)、μj、Λj和νj分别表示第j个混合成分的权值、均值、协方差矩阵和自由度参数;为t分布的概率密度函数,表示为:其中N(·)和Gam(·)分别代表Gaussian分布函数和Gamma分布函数,unj为与xn和第j个混合成分相关的隐变量,权值πj(V)满足其表达式为:上式中变量Vj服从Beta分布,即p(Vj)=Beta(Vj|1,α),α为该Beta分布的超参数,此外,μj,Λj服从联合Gaussian-Wishart分布,即高斯分布与Wishart分布的乘积,N(·)W(·):p(μj,Λj)=N(μj|mj,λjΛj)W(Λj|Wj,ρj)其中为该联合Gaussian-Wishart分布的超参数,mj为六维列矢量,λj和ρj是标量,Wj为一个(6×6)的矩阵;引入一个隐变量其中zn指示当前的数据xn是由t混合模型中的哪个成分产生的,当xn是由第j个混合成分产生时,znj=1,基于以上所述,整个模型的超参数为:步骤3:利用Xalm对混合模型进行参数估计,具体如下:3-1)产生Nalm个服从[1,K]区间上均匀分布的随机整数,统计该区间上各整数出现的概率;即,如果产生了Nj个整数j,那么δj=Nj/Nalm;对于每个对应的隐变量zn的初始分布为zn为K维矢量,其在各个维度znj(j=1,...,K)上的取值为{0,1};3-2)设定超参数α的初始值;对于所有的j(j=1,...,K),mj=0,λj=1,ρj取3~20之间的任意数,Wj=10·I,I为单位矩阵,νj取1~100之间的任意数,α取1~10之间的任意数;此外,迭代次数计数变量k=1;3-3)更新隐变量的分布,即,其超参数的更新公式为:其中在首次迭代时计算时,3-4)更新随机变量的分布,即,相应的超参数的更新公式如下:其中,3-5)更新随机变量的分布,即,相应的超参数的更新公式为:3-6)更新隐变量的分布其中在上式中,各项期望<·>的计算公式如下:其中Γ(·)为标准的gamma函数,Γ(·)′为标准gamma函数的导数;此外,和<unj>的计算方法已分别在步骤3-3)和步骤3-4)给出;3-7)更新自由度参数即,解如下含有νj的方程:选用常用的数值计算方法,如牛顿法,获得此方程的解νj;3-8)计算当前迭代后的似然值LIKitr,itr为当前的迭代次数:3-9)计算当前迭代后与上一次迭代后的似然值的差值△LIK=LIKitr-LIKitr-1;如果△LIK≤δ,那么参数估计过程结束,否则转到步骤(3-3),itr的值增加1,继续进行下一次的迭代;阈值δ的取值范围为10-5~10-4;步骤4:利用估计出的贝叶斯混合模型,生成新的网络数据集(Xalm)',设需要生成的数据量为N’,包括:4-1)随机产生一个0到1之间服从均匀分布的随机数ε;4-2)随机产生服从分布的4-3)计算4-4)随机产生服从分布的4-5)利用估计出的如果ε∈[0,π1],则产生一个服从t分布t(μ1,Λ1,ν1)的样本;如果则产生一个服从t分布t(μk,Λk,νk)的样本;如果则产生一个服从t分布t(μK,ΛK,νK)的样本;4-6)重复上述步骤(4-1)~(4-5)N’次,得到(Xalm)',最终网络故障数据集为合成之后的总数据集为本专利技术具有以下有益效果:1.本专利技术通过产生网络故障数据,很好地解决了网络故障预测任务中出现的非均衡数据的分类、预测不够准确的问题。2.本专利技术利用贝叶斯混合模型建模了网络故障数据的分布,很好地把握该数据的特性,与传统的方法相比,本专利技术所产生的新的网络故障数据更具有代表性和分类上的区分度。3.本专利技术所设计的贝叶斯混合模型可以根据少数类数据自适应地确定最优的模型结构。附图说明图1为本专利技术的方法流程图。图2为本专利技术用贝叶斯混合模型拟合人工产生的样本后的分布图。图3为本专利技术贝叶斯混合模型迭代过程似然值变化曲线。图4为Kmeans-SMOTE方法,GMM过采样方法和本专利技术方法的G值对比。具体实施方式下面结合说明书附图对本专利技术创造作进一步的详细说明。如图1所示,本专利技术提供了一种基于贝叶斯混合模型的网络故障数据合成方法,该方法包括如下步骤:步骤1:设采集到的网络数据集为其中xn的由六个属性组成,分别为丢包率、终端下载速率、传输时延、抖动、视频传输质量、终端用户体验评分;该数本文档来自技高网
...

【技术保护点】
1.一种基于贝叶斯混合模型的网络故障数据合成方法,其特征在于,所述方法如下步骤:步骤1:设采集到的网络数据集为

【技术特征摘要】
1.一种基于贝叶斯混合模型的网络故障数据合成方法,其特征在于,所述方法如下步骤:步骤1:设采集到的网络数据集为其中xn的由六个属性组成,分别为丢包率、终端下载速率、传输时延、抖动、视频传输质量、终端用户体验评分;该数据集对应的标签集合为yn=0或1,即X对应于两类标签,其中yn=0为网络正常类标签,yn=1类为网络故障类标签,由于网络正常类的数据个数远远多于网络故障类的数据个数,定义yn=1对应的xn所组成的集合为少数类其中为少数类样本,Nalm为少数类样本数目,而yi=0对应的xi所组成的集合为多数类其中为多数类样本,Nmaj为多数类样本数目;步骤2:选用贝叶斯混合模型来表示Xalm的分布,其概率分布函数表达式包括:其中,K为混合成分数,πj(V)、μj、Λj和νj分别表示第j个混合成分的权值、均值、协方差矩阵和自由度参数;为t分布的概率密度函数,表示为:其中N(·)和Gam(·)分别代表Gaussian分布函数和Gamma分布函数,unj为与xn和第j个混合成分相关的隐变量,权值πj(V)满足其表达式为:上式中变量Vj服从Beta分布,即p(Vj)=Beta(Vj|1,α),α为该Beta分布的超参数,此外,μj,Λj服从联合Gaussian-Wishart分布,即高斯分布与Wishart分布的乘积,N(·)W(·):p(μj,Λj)=N(μj|mj,λjΛj)W(Λj|Wj,ρj)其中为该联合Gaussian-Wishart分布的超参数,mj为六维列矢量,λj和ρj是标量,Wj为一个(6×6)的矩阵;引入一个隐变量其中zn指示当前的数据xn是由t混合模型中的哪个成分产生的,当xn是由第j个混合成分产生时,znj=1,基于以上所述,整个模型的超参数为:步骤3:利用Xalm对混合模型进行参数估计,具体如下:3-1)产生Nalm个服从[1,K]区间上均匀分布的随机整数,统计该区间上各整数出现的概率;即,如果产生了Nj个整数j,那么δj=Nj/Nalm;对于...

【专利技术属性】
技术研发人员:阴法明杜庆波
申请(专利权)人:南京信息职业技术学院
类型:发明
国别省市:江苏,32

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1