基于t分布混合模型的网络多媒体业务半监督分类方法技术

技术编号:15695195 阅读:189 留言:0更新日期:2017-06-24 10:36
本发明专利技术公开了基于t分布混合模型的网络多媒体业务半监督分类方法,具体包含数据集预处理、t分布聚类过程和分类过程。数据集预处理采集互联网上各种多媒体业务的数据流样本,然后进行预处理操作。t分布聚类过程对上述网络数据流样本执行t分布混合模型或有限t分布混合模型的拟合工作,得到K个多维t分布聚类。分类过程对上述聚类后的结果进一步进行分类,并计算最后分类的总体正确率。本发明专利技术使用t分布混合模型对多媒体业务进行更加精确的拟合,提高了分类的准确度。有限t分布混合模型的EM算法有效地提高了t分布混合模型的收敛速度。实验表明提出的算法有较高的准确率,并且拟合的模型要优于传统的K‑means算法和传统的高斯混合模型的EM算法。

【技术实现步骤摘要】
基于t分布混合模型的网络多媒体业务半监督分类方法
本专利技术属于网络流量分类方法,具体涉及一种基于t分布混合模型的网络多媒体业务半监督分类方法。
技术介绍
近年来,由于网络多媒体业务的不断发展,网络流量的监测管理和网络安全的难度也随之提升。对当前网络进行流量分类和分析能够帮助互联网服务提供商和相关网络管理人员了解当前网络状况,以保障网络的服务质量(QoS,QualityofService)、提高计算机网络的性能。因此,网络流量分类成为当前计算机网络的研究热点。流量分类主要可以分为四种:基于端口号的方式、深度包检测、基于统计的方式和基于行为和机器学习的方式。由于新的网络应用层出不穷,加密传输、动态端口号等技术的出现使得前两种方法对流量分类的准确率大为降低。而单独采用统计的方式只能从宏观角度对流量进行分析,不能规避一些无关的统计特征,导致计算量大。目前通常采用机器学习的方式进行流量分类。关于流量识别的机器学习算法,主要分为有监督分类算法、无监督分类算法和半监督分类算法。半监督分类是有监督分类和无监督分类的结合。由于其结合了已知标签的样本,可以提前获取部分信息,所以被一些算法所采用。部分半监督网络流量分类的算法采用K-means及其改进算法进行分类;部分算法采用EM(ExpectationMaximization)算法并使用高斯混合模型(GMM,GaussianMixtureModel)进行拟合。但是受到数据样本的离群点的影响,这些算法的准确率都偏低。
技术实现思路
为克服以上算法的缺点,本专利技术使用t分布混合模型(TMM,t-distributionMixtureModel)的EM算法对网络流量的数据样本进行拟合,并提出一种有限t分布混合模型(LTMM,Limitedt-distributionMixtureModel),提高了TMM拟合时的收敛速度。实验结果表明,本专利技术对于多媒体网络业务的流量分类,总体正确率可达到97%以上,要优于传统的K-means算法和传统的高斯混合模型的EM算法。为达到上述目的,本专利技术的技术方案为基于t分布混合模型的网络多媒体业务半监督分类方法,具体包含以下步骤:(1)数据集预处理:采集互联网上各种多媒体业务的数据流样本,然后进行预处理操作;(2)t分布聚类过程:对上述网络数据流样本执行t分布混合模型或有限t分布混合模型的拟合工作,得到K个多维t分布聚类;(3)分类过程:对上述聚类后的结果进一步进行分类,并计算最后分类的总体正确率。进一步,上述预处理操作具体包括:(2.1)对数据流样本进行z-score标准化操作,使数据无量纲化;(2.2)特征提取,又包括以下步骤:(2.2.1)根据数据流样本,分别采用信息增益、信息增益率、一致性特征选择方式进行特征选择,提取出相应的特征组合;(2.2.2)对这些特征组合分别进行后续的实验分析,确定算法对应的较好的特征选择方法,提取出有效的特征组合;(2.3)划分已标识样本和未标识样本,采用半监督分类,随机选取一定比例样本作为已标识样本,其余部分作为未标识样本来检测实验效果。作为优选,上述一定比例为10%。上述t分布聚类过程,具体包括:(3.1)为了实现聚类过程,首先需要对数据变量进行初始化,设数据样本为X={x1,...,xN},聚类数为K,包括:(3.1.1)初始化K个聚类中心,记为μ1,...,μK;(3.1.2)初始化混合模型参数π1,...,πK为1/K;(3.1.3)使用协方差公式,计算每个混合模型协方差Σ1,...,ΣK;(3.2)根据μ,Σ和π向量,执行EM算法的E步,具体步骤为:(3.2.1)根据已求的μ,Σ和π参数,使用贝叶斯公式计算t分布模型的后验概率;(3.2.2)如果采用LTMM模型,则需要计算每个样本点到聚类中心的马氏距离,根据t分布的3σ准则确定离群噪声点;(3.3)根据EM算法的M步,更新μ,Σ和π,具体步骤为:(3.3.1)如果采用LTMM模型,则需要在计算M步之前,忽略离群噪声点的影响,否则算法收敛速度较慢;(3.3.2)根据EM算法的M步公式,更新μ,Σ和π;(3.4)计算算法的似然函数L(x),如果第k+1次迭代后计算的似然函数L(k+1)(x)与第k次迭代后的似然函数L(k)(x)的差值小于误差值eps,则算法迭代结束;否则返回步骤3.2。上述t分布混合模型进行拟合包括:(5.1)初始化聚类中心μ、协方差Σ和混合模型权重π;(5.2)执行t分布混合模型的EM算法,更新参数;(5.3)计算EM算法的似然函数,如果第k+1次迭代的似然函数与第k次似然函数之间的差值小于误差值,则算法迭代结束;否则返回步骤5.2。上述有限t分布混合模型进行拟合包括:(6.1)计算E步,根据已求的μ,Σ和π参数,使用贝叶斯公式计算后验概率;(6.2)计算样本点到聚类中心的马氏距离,根据t分布的3σ准则确定离群噪声点;(6.3)忽略离群噪声点的影响,计算M步,更新μ,Σ和π参数。上述分类过程具体分为以下三类:(7.1)聚类后的簇中没有已标识的样本,则这个聚类可视为未知聚类,不在考虑范围内;(7.2)聚类后的簇中已标识的样本的类型仅有一种,则该聚类的所有样本都划分为该类型;(7.3)聚类后的簇中如果含多种已标识的样本类型,则需要进行进一步的多分类过程。上述多分类过程是采用RandomForest进行更细粒度的划分,最后根据结果综合确定分类的准确率。上述多媒体业务的数据流样本包括6种多媒体业务类型,即:在线标清直播视频、在线标清非直播视频、网页浏览、在线音频收听、网页浏览、网络语音聊天。与现有技术相比,本专利技术的有益效果:1、本专利技术采用半监督分类方法对网络多媒体业务进行流量分类,这种方法结合了有监督分类和无监督分类,可以提高网络流量分类的可靠性和有效性。2、本专利技术使用TMM模型对网络数据样本进行拟合,由于t分布的“长尾”特性,能够更好的匹配数据样本的尾部特征,所得到的数据拟合模型将更准确。3、本专利技术提出LTMM模型,在进行流量分类的EM算法时由于忽略了数据样本离群边缘点的影响,可以在尽可能不降低准确率的前提下显著地降低迭代次数。附图说明图1是本专利技术网络多媒体流半监督分类的模型图。图2是图1中预处理部分的流程示意图。图3是图1中t分布聚类部分的流程示意图。图4是本专利技术在不同的聚类数下与现有技术的仿真结果对比图。具体实施方式现结合说明书附图对本专利技术创造作进一步的详细说明。网络流量分布的数据集常用QoS特征进行衡量,包括数据包大小、数据包传输间隔等。为了衡量数据样本的分布情况,可以引入高斯混合模型(GMM)对样本进行拟合。而t分布可以看作高斯分布的拓展。由于其具有“长尾”特性,可以更准确地拟合出数据样本的分布情况。因此,数据样本可以进一步用t分布混合模型(TMM)进行拟合。对于高斯分布,数据样本存在3σ准则,即数据样本如果出现在置信区间(μ-3σ,μ+3σ)外的取值不足0.3%,则样本可以认为是噪声点。t分布由于存在自由度的影响,因此置信区间可以进行修正。当t分布自由度ν=3时,出现在(μ-9.2187σ,μ+9.2187σ)外的取值不足0.3%;当自由度ν=5时,出现在(μ-5.5070σ,μ+5.5070σ)外的取值不足0.3%,即样本本文档来自技高网...
基于t分布混合模型的网络多媒体业务半监督分类方法

【技术保护点】
基于t分布混合模型的网络多媒体业务半监督分类方法,其特征在于包含以下步骤:(1)数据集预处理:采集互联网上各种多媒体业务的数据流样本,然后进行预处理操作;(2)t分布聚类过程:对上述网络数据流样本执行t分布混合模型或有限t分布混合模型的拟合工作,得到K个多维t分布聚类;(3)分类过程:对上述聚类后的结果进一步进行分类,并计算最后分类的总体正确率。

【技术特征摘要】
1.基于t分布混合模型的网络多媒体业务半监督分类方法,其特征在于包含以下步骤:(1)数据集预处理:采集互联网上各种多媒体业务的数据流样本,然后进行预处理操作;(2)t分布聚类过程:对上述网络数据流样本执行t分布混合模型或有限t分布混合模型的拟合工作,得到K个多维t分布聚类;(3)分类过程:对上述聚类后的结果进一步进行分类,并计算最后分类的总体正确率。2.根据权利要求1所述的基于t分布混合模型的网络多媒体业务半监督分类方法,其特征在于所述预处理操作具体包括:(2.1)对数据流样本进行z-score标准化操作,使数据无量纲化;(2.2)特征提取,又包括以下步骤:(2.2.1)根据数据流样本,分别采用信息增益、信息增益率、一致性特征选择方式进行特征选择,提取出相应的特征组合;(2.2.2)对这些特征组合分别进行后续的实验分析,确定算法对应的较好的特征选择方法,提取出有效的特征组合;(2.3)划分已标识样本和未标识样本,采用半监督分类,随机选取一定比例样本作为已标识样本,其余部分作为未标识样本来检测实验效果。3.根据权利要求2所述的基于t分布混合模型的网络多媒体业务半监督分类方法,其特征在于所述一定比例为10%。4.根据权利要求1所述的基于t分布混合模型的网络多媒体业务半监督分类方法,其特征在于所述t分布聚类过程,具体包括:(3.1)为了实现聚类过程,首先需要对数据变量进行初始化,设数据样本为X={x1,...,xN},聚类数为K,包括:(3.1.1)初始化K个聚类中心,记为μ1,...,μK;(3.1.2)初始化混合模型参数π1,...,πK为1/K;(3.1.3)使用协方差公式,计算每个混合模型协方差Σ1,...,ΣK;(3.2)根据μ,Σ和π向量,执行EM算法的E步,具体步骤为:(3.2.1)根据已求的μ,Σ和π参数,使用贝叶斯公式计算t分布模型的后验概率;(3.2.2)如果采用LTMM模型,则需要计算每个样本点到聚类中心的马氏距离,根据t分布的3σ准则确定离群噪声点;(3.3)根据EM算法的M步,更新μ,Σ和π,具体步骤为:(3.3.1)如果采用...

【专利技术属性】
技术研发人员:董育宁赵家杰
申请(专利权)人:南京邮电大学
类型:发明
国别省市:江苏,32

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1