一种面向因特网不平衡应用流的分类方法技术

技术编号:10537316 阅读:111 留言:0更新日期:2014-10-15 14:45
本发明专利技术公开一种面向因特网不平衡应用流的分类方法,在对所收集的流量数据报文已完成组流、流统计特征值计算和类别标记,获得流样本以及流量数据集的基础上,通过聚簇算法划分数据集,形成多个密集且不相交的子集;针对子集流样本特征值,利用插值法扩充小类流样本;根据当前子集流样本间的近邻关系和流样本字节数制定大类流样本的欠采样规则;基于显式考虑集成多样性的boosting-style集成学习算法逐个训练集成分类模型;判断测试集流样本与各训练子集聚簇中心的距离,选择距离最近的聚簇中心所对应的集成分类模型分类流样本,并输出其所属的应用类别。本发明专利技术促成分类模型在不降低大类分类准确率的情况下,提高小类分类准确率和总体字节分类准确率。

【技术实现步骤摘要】
【专利摘要】本专利技术公开,在对所收集的流量数据报文已完成组流、流统计特征值计算和类别标记,获得流样本以及流量数据集的基础上,通过聚簇算法划分数据集,形成多个密集且不相交的子集;针对子集流样本特征值,利用插值法扩充小类流样本;根据当前子集流样本间的近邻关系和流样本字节数制定大类流样本的欠采样规则;基于显式考虑集成多样性的boosting-style集成学习算法逐个训练集成分类模型;判断测试集流样本与各训练子集聚簇中心的距离,选择距离最近的聚簇中心所对应的集成分类模型分类流样本,并输出其所属的应用类别。本专利技术促成分类模型在不降低大类分类准确率的情况下,提高小类分类准确率和总体字节分类准确率。【专利说明】-种面向因特网不平衡应用流的分类方法
本专利技术属于因特网流量测量的流量分类
,尤其涉及面向因特网不平衡应 用流的分类方法。
技术介绍
近年来,因特网接入技术和接入设备的不断发展促进了因特网用户规模的迅 速扩张。因特网网络应用的快速增加使因特网流量迅猛增长。自1999年以来,随着 P2P (Peer-to-Peer)架构的出现,P2P文件共享、流媒体等应用获得广泛使用。据第32次《中 国互联网络发展状况统计报告》,截至2013年6月,网络视频应用的半年增长率为4. 5%,达 到3. 89亿人,使用率为65. 8%。因特网流量因重型应用(heavy hitters)的发展而急剧 增长,造成网络带宽资源的过度消耗,引起网络拥塞甚至引发丢包,直接影响网络应用的服 务质量(Quality of Service, QoS)和用户体验。因特网服务提供商(Internet service providers,ISP)可采取一系列措施对网络流量(例如P2P)实施控管,以提高网络应用的 QoS。此外,基础设施的部署和管理成本在大幅度增加,但是ISP的收益并没有成比例增长; ISP希望高效利用有限的带宽资源,实行经济效益和社会效益都较优的网络计费等。对因特 网流量的管理、控制、计费和分析等都建立在因特网流量所属应用类别的识别和分类基础 之上。 因特网流量分类属于流量测量范畴,是识别网络IP报文所属应用类别(WEB、MAIL 或P2P)的过程。目前,已有大量的因特网流量分类方法被提出。端口号映射法直接根据熟 知端口号与网络应用的对应关系进行分类,例如80识别WWW,25端口识别SMTP。但是,随着 新型网络应用(P2P、被动FTP等)采用动态端口号、端口伪装技术等,此方法逐渐失效。随 后,深度报文载荷检测方法被提出,该方法提取每种网络应用独特的载荷特征字段,并通过 特征字段匹配操作实现报文分类,例如L7-filter。但是,该方法是对报文载荷部分进行操 作,不仅计算开销较大,而且涉及隐私纠纷等问题;随着报文载荷加密技术的广泛应用,该 方法的可用性逐渐下降。目前,基于统计特征的机器学习方法成为因特网流量分类的研究 热点之一。统计特征可以不依赖于端口号、报文载荷,而且对模糊化(obfuscation)技术更 鲁棒。 因特网流量数据具有显著不平衡性,即一种大类的应用流的数目远远大于小类应 用流。例如,在 Moore 等人(A.W. Moore, D. Zuev. Internet traffic classification using bayesian analysis techniques. Proceedings of the ACM SIGMETRICS, 2005)共享的流 量数据集中,WEB流数目占据大概70 %,部分小类应用类别的流数目却占据不到2 %。而大 多机器学习算法假设各类别样本数服从均匀分布,且以高总体分类准确率为优化目标,导 致分类器往往偏向于正确分类对总体分类准确率贡献较大的大类流量而忽略小类流量的 分类性能。例如,Moore等人采用朴素贝叶斯算法分类因特网流量,获得96%以上的总体 分类准确率,但是某些小类P2P/ATTACK仅获得36. 45/13. 46的召回率;Li等人(W. Li,M. Canini, A. ff. Moore, et al. Efficient application identification and the temporal and spatial stability of classification schema. Computer Networks, 2009)分析 C4. 5 决 策树分类方法在流量分类中的时空鲁棒性,他们的实验结果取得高达99%的总体分类准确 率,但是小类ATTACK和GAMES的召回率却仅有8. 57 %和40% ;最近Zhang等人(张宏莉, 鲁刚.分类不平衡协议流的机器学习算法评估与比较.软件学报,2012)比较分析多种分 类算法在分类不平衡协议流的分类性能,实验结果表明,采用集成学习 Bagging算法,总体 分类准确率达到95%以上,但XUNLEI/SMTP等小类应用的召回率却几乎为0%。 此外,当拥有少量应用流的小类拥有大量字节数的时候,流量分类器往往获得高 的总体流分类准确率而较低的总体字节分类准确率。Erman等人(J. Erman, A. Mahanti, M. Arlitt. Byte me:A case for byte accuracy in traffic classification. Proceedings of the 3rd annual ACM workshop on Mining network data. 2007)也特别强调了字节 分类准确率的重要性。以卡尔加里大学采集的流量数据为例,除前〇. 1%的大流之外的所 有应用流均能被正确分类时,分类器能获得99. 9%的流分类准确率,但是字节错误率却高 达 46%。最近,Jin 等人(Y. Jin, N. Duffield,J. Erman, et al. Amodular machine learning system for flow-level traffic classification in large networks. ACM Transactions on Knowledge Discovery from Data, 2012)在某大型ISP网络采集的流量数据集上,采用 AdaBoost分类算法,字节分类准确率比流分类准确率低17. 96%;字节错误率在用户主机的 分布情况表明,字节错误率主要集中于少量的终端节点;如果这种分类结果用于流量管制, 用户可能受到不公平的惩罚。 上述研究结果表明,基于机器学习的流量分类方法尽管能获得95%以上的总体 流分类准确率,但是小类应用的分类准确率极低(通常小于20% ),总体字节分类准确 率也不理想。高的总体流分类准确率造成高流量分类性能的"假象"。基于机器学习的 流量分类方法仍面临复杂的多类不平衡问题。于此,大多采取随机欠采样方法取得数据 的平衡,即从每种流量记录中随机选择相同数目的流样本构成均匀分布的训练集,从而 提高各种类别的分类准确率。Zhong 等人(W.C.Zhong, B.Raahemi,J.Liu. Learning on cla本文档来自技高网...

【技术保护点】
一种面向因特网不平衡应用流的分类方法,在对所收集的流量数据报文已完成五元组{源IP、目标IP、源端口号、目标端口号、传输层协议}组流、流特征值计算和类别标记,且已获得由特征向量描述的流样本及流量数据集的基础上;其特征在于包括如下步骤:步骤一,利用k‑means算法将数据集划分为多个密集且不相交的子集,每个子集包含一个聚簇中心;步骤二,针对步骤一所得子集,按过采样比例扩充小类流样本;步骤三,针对步骤二获得的子集,制定启发式规则欠采样大类流样本;步骤四,步骤三获得的子集作为训练集,离线训练k个集成分类模型;步骤五,联合k个集成分类模型对测试流样本进行分类。

【技术特征摘要】

【专利技术属性】
技术研发人员:刘琼刘珍
申请(专利权)人:华南理工大学
类型:发明
国别省市:广东;44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1