一种面向因特网不平衡应用流的分类方法技术

技术编号：10537316 阅读：111 留言：0更新日期：2014-10-15 14:45

本发明专利技术公开一种面向因特网不平衡应用流的分类方法，在对所收集的流量数据报文已完成组流、流统计特征值计算和类别标记，获得流样本以及流量数据集的基础上，通过聚簇算法划分数据集，形成多个密集且不相交的子集；针对子集流样本特征值，利用插值法扩充小类流样本；根据当前子集流样本间的近邻关系和流样本字节数制定大类流样本的欠采样规则；基于显式考虑集成多样性的boosting-style集成学习算法逐个训练集成分类模型；判断测试集流样本与各训练子集聚簇中心的距离，选择距离最近的聚簇中心所对应的集成分类模型分类流样本，并输出其所属的应用类别。本发明专利技术促成分类模型在不降低大类分类准确率的情况下，提高小类分类准确率和总体字节分类准确率。

全部详细技术资料下载

【技术实现步骤摘要】
【专利摘要】本专利技术公开，在对所收集的流量数据报文已完成组流、流统计特征值计算和类别标记，获得流样本以及流量数据集的基础上，通过聚簇算法划分数据集，形成多个密集且不相交的子集；针对子集流样本特征值，利用插值法扩充小类流样本；根据当前子集流样本间的近邻关系和流样本字节数制定大类流样本的欠采样规则；基于显式考虑集成多样性的boosting-style集成学习算法逐个训练集成分类模型；判断测试集流样本与各训练子集聚簇中心的距离，选择距离最近的聚簇中心所对应的集成分类模型分类流样本，并输出其所属的应用类别。本专利技术促成分类模型在不降低大类分类准确率的情况下，提高小类分类准确率和总体字节分类准确率。【专利说明】-种面向因特网不平衡应用流的分类方法
本专利技术属于因特网流量测量的流量分类
，尤其涉及面向因特网不平衡应用流的分类方法。
技术介绍
近年来，因特网接入技术和接入设备的不断发展促进了因特网用户规模的迅速扩张。因特网网络应用的快速增加使因特网流量迅猛增长。自1999年以来，随着 P2P (Peer-to-Peer)架构的出现，P2P文件共享、流媒体等应用获得广泛使用。据第32次《中国互联网络发展状况统计报告》，截至2013年6月，网络视频应用的半年增长率为4. 5%，达到3. 89亿人，使用率为65. 8%。因特网流量因重型应用（heavy hitters)的发展而急剧增长，造成网络带宽资源的过度消耗，引起网络拥塞甚至引发丢包，直接影响网络应用的服务质量（Quality of Service, QoS)和用户...

【技术保护点】
一种面向因特网不平衡应用流的分类方法，在对所收集的流量数据报文已完成五元组{源IP、目标IP、源端口号、目标端口号、传输层协议}组流、流特征值计算和类别标记，且已获得由特征向量描述的流样本及流量数据集的基础上；其特征在于包括如下步骤：步骤一，利用k‑means算法将数据集划分为多个密集且不相交的子集，每个子集包含一个聚簇中心；步骤二，针对步骤一所得子集，按过采样比例扩充小类流样本；步骤三，针对步骤二获得的子集，制定启发式规则欠采样大类流样本；步骤四，步骤三获得的子集作为训练集，离线训练k个集成分类模型；步骤五，联合k个集成分类模型对测试流样本进行分类。

【技术特征摘要】

【专利技术属性】
技术研发人员：刘琼，刘珍，
申请(专利权)人：华南理工大学，
类型：发明
国别省市：广东;44

全部详细技术资料下载我是这个专利的主人