流量数据分类方法及装置制造方法及图纸

技术编号:13114772 阅读:34 留言:0更新日期:2016-04-06 07:12
本发明专利技术公开了一种流量数据分类方法及装置。该方法包括:进行数据包采集,将数据包重组为流,生成流量数据,并根据预先对流量数据中的一部分流量数据进行的业务类型标记,针对每个业务种类,对应形成学习样本,并将流量数据中的剩余部分设置为待分类的流量数据集合;抽取流量数据集合中每条流量数据的公共数值属性特征集合,并将流量数据集合中的流量数据整理成由公共数值属性特征集合构成的流记录;根据学习样本,采用子空间聚类方式对流记录中每个业务种类的公共数值属性特征集合进行计算,并根据计算得到的每个业务种类的公共数值属性特征集合、以及流记录中流量数据的公共数值属性特征集合,对流量数据集合中的流量数据进行业务类型标记。

【技术实现步骤摘要】

本专利技术涉及计算机
,特别是涉及一种流量数据分类方法及装置
技术介绍
在现有技术中,网络流量的业务类型分类具有广泛的使用范围和极高的实用价值。它能够实时地对高带宽,高传输速率的端口中的网络流量数据进行准确的业务类型分类。由于网络中不同的业务类型对网络资源的需求不同,以及人们对不同业务类型的网络流量的管理方式有所不同,所以高效、准确的网络流量业务分类是网络资源管理和流量控制等操作的依据。基于深度报文检测(DeepPacketInspection,简称为DPI)的网络流量分类技术需要依赖对应的业务类型特征库,而特征库的构建本身需要依靠大量人工开销来完成;同时,现有网络流量的业务种类和特征会不断发生着变化和更新。这就导致目前的DPI流量分类技术不能够对网络中新的流量业务特征进行及时更新,因此也就无法对新的业务流量进行识别。
技术实现思路
鉴于现有技术中DPI流量分类技术不能够对网络中新的流量业务特征进行及时更新而导致的更新效率低和准确率易退化的问题,提出了本专利技术以便提供一种流量数据分类方法及装置。本专利技术提供一种流量数据分类方法,包括:在网络汇聚端口进行数据包采集,将数据包按照五元组重组为流,生成流量数据,并根据预先对流量数据中的一部分流量数据进行的业务类型标记,针对每个业务种类,对应形成学习样本,并将流量数据中的剩余部分设置为待分类的流量数据集合;抽取流量数据集合中每条流量数据的公共数值属性特征集合,并将流量数据集合中的流量数据整理成由公共数值属性特征集合构成的流记录;根据学习样本,采用子空间聚类方式对流记录中每个业务种类的公共数值属性特征集合进行计算,并根据计算得到的每个业务种类的公共数值属性特征集合、以及流记录中流量数据的公共数值属性特征集合,对流量数据集合中的流量数据进行业务类型标记。优选地,五元组包括:源网络协议IP地址、目的IP地址、源端口、目的端口、以及传输层协议。优选地,根据学习样本,采用子空间聚类方式对流记录中每个业务种类的公共数值属性特征集合进行计算具体包括:步骤1,对每个公共数值属性的维度均划分出等数量区域单元个数,对每个公共数值属性建立一个对应的一维空间,将每个区域单元按照其对某一业务种类的学习样本的覆盖率进行排序,通过熵值计算模型,计算出区域单元对某一业务种类的学习样本达到的最小覆盖率,将最小覆盖率作为区域单元的密度门限值;步骤2,根据密度门限值,在λ维子空间集合中,删除λ维子空间中覆盖率小于密度门限值的区域单元,将λ维子空间中剩余的区域单元对一业务种类的学习样本的覆盖率进行相加,得到λ维子空间对一类学习样本的覆盖率,其中,λ≥1;步骤3,对当前λ维子空间集合中的每个λ维子空间,按照它们对一业务种类的学习样本的覆盖率进行排序,并采用最短编码长度计算模型,统计出当前λ维子空间集合中,一个λ维子空间对一业务种类的学习样本至少达到的覆盖率,将该至少达到的覆盖率作为λ维子空间的学习样本覆盖率门限值;步骤4,在当前λ维子空间集合中,删除覆盖率小于学习样本覆盖率门限值的子空间,针对当前λ维子空间集合中的每两个λ维子空间,只有当两者仅有一个维度的属性不同才时进行λ+1维子空间的计算,此时先搜索它们各自包含的区域单元,如果两个不同子空间的区域单元在所有相同的维度属性中的区域单元编号均相同,则对两个区域单元包含的学习样本求交集,如果交集不为空则创建对应的λ+1维子空间的新单元,不断循环计算λ+1维子空间的新单元,直到所有的λ维子空间两两均被处理过后停止;步骤5,根据获取的所有λ+1维子空间集合,重复步骤2到步骤4,直到符合预定条件后停止,执行步骤6;步骤6,从维度数最大的子空间集合中,选择样本覆盖率最大的子空间,通过最大区域计算模型,得到对应每个聚类的表达式,将所有聚类结果的表达式用析取范式表示,获取每个业务种类的公共数值属性特征集合。优选地,预定条件为满足以下条件至少之一:当前维度为λ的子空间集合无法合成维度数目为λ+1的子空间;合成之后的新高维度子空间没有覆盖率大于或等于密度门限值的区域单元;当前子空间的维度数目为最大值;对于λ维子空间集合,当前不存在λ维子空间的样本的覆盖率大于等于预定值时。优选地,对每个公共数值属性的维度均划分出等数量区域单元个数具体包括:针对流记录,计算每个业务种类的公共数值属性特征能取到的最大值和最小值,并将最大值和最小值作为公共数值属性的取值范围,并根据取值范围,对每个公共数值属性的维度均划分出等数量区域单元个数,其中,每个区域单元等长。本专利技术还提供了一种流量数据分类装置,包括:采集设置模块,用于在网络汇聚端口进行数据包采集,将数据包按照五元组重组为流,生成流量数据,并根据预先对流量数据中的一部分流量数据进行的业务类型标记,针对每个业务种类,对应形成学习样本,并将流量数据中的剩余部分设置为待分类的流量数据集合;抽取整理模块,用于抽取流量数据集合中每条流量数据的公共数值属性特征集合,并将流量数据集合中的流量数据整理成由公共数值属性特征集合构成的流记录;计算标记模块,用于根据学习样本,采用子空间聚类方式对流记录中每个业务种类的公共数值属性特征集合进行计算,并根据计算得到的每个业务种类的公共数值属性特征集合、以及流记录中流量数据的公共数值属性特征集合,对流量数据集合中的流量数据进行业务类型标记。优选地,五元组包括:源网络协议IP地址、目的IP地址、源端口、目的端口、以及传输层协议。优选地,计算标记模块具体包括:第一处理子模块,用于对每个公共数值属性的维度均划分出等数量区域单元个数,对每个公共数值属性建立一个对应的一维空间,将每个区域单元按照其对某一业务种类的学习样本的覆盖率进行排序,通过熵值计算模型,计算出区域单元对某一业务种类的学习样本达到的最小覆盖率,将最小覆盖率作为区域单元的密度门限值;第二处理子模块,用于根据密度门限值,在λ维子空间集合中,删除λ维子空间中覆盖率小于密度门限值的区域单元,将λ维子空间中剩余的区域单元对一业务种类的学习样本的覆盖率进行相加,得到λ维子空间对一类学习样本的覆盖率,其中,λ≥1;第三处理子模块,用于对当前λ维子空间集合中的每个λ维子空间,按照它们对一业务种类的学习样本的覆盖率进行排序,并采用最短编码长度计算模型,统计出当前λ维子空间集合中,一个λ维子本文档来自技高网...

【技术保护点】
一种流量数据分类方法,其特征在于,包括:在网络汇聚端口进行数据包采集,将所述数据包按照五元组重组为流,生成流量数据,并根据预先对所述流量数据中的一部分流量数据进行的业务类型标记,针对每个业务种类,对应形成学习样本,并将所述流量数据中的剩余部分设置为待分类的流量数据集合;抽取所述流量数据集合中每条流量数据的公共数值属性特征集合,并将所述流量数据集合中的流量数据整理成由所述公共数值属性特征集合构成的流记录;根据所述学习样本,采用子空间聚类方式对所述流记录中每个业务种类的公共数值属性特征集合进行计算,并根据计算得到的每个业务种类的公共数值属性特征集合、以及所述流记录中流量数据的公共数值属性特征集合,对所述流量数据集合中的流量数据进行业务类型标记。

【技术特征摘要】
1.一种流量数据分类方法,其特征在于,包括:
在网络汇聚端口进行数据包采集,将所述数据包按照五元组重组为流,生
成流量数据,并根据预先对所述流量数据中的一部分流量数据进行的业务类型
标记,针对每个业务种类,对应形成学习样本,并将所述流量数据中的剩余部
分设置为待分类的流量数据集合;
抽取所述流量数据集合中每条流量数据的公共数值属性特征集合,并将所
述流量数据集合中的流量数据整理成由所述公共数值属性特征集合构成的流
记录;
根据所述学习样本,采用子空间聚类方式对所述流记录中每个业务种类的
公共数值属性特征集合进行计算,并根据计算得到的每个业务种类的公共数值
属性特征集合、以及所述流记录中流量数据的公共数值属性特征集合,对所述
流量数据集合中的流量数据进行业务类型标记。
2.如权利要求1所述的方法,其特征在于,所述五元组包括:源网络协议
IP地址、目的IP地址、源端口、目的端口、以及传输层协议。
3.如权利要求1所述的方法,其特征在于,根据所述学习样本,采用子
空间聚类方式对所述流记录中每个业务种类的公共数值属性特征集合进行计
算具体包括:
步骤1,对每个公共数值属性的维度均划分出等数量区域单元个数,对每
个公共数值属性建立一个对应的一维空间,将每个区域单元按照其对某一业务
种类的学习样本的覆盖率进行排序,通过熵值计算模型,计算出区域单元对某
一业务种类的学习样本达到的最小覆盖率,将所述最小覆盖率作为区域单元的
密度门限值;
步骤2,根据所述密度门限值,在λ维子空间集合中,删除λ维子空间
中覆盖率小于所述密度门限值的区域单元,将λ维子空间中剩余的区域单元
对一业务种类的学习样本的覆盖率进行相加,得到λ维子空间对一类学习样

\t本的覆盖率,其中,λ≥1;
步骤3,对当前λ维子空间集合中的每个λ维子空间,按照它们对一业
务种类的学习样本的覆盖率进行排序,并采用最短编码长度计算模型,统计出
当前λ维子空间集合中,一个λ维子空间对一业务种类的学习样本至少达到
的覆盖率,将该至少达到的覆盖率作为λ维子空间的学习样本覆盖率门限值;
步骤4,在当前λ维子空间集合中,删除覆盖率小于所述学习样本覆盖率
门限值的子空间,针对当前λ维子空间集合中的每两个λ维子空间,只有当
两者仅有一个维度的属性不同才时进行λ+1维子空间的计算,此时先搜索它
们各自包含的区域单元,如果两个不同子空间的区域单元在所有相同的维度属
性中的区域单元编号均相同,则对两个区域单元包含的学习样本求交集,如果
交集不为空则创建对应的λ+1维子空间的新单元,不断循环计算λ+1维子空
间的新单元,直到所有的λ维子空间两两均被处理过后停止;
步骤5,根据获取的所有λ+1维子空间集合,重复步骤2到步骤4,直到
符合预定条件后停止,执行步骤6;
步骤6,从维度数最大的子空间集合中,选择样本覆盖率最大的子空间,
通过最大区域计算模型,得到对应每个聚类的表达式,将所有聚类结果的表达
式用析取范式表示,获取每个业务种类的公共数值属性特征集合。
4.如权利要求3所述的方法,其特征在于,预定条件为满足以下条件至
少之一:
当前维度为λ的子空间集合无法合成维度数目为λ+1的子空间;
合成之后的新高维度子空间没有覆盖率大于或等于所述密度门限值的区
域单元;
当前子空间的维度数目为最大值;
对于λ维子空间集合,当前不存在λ维子空间的样本的覆盖率大于等于
预定值时。
5.如权利要求3所述的方法,其特征在于,对每个公共数值属性的维度

\t均划分出等数量区域单元个数具体包括:
针对所述流记录,计算每个业务种类的公共数值属性特征能取到的最大值
和最小值,并将所述最大值和所述最小值作为公共数值属性的取值范围,并根
据所述取值范围,对每个公共数值属性的维度均划分出等数量区域单元个数,
其中,每个区域单元等长。
6.一种流量数据...

【专利技术属性】
技术研发人员:吴少勇喻敬海王延松吴春明
申请(专利权)人:中兴通讯股份有限公司
类型:发明
国别省市:广东;44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1