【技术实现步骤摘要】
基于特征选择方法的网络浏览与视频分类方法
本专利技术涉及模式识别与分类
,特别涉及一种基于特征选择方法的网络浏览与视频分类方法。
技术介绍
网络业务流的准确识别在网络管理、云计算和大数据中心架构、QoS保障等方面扮演着不可或缺的角色。随着基于HTTP的网络业务(如网页浏览、网络音频、视频等)的不断增长,网络业务流识别与分类面临这巨大的挑战。基于HTTP协议的网页不再是简单的静态文本,而是包含着大量的图片、视频的信息载体,以及承载着各种各样应用的网络平台。随着云计算的兴起,基于HTTP协议的浏览器也为任何设备访问云端数据提供了一种快捷的手段。丰富的网络应用、方便的访问方式极大地提高了用户体验质量,但也给网络流识别与分类带来了巨大的挑战。传统的分类方法主要有基于端口的方法和基于有效负载的方法。基于端口的方法主要是根据互联网数字分配机构(IANA)建议的端口映射来区分不同的网络应用。但是由于动态端口号和基于HTTP隧道技术的广泛使用,导致基于端口号的分类方法变得不再可靠,识别率降低和分类的准确率不高。为了克服基于端口号的方法的缺点,研究人员提出了基于有效负载的方法 ...
【技术保护点】
基于新型特征选择方法的网络浏览与视频分类方法,其特征在于,所述方法包括如下步骤:步骤1:在互联网环境中使用网络数据包获取工具获得实验数据,在数据量过大的情况下,对数据包采样,然后对数据包进行过滤,最后计算这些网络业务流的统计特征;步骤2:对业务流的统计特征进行分析,并进行特征筛选;步骤3:获得统计特征作为表示业务流的特征向量,然后利用K近邻分类器(K表示分类器的未知参数)对未知业务流进行分类,得到分类结果。
【技术特征摘要】
1.基于特征选择方法的网络浏览与视频分类方法,其特征在于,所述方法包括如下步骤:步骤1:在互联网环境中使用网络数据包获取工具获得实验数据,在数据量过大的情况下,对数据包采样,然后对数据包进行过滤,最后计算这些网络业务流的统计特征;步骤1-1:通过网络数据包分析工具wireshark进行网页浏览和网络视频业务流的数据获取,然后对获取的数据进行格式处理,转换成标准的五元组格式,即数据包到达时间、源IP地址、目的IP地址、协议、数据分组大小;步骤1-2:数据包采样不是一个必不可少的过程,由于网络中获取的数据量非常大,如果直接对如此庞大的数据进行特征计算,势必会造成巨大的计算资源耗费,此时对数据包进行采样处理以降低分类器的处理压力;步骤1-3:数据包过滤是指对滤除不感兴趣并且不会对分类结果产生影响的数据包;步骤1-4:利用gawk和perl文本处理工具对标准五元组网络流数据进行处理获得网络业务流的统计特征,即下/上行包大小的信息熵、包到达时间间隔的最大/最小值/均值/方差、数据包大小的三阶中心矩、下行字节速率统计特征;步骤2:对业务流的统计特征进行分析,并进行特征筛选;步骤2-1:对所有业务流的的统计特征值进行离散化操作,以降低在特征选择过程中的计算复杂度;步骤2-2:计算每类业务的每个特征的变异系数IN_CVij,表示第i类业务的第j个特征的变异系数;其中,变异系数描述了一组数据相对于均值的标准偏差,是反映数据离散程度的统计量,变异系数可以反映数据的变化程度,变异系数越...
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。