一种基于杜鹃搜索算法的对等网络流量特征选择方法技术

技术编号:10505771 阅读:201 留言:0更新日期:2014-10-08 10:32
本发明专利技术公开了一种基于杜鹃搜索算法的对等网络流量特征选择方法,通过利用杜鹃搜索算法对对等网络流量特征选择问题优化求解,从而可以快速的获得对等网络流量本质属性的最优特征子集,可用于对等网络流量识别和模式识别相关技术领域中。本发明专利技术能够在可接受的时间代价内找到特征选择问题的高质量的可行解,不需要人为指定要选择的特征维数,能够智能的在正确识别率和特征维数之间取得很好的平衡,自动寻找到比较合适的最优特征子集。本发明专利技术利用杜鹃搜索算法对对等网络中原始数据集进行特征选择,剔除不相关或冗余的对等网络流量特征,取出真正相关的特征,节省对等网络流量识别中特征提取的计算时间,从而提高对等网络流量识别的效率和正确率。

【技术实现步骤摘要】

本专利技术属于智能计算、计算机网络和模式识别的交叉应用领域,涉及模式识别方 法在计算机网络,尤其涉及该技术在计算机网络中对等网络流量识别问题,具体涉及一种 基于杜鹃搜索算法的对等网络流量特征选择方法
技术介绍
对等网络技术是无中心服务器、依靠用户群交换信息的互联网体系,是互联网技 术的一个重要分支。与有传统中心服务器的中央网络系统不同,对等网络的每个用户端既 是客户机器也是服务器。目前对等网络技术被广泛应用于军事、商业、政府信息、通讯等众 多领域。美国《财富》杂志称对等网络技术是改变互联网发展的四大新技术之一。据统计 对等网络应用在互联网应用占据80%左右的流量。在对等网络快速发展的同时,由于对等 网络技术本身的特点,对等网络应用对网络运营商的网络质量和用户管理也带来了巨大的 危害。 为了使得对等网络技术更好的为人们生产生活提供更好的服务,有必要对对等网 络流量的进行控制和管理,首先要解决的问题是对等网络流量的识别。在对等网络流量识 别问题中,流量特征的提取和选择对对等网络流量识别有着重大的影响,单一的网络流量 特征通常识别精度不高,而过多的流量特征会增加流量样本特征抽取的工作量;此外过多 的特征会带来维数灾问题,增加分类器的计算时间,降低分类器的性能。所以为了提高对等 网络流量识别的正确率和减少计算工作量,在进行对等网络流量分类识别之前,需要对原 始的数据集进行特征选择,剔除不相关或冗余的对等网络流量特征,尽可能选择出最能代 表网络流量样本属性的特征子集,以提高对等网络流量识别的正确率。特征选择也叫特征 子集选择,是指从已有的Μ个特征中选择N(N小于等于M)个特征使得系统的特定指标最优 化。特征选择是影响分类准确率的最重要的因素之一。实质上对等网络流量特征选择问题 是一个计算时间复杂度为指数级别NP难求解问题,其时间复杂度为0(2 M),M为原始特征个 数。常用的求解算法如分支限界法,回溯法等只能求解规模很小的特征选择问题。实际工 作中,特征选择问题常被视为组合优化问题,采用启发式算法或者最优化方法获得它的近 似最优解。
技术实现思路
杜鹃搜索算法是一种启发式优化算法,具有很强的全局寻优能力,为了解决在对 等网络流量特征问题,本专利技术提出。 本专利技术所采用的技术方案是:一种基于杜鹃搜索算法的对等网络流量特征选择方 法,其特征在于,包括以下步骤: 步骤1 :对获取的网络数据包进行预处理并提取网络流量特征,对网络流量特征 进行归一化处理,得到原始特征样本集,所述的原始特征样本集作为输入数据集; 步骤2 :将输入数据集作为完整的特征空间输入到特征选择算法中; 步骤3 :初始化杜鹃搜索算法所需的参数,得到算法的初始种群; 步骤4:将杜鹃搜索算法中鸟巢的初始空间位置向量解码成相应的特征子集,利 用适应度评价函数计算得到每个特征子集的适应度函数值,比较每个鸟巢的适应度函数 值,并记录和保留当前最优鸟巢位置为A ; 步骤5 :通过杜鹃搜索算法中的位置更新公式更新鸟巢的位置,得到一组新解并 计算其适应度函数值,比较这组解的适应度函数值并记其具有最优适应度函数值的位置为 B ; 步骤6 :用随机数r e [0, 1]与鸟巢的主人发现外来的鸟蛋概率Pa对比,并判断: 若r>pa,则通过列维飞行随机改变鸟巢位置,得到一组新的鸟巢位置,并计算其适 应度函数值,比较这组解的适应度函数值并记其具有最优适应度函数值的位置为C ; 若r < pa,则顺序执行下述步骤7 ; 步骤7 :将位置B和C的适应度函数值与上一代当前最优鸟巢位置A的适应度函 数值进行对比,若更好,则将其作为当前的最优鸟巢位置A ; 步骤8 :判断,是否满足终止条件? 若否,则回转执行所述的步骤5 ; 若是,则解码并输出全局最优鸟巢位置对应的最优特征子集。 作为优选,步骤1中所述的对获取的网络流量包进行预处理,其具体实现过程是 利用网络抓包工具分时段随机抓取一定数量网络数据包并存入样本数据库中,人工分析出 其中对等网络包和普通网络包的数量,对抓取的网络数据包提取网络流量特征。 作为优选,步骤1中所述的对对网络流量特征进行归一化处理,采用的公式为: 本文档来自技高网
...

【技术保护点】
一种基于杜鹃搜索算法的对等网络流量特征选择方法,其特征在于,包括以下步骤:步骤1:对获取的网络数据包进行预处理并提取网络流量特征,对网络流量特征进行归一化处理,得到原始特征样本集,所述的原始特征样本集作为输入数据集;步骤2:将输入数据集作为完整的特征空间输入到特征选择算法中;步骤3:初始化杜鹃搜索算法所需的参数,得到算法的初始种群;步骤4:将杜鹃搜索算法中鸟巢的初始空间位置向量解码成相应的特征子集,利用适应度评价函数计算得到每个特征子集的适应度函数值,比较每个鸟巢的适应度函数值,记录并保留当前最优鸟巢位置为A;步骤5:通过杜鹃搜索算法中的位置更新公式更新鸟巢的位置,得到一组新解并计算其适应度函数值,比较这组解的适应度函数值并记其具有最优适应度函数值的位置为B;步骤6:用随机数r∈[0,1]与鸟巢的主人发现外来的鸟蛋概率pa对比,并判断:若r>pa,则通过列维飞行随机改变鸟巢位置,得到一组新的鸟巢位置,并计算其适应度函数值,比较这组解的适应度函数值并记其具有最优适应度函数值的位置为C;若r≤pa,则顺序执行下述步骤7;步骤7:将位置B和C的适应度函数值与上一代当前最优鸟巢位置A的适应度函数值进行对比,若更好,则将其作为当前的最优鸟巢位置A;步骤8:判断,是否满足终止条件?若否,则回转执行所述的步骤5;若是,则解码并输出全局最优鸟巢位置对应的最优特征子集。...

【技术特征摘要】
1. 一种基于杜鹃搜索算法的对等网络流量特征选择方法,其特征在于,包括以下步 骤: 步骤1 :对获取的网络数据包进行预处理并提取网络流量特征,对网络流量特征进行 归一化处理,得到原始特征样本集,所述的原始特征样本集作为输入数据集; 步骤2 :将输入数据集作为完整的特征空间输入到特征选择算法中; 步骤3 :初始化杜鹃搜索算法所需的参数,得到算法的初始种群; 步骤4:将杜鹃搜索算法中鸟巢的初始空间位置向量解码成相应的特征子集,利用适 应度评价函数计算得到每个特征子集的适应度函数值,比较每个鸟巢的适应度函数值,记 录并保留当前最优鸟巢位置为A ; 步骤5:通过杜鹃搜索算法中的位置更新公式更新鸟巢的位置,得到一组新解并计算 其适应度函数值,比较这组解的适应度函数值并记其具有最优适应度函数值的位置为B ; 步骤6 :用随机数r e [〇, 1]与鸟巢的主人发现外来的鸟蛋概率Pa对比,并判断: 若r>pa,则通过列维飞行随机改变鸟巢位置,得到一组新的鸟巢位置,并计算其适应度 函数值,比较这组解的适应度函数值并记其具有最优适应度函数值的位置为C ; 若r < pa,则顺序执行下述步骤7 ; 步骤7 :将位置B和C的适应度函数值与上一代当前最优鸟巢位置A的适应度函数值 进行对比,若更好,则将其作为当前的最优鸟巢位置A ; 步骤8 :判断,是否满足终止条件? 若否,则回转执行所述的步骤5 ; 若是,则解码并输出全局最优鸟巢位置对应的最优特征子集。2. 根据权利要求1所述的基于杜鹃搜索算法的对等网络流量特征选择方法,其特征在 于:步骤1中所述的对获取的网络流量包进行预处理,其具体实现过程是利用网络抓包工 具分时段随机抓取一定数量网络数据包并存入样本数据库中,人工分析出其中对等网络包 和普通网络包的数量,对抓取的网络数据包提取网络流量特征。3. 根据权利要求1所述的基于杜鹃搜索算法的对等网络流量特征选择方法,其特征在 于:步骤1中所述的对对网络流量特征进行归一化处理,采用的公式为:A'表示特征v的原始...

【专利技术属性】
技术研发人员:叶志伟李沁沄王明威王春枝刘伟陈宏伟徐慧宗欣露尹宇洁喻东阳
申请(专利权)人:湖北工业大学
类型:发明
国别省市:湖北;42

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1