一种高效网络报文分类方法技术

技术编号:15938878 阅读:65 留言:0更新日期:2017-08-04 21:45
本发明专利技术公开了一种高效网络报文分类方法,其基于决策树的分类方法结构简单,易形成规则,效率高,不需额外知识,适用于数据量较大、数据格式多样的情况,尤其对于实时报文分类这种对速度要求较高的系统,采用决策树方法是合理的选择,本发明专利技术提出的基于信息熵的决策树算法也是基于启发式策略,是多叉层次树基础上的一种改进,在层次树中,本发明专利技术顺序的根据头部位信息来确定其所属的规则子集,这样易形成规则子集划分均匀的现象,根据对具体规则库的观察,发现若从中抽取几位最具区分意义的位,基于这些位的熵值特性,得出具有较大熵值增益的位,则能够将规则均衡的划分到子集中去,从而减少最坏情况的复杂度。

An efficient network packet classification method

The invention discloses an efficient network packet classification method, the classification method based on decision tree has the advantages of simple structure, high efficiency, easy to form rules, without additional knowledge, suitable for a large amount of data and diverse data formats, especially for real-time packet classification system for the speed of high degree, using decision tree method is a reasonable choice, the decision tree based on information entropy algorithm is based on heuristic strategy, an improved binary hierarchy tree based on hierarchy tree, in order according to the invention, the head position information to determine the set of rules, it is easy to form uniform rules of subset partition phenomenon according to the observation, specific rules, if extracted from several of the most distinguished significance, these characteristics based on the entropy obtained with larger entropy gain. Bits can then divide the rules into subsets to reduce the worst-case complexity.

【技术实现步骤摘要】
一种高效网络报文分类方法
本专利技术涉及一种高效网络报文分类方法,属于计算机网络

技术介绍
计算机网络正处于蓬勃发展的时期,网络速度不断提高,用户数量急剧增长,同时,Internet服务也开始由原先的尽力服务(best-effortservice)向QoS(qualityofservice)发展,网络设备(路由器、交换机等)的功能必须由原先单纯的转发分组提升到具有内容知晓(content-awareness)的能力,而分组分类则是其中重要的一环。许多网络关键技术,如虚拟专用网(VPNs)、网络地址转换(NAT)、防火墙、网络入侵检测(IDS)、QoS、拥塞控制、组播等都涉及到分组分类。因此,分组分类速度的快慢、功能的强弱将直接影响到许多网络技术的性能,并且对下一代网络及其服务质量有关键性的影响。并且,分组分类是现今网络研究的重要议题之一。纵观分类算法的发展趋势,基于算法在时间和空间复杂度上的限制,启发式策略一般具有较快的速度,同时在应用上也具有较好的前景。经典的启发式算法都是对规则头部进行范围切割,在切割中,采取即定的启发式策略,尽量达到规则分布的均衡性,从而能在时间和空间复杂度上更好的折衷平衡。启发式算法的共同点是采取某种策略,以把规则均匀的分布到子集中去,本方案即是根据启发式策略来实现。
技术实现思路
本专利技术针对现有的技术问题,提供一种高效网络报文分类方法,目的是使得网络报文更加直观简单易实现,预处理开销小,并具有更佳的效果,拟解决现有技术存在的问题。为实现上述目的,本专利技术提供如下技术方案:一种高效网络报文分类方法,其特征在于,该方法采用基于信息熵的决策树算法来实现,具体方法是,在选取规则子集时,确定阀方法是,在多叉层次树中,根据具体规则库,按照熵值特性,从中抽取若干位具有区分性质的位,即选取最大熵值增益的位,将其规则均衡的划分到子集中去,从而确定其所属的规则子集。进一步,作为优选,基于信息熵的决策树建立的方法具体为:(i)将全体规则集作为根节点;(ii)对五元组的每一位,计算其信息熵增益;(iii)选择熵值增益最大的前n个特征位组合作为决策分支属性;(iv)把与决策属性处取值相同的规则归于同一子集,作为下一层节点,建立子节点;(v)若叶子节点中规则数目不大于叶子节点阈值,则划分停止,如果叶子节点中规则数目大于叶子节点阈值,则返回步骤(ii),直至叶子节点中规则数目不大于叶子节点阈值。进一步,作为优选,在所述步骤(ii)中,在104位中任选n位,有中选择方法,对每一种选择,分别计算信息熵增益值,再在其中选择增益最大的一种作为决策属性,其中,n为给定决策位的数目。进一步,作为优选,最大熵值增益要求是:规则头部中每一位的取值集合为{0,1,*},将规则均匀的分布到各个Ui中去,可以这样选择:选择min{0值个数,1值个数}作为信息熵增益的近似度量,其中,0值个数是规则库中某特定位为0的规则个数,1值个数是规则库中某特定位为1的规则个数。进一步,作为优选,该方法采用降维的方法,其对每维单独建立Entro-Trie,处理的结果以位向量的形式存放,并以ABV方式聚累增加速度,对每维的结果取与操作得到最终结果。与现有技术相比,本专利技术的有益效果是:本专利技术基于决策树的分类方法结构简单,易形成规则,效率高,不需额外知识,适用于数据量较大、数据格式多样的情况,尤其对于实时报文分类这种对速度要求较高的系统,采用决策树方法是合理的选择。本专利技术提出的基于信息熵的决策树算法也是基于启发式策略(为方便表述,以下都称为Entro-Trie算法),是多叉层次树基础上的一种改进,在层次树中,本专利技术顺序的根据头部位信息来确定其所属的规则子集,这样易形成规则子集划分不均匀的现象,根据对具体规则库的观察,发现若从中抽取几位最具区分意义的位,基于这些位的熵值特性,把它叫做具有较大熵值增益的位,则能够将规则均衡的划分到子集中去,从而减少最坏情况的复杂度。相比较多叉层次树而言,本专利技术改进的优点是:(1)只需选用若干具有较大区分性质的位进行划分,就能将规则均匀分割到各个子集中去,节省了空间。(2)因为规则在各子集中分布比较均匀,查找时访问内存次数相对固定,加快了平均访问时间,并使访问时间具有有鲁棒性。(3)规则可能是带任意位的前缀,基于本专利技术在求最大熵值增益位时所采取的策略,能够较大改善规则在各个子集中的重复度,这有两重意义,一方面减少了算法空间需求,另一方面也减少了叶结点中线性搜索的时间。与其他启发式方法如HiCut和HyperCut相比,本专利技术的方法直观简单易实现,预处理开销小,并具有相近的效果。算法支持增量更新,以及结构重组,即在多次增量更新后,算法的效率会受到影响,可在某个空闲时间进行一次结构重组,提高效率。本方法中所解决的主要是中小型规则库的匹配问题,对于规则规模在10k以下的中小规则库,算法的空间要求不大,并具有较快的分类速度。若规则库的规模进一步增大,可以与ABV算法结合来解决可扩展问题,即采用降维的方法,其思想是对每维单独建立Entro-Trie,处理的结果以位向量的形式存放(并以ABV方式聚累增加速度),对每维的结果取与操作得到最终结果,这种方法扩展性较好,随着规则数的增加对查找时间影响不大,适用于大规模的规则。附图说明图1是本专利技术的某BGP表中的前缀分布情况;图2是本专利技术的递归分析示意图;图3可变长Trie递归关系图;图4决策树建立流程图;图5报文搜索匹配流程图;图6叶结点阀值对树结点数的影响;图7决策位长度对树结点数的影响。具体实施方式下面将结合本专利技术实施例中的附图,对本专利技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本专利技术一部分实施例,而不是全部的实施例。基于本专利技术中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本专利技术保护的范围。请参阅图1-7,本专利技术的原理如下:本专利技术决策树方法通过选择最大熵增益的属性作为分类属性,从而使总体中的同层子类具有相近程度的不确定性,即分布上的均衡性,从而达到树的深度较小,平均速度较快的特点。本专利技术算法的思想与决策树思想是契合的,只是本专利技术在选择分类属性时根据实际规则库的特点和实现的简易性,选取了较为灵活的方案。现今的大多数应用中,一般根据报文的五元组信息来进行分类,总共有104位,基于空间的要求,只能选取几位来作为决策属性,如何使选出的几位具有最大熵值增益特性,是应用本算法的关键问题。若严格按决策树的方法来衡量,计算量太大,在应用中不具有可行性,下节本专利技术将具体说明本算法所选取的近似解决方案。应用决策树方法所要达到的要求是:²所占用的空间少²对应每个叶子节点的深度最小这两个要求是矛盾的。当叶子节点的最大深度为1时,决策树将退化为表的形式,这种情况是要建立一个有104位地址的表,则表的空间大小是2104个单位,虽然在这种情形下具有最快的速度(只需要一次访存就可以找到匹配的规则),但所耗空间太大,不具可行性。若每次以一位作为决策属性,则树的深度为104位(即每次匹配需要104次访问内存),虽然此时算法需要的空间较小(大约是规则数目的两倍),但由于时间因素,不具可行性。所以在分类算法中,树的深度和访存次数是两个矛盾的要求,对本文档来自技高网...
一种高效网络报文分类方法

【技术保护点】
一种高效网络报文分类方法,其特征在于,该方法采用基于信息熵的决策树算法来实现,具体方法是,在选取规则子集时,确定阀方法是,在多叉层次树中,根据具体规则库,按照熵值特性,从中抽取若干位具有区分性质的位,即选取最大熵值增益的位,将其规则均衡的划分到子集中去,从而确定其所属的规则子集。

【技术特征摘要】
1.一种高效网络报文分类方法,其特征在于,该方法采用基于信息熵的决策树算法来实现,具体方法是,在选取规则子集时,确定阀方法是,在多叉层次树中,根据具体规则库,按照熵值特性,从中抽取若干位具有区分性质的位,即选取最大熵值增益的位,将其规则均衡的划分到子集中去,从而确定其所属的规则子集。2.根据权利要求1所述的一种高效网络报文分类方法,其特征在于:基于信息熵的决策树建立的方法具体为:(i)将全体规则集作为根节点;(ii)对五元组的每一位,计算其信息熵增益;(iii)选择熵值增益最大的前n个特征位组合作为决策分支属性;(iv)把与决策属性处取值相同的规则归于同一子集,作为下一层节点,建立子节点;(v)若叶子节点中规则数目不大于叶子节点阈值,则划分停止,如果叶子节点中规则数目大于叶子节点阈值,则返回步骤(ii),直至叶子节点中规则数目不大于叶子节点阈值。...

【专利技术属性】
技术研发人员:董小明陈卓钱萌
申请(专利权)人:安庆师范大学
类型:发明
国别省市:安徽,34

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1