一种基于本体知识推理的并行网络流量分类方法技术

技术编号:14548629 阅读:65 留言:0更新日期:2017-02-04 20:53
本发明专利技术为一种基于本体知识推理的并行网络流量分类方法,步骤为:Ⅰ、利用决策树算法训练已标记应用类型的网络流量训练样本集,建立网络流量的决策树分类模型,并将其转化成推理规则集;Ⅱ、采用Jena工具包将推理规则集构造成推理机,借助MapReduce并行计算框架,调用推理机进行并行知识推理,挖掘出网络流量本体中网络流量实例和网络应用类型的对应关系,对网络流量实例标记网络应用类型,完成网络流量分类。本发明专利技术引入并行处理技术MapReduce,以云计算为网络流量本体知识推理的存储和计算资源,对网络流量实例进行并行化分类,有效提高分类效率;结合机器学习和本体知识推理,构建推理规则集,直接针对网络流量本体中的流量实例进行有效分类。

【技术实现步骤摘要】

本专利技术涉及网络管理
,具体为一种基于本体知识推理的并行网络流量分类方法
技术介绍
随着Web技术的迅猛发展和企业信息化需求的不断提高,许多新型网络应用模式和应用需求应运而生,随之而来的网络流量数据也呈现出爆炸性增长,给网络监管带来前所未有的挑战,也使得用户对网络流量进行精细化管理的需求越来越强烈。作为管理和优化各类网络资源的关键技术,网络流量分类广泛应用于网络监控、QoS(QualityofService,服务质量)管理、网络安全、态势分析等领域,是高效实现网络管理、流量控制以及安全检测的重要环节。网络流量分类是指在基于TCP/IP协议的互联网中,按照网络的应用类型(例如WWW、FTP、MAIL、P2P等),将网络通信产生的双向TCP流量或UDP流量进行分类。近年来许多研究人员将注意力转向了基于网络流量统计特征的机器学习分类方法,根据流量的某些属性(如平均包长、平均包间隔时间等)的统计信息,采用机器学习方法对流量进行分类,该方法不受动态端口、载荷加密及网络地址转换的影响。目前网络流量分类较为广泛使用的机器学习方法主要有:贝叶斯、神经网络、支持向量机和决策树等。剑桥大学Moore的网络流量分类方法研究主要是Bayes及其改进方法的研究。CharalamposRotsos和Moore等引入半监督流量分类方法训练分类器,采用NB和核估计NB两种算法对分类器进行建模,实验结果表明该r>方法能比传统方法取得更高分类性能。但是此类算法是基于概率统计的学习方法,过于依赖样本空间的分布,具有潜在的不稳定性。使用前馈神经网络的网络流量分类方法有效地消除了基于端口或者基于负载的分类方法的弊端,测试验证该方法较NB具有更好的稳定性和健壮性,在网络流量分类中的应用具有良好的性能和前景。但是,即使是神经网络应用广泛的BP算法,在应用中也暴露了不少的缺陷,如易形成局部极小而得不到全局最优,训练次数多使得学习效率低,收敛速度慢等。从网络数据包头部获得网络流参数,再进行有规律的偏差训练和无偏差训练对比SVM分类算法,在处理大样本数据集时,计算复杂度高,训练速度慢。用SVM决策树进行网络流量分类,解决SVM流量分类存在无法识别区域和训练时间较长的问题。然而研究还是不能彻底解决计算性能瓶颈问题,而且该方法是一种有监督的学习方法,不能很好地发现网络流量中的新应用。WeiLi和Moore为了避免检测包的载荷,从网络流量开始的网络数据包中提取12个统计特征,同时考虑了延迟和吞吐量,在C4.5决策树流量分类方法下分类准确性达99.8%。TomaszBujlow等人提出了一种C5.0机器学习算法,通过实验验证该算法平均分类准确率达到99.3-99.9%。但是决策树缺乏伸缩性,并在处理大数据集时容易增加分类算法的额外开销,降低了分类的准确性。在高速大规模复杂网络环境下,各个网络节点传感器使用不同的网络流量采集系统收集网络数据包,网络流量数据格式不一,语义、语法异构。故目前网络流量数据的特点是多源、异构、海量,现有的网络流量分类技术大多只能对网络流量数据进行简单的格式化,缺少对数据异构(格式异构、语法异构、语义异构)的有效解决方法,也缺乏对流量信息(如获取环境等)的描述及知识推理,获得的流量数据存在不一致性、不能共享和缺乏网络流量分类知识等问题,因而现有的流量分类方法难以提供网络管理决策分析所需的资源信息。在人工智能领域,本体逐渐被应用于知识工程、智能信息集成、数据挖掘、海量信息的组织和处理等领域中。本体为解决资源规范、无二义性和可扩展性描述问题提供了有效的途径,在描述资源方面具有通用性、开放性、智能性、准确性和综合性等诸多优点。本体也被用于决策支持系统作为一种知识表达的工具,知识推理是本体在决策支持系统中的重要功能,其也被应用于分类(诸如图像分类等)问题。近年来研究者尝试引入本体到网络流量分类领域。Pietrzyk,Marcin首次尝试形式化定义流的类别,使用经典的开发本体准则,迭代构建一个基于本体范例的类别分类树,旨在消除流类别定义的模糊性。ChengjieGu等人提出一种基于流轮廓和本体的在线自学习网络流量分类框架,通过流轮廓与流量类别之间的映射关系实现流量分类。但是目前基于本体的网络流量分类方法还不能应用于大规模复杂网络,本体在网络流量分类领域的应用尚属起步阶段。云计算是以数据为中心的密集型超级计算技术,对大数据集进行处理、分析,并向用户提供高效服务,具有并行化、虚拟化、按需服务等特点。其并行处理技术MapReduce能够为可划分的大规模数据并行计算处理问题提供充分的并行计算语义,已经被广泛接受。云计算技术为解决网络流量分类中海量数据处理问题提供了新方法。因此,本体与云计算相结合应用于网络流量分类,将发挥它们各自在海量异构数据描述与处理方面的优势,本体用于网络流量信息资源一致性描述和知识管理,而云计算为本体的构建及知识管理提供了存储和计算资源。
技术实现思路
本专利技术的目的是公开一种基于本体知识推理的并行网络流量分类方法,针对大规模网络流量本体中的网络流量实例,借助机器学习方法和本体的知识推理实现网络流量分类。本专利技术设计的一种基于本体知识推理的并行网络流量分类方法,根据互联网网络流量采集环境和流量的信息资源构建多层的网络流量本体,将互联网中的每条网络流量对应网络流量本体中的一个网络流量实例,按如下步骤对网络流量进行分类:Ⅰ、建立决策树分类模型并生成推理规则集在互联网中选取网络流量作为样本,已标记应用类型的网络流量样本作为网络流量训练样本集,利用决策树算法训练网络流量训练样本集,建立网络流量的决策树分类模型,并将决策树分类模型转化成推理规则集;Ⅱ、通过知识推理对网络流量实例进行并行化分类采用Jena工具包将步骤Ⅰ生成的推理规则集构造成相应的推理机,对已构建的网络流量本体,借助MapReduce并行计算框架,调用推理机进行并行知识推理,即挖掘出网络流量本体中网络流量实例和网络应用类型的对应关系,对网络流量实例进行网络应用类型标记,完成网络流量分类。所述Jena工具包为用于本体构建及其推理的工具包,其为2004年HP公司开发的基于Java的开放源代码语义网工具包。以下对各步骤详细说明。所述步骤Ⅰ具体包括如下子步骤:Ⅰ-1、借助决策树算法对已标记应用类型的网络流量训练样本集进行训练,建立网络流量的本文档来自技高网...

【技术保护点】
一种基于本体知识推理的并行网络流量分类方法,根据互联网网络流量采集环境和流量的信息资源构建多层的网络流量本体,将互联网中的每条网络流量对应网络流量本体中的一个网络流量实例,按如下步骤进行分类:Ⅰ、建立决策树分类模型并生成推理规则集在互联网中选取网络流量作为样本,已标记应用类型的网络流量样本作为网络流量训练样本集,利用决策树算法训练已标记应用类型的网络流量训练样本集,建立网络流量的决策树分类模型,并将决策树分类模型转化成推理规则集;Ⅱ、通过知识推理对网络流量实例进行并行化分类采用Jena工具包将步骤Ⅰ生成的推理规则集构造成相应的推理机;对已构建的网络流量本体,借助MapReduce并行计算框架,调用推理机进行并行知识推理,即挖掘出网络流量本体中网络流量实例和网络应用类型的对应关系,对网络流量实例进行网络应用类型标记,完成网络流量分类。

【技术特征摘要】
1.一种基于本体知识推理的并行网络流量分类方法,根据互联网网络
流量采集环境和流量的信息资源构建多层的网络流量本体,将互联网中的每
条网络流量对应网络流量本体中的一个网络流量实例,按如下步骤进行分类:
Ⅰ、建立决策树分类模型并生成推理规则集
在互联网中选取网络流量作为样本,已标记应用类型的网络流量样本作
为网络流量训练样本集,利用决策树算法训练已标记应用类型的网络流量训
练样本集,建立网络流量的决策树分类模型,并将决策树分类模型转化成推
理规则集;
Ⅱ、通过知识推理对网络流量实例进行并行化分类
采用J...

【专利技术属性】
技术研发人员:陶晓玲韦毅王勇孔德艳亢蕊楠伍欣
申请(专利权)人:桂林电子科技大学
类型:发明
国别省市:广西;45

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1