一种基于MapReduce的网络流量本体构建方法技术

技术编号:13196483 阅读:78 留言:0更新日期:2016-05-12 08:12
本发明专利技术为一种基于MapReduce的网络流量本体构建方法,主要步骤为Ⅰ、设计网络流量本体结构,采用网络流量本体结构对网络流量资源进行分层描述,并建立资源描述的层次关系;Ⅱ、利用MapReduce并行计算框架构建网络流量本体;Ⅱ的子步骤Ⅱ-1、通过MapReduce的映射函数捕获网络流量数据包并计算网络流量统计特征值;Ⅱ-2、通过MapReduce的规约函数生成文件形式的网络流量本体并保存至Hadoop分布式文件系统。本发明专利技术在网络流量本体构建时采用云计算作为网络流量本体的构建及知识推理的存储和计算资源,为用户提供具有并行化、虚拟化、按需服务等特点的高效服务;借助MapReduce并行处理技术,有效地提高网络流量本体构建的效率。

【技术实现步骤摘要】

本专利技术涉及网络管理
,具体为。
技术介绍
随着Web技术的迅猛发展和企业信息化需求的不断提高,许多新型网络应用模式和应用需求应运而生,随之而来的网络流量数据也呈现出爆炸性增长,给网络监管带来前所未有的挑战,也使得用户对网络流量进行精细化管理的需求越来越强烈。作为管理和优化各类网络资源的关键技术,网络流量分类广泛应用于网络监控、QoS(Quality ofService,服务质量)管理、网络安全、态势分析等领域,是高效实现网络管理、流量控制以及安全检测的重要环节。网络流量分类是指在基于TCP/IP协议的互联网中,按照网络的应用类型(例如WWW、FTP、MAIL、P2P等),将网络通信产生的双向TCP流量或UDP流量进行分类。近年来许多研究人员将注意力转向了基于网络流量统计特征的机器学习分类方法,根据流量的某些属性(如平均包长、平均包间隔时间等)的统计信息,采用机器学习方法对流量进行分类,该方法不受动态端口、载荷加密及网络地址转换的影响。目前网络流量分类较为广泛使用的机器学习方法主要有:贝叶斯、神经网络、支持向量机、决策树等。在高速大规模复杂网络环境下,各个网络节点传感器使用不同的网络流量采集系统收集网络数据包,网络流量数据格式不一,语义、语法异构。故目前网络流量数据的特点是多源、异构、海量,现有的网络流量分类技术大多只能对网络流量数据进行简单的格式化,缺少对数据异构(格式异构、语法异构、语义异构)的有效解决方法,也缺乏对流量信息(如获取环境等)的描述及知识推理,获得的流量数据存在不一致性、不能共享和缺乏网络流量分类知识等问题,因而现有的流量分类方法难以提供网络管理决策分析所需的资源信息。在人工智能领域,本体逐渐被应用于知识工程、智能信息集成、数据挖掘、海量信息的组织和处理等领域中。本体为解决资源规范、无二义性和可扩展性描述问题提供了有效的途径,在描述资源方面具有通用性、开放性、智能性、准确性和综合性等诸多优点。近年来研究者尝试引入本体到网络流量分类领域。Pietrzyk,Marcin首次尝试形式化定义流的类别,使用经典的开发本体准则,迭代构建一个基于本体范例的类别分类树,旨在消除流类别定义的模糊性。Chengj ie Gu等人提出一种基于流轮廓和本体的在线自学习网络流量分类框架,通过流轮廓与流量类别之间的映射关系实现流量分类。但是目前基于本体的网络流量分类方法还不能应用于大规模复杂网络,本体在网络流量分类领域的应用尚属起步阶段。云计算是以数据为中心的密集型超级计算技术,对大数据集进行处理、分析,并向用户提供高效服务,具有并行化、虚拟化、按需服务等特点。其并行处理技术MapReduce能够为可划分的大规模数据并行计算处理问题提供充分的并行计算语义,已经被广泛接受。云计算技术为解决网络流量分类中海量数据处理问题提供了新方法。因此,本体与云计算相结合应用于网络流量分类,将发挥它们各自在海量异构数据描述与处理方面的优势,本体用于网络流量信息资源一致性描述和知识管理,而云计算为本体的构建及知识管理提供了存储和计算资源。
技术实现思路
本专利技术的目的是设计,针对大规模复杂网络环境下网络流量数据的多源、异构特点,通过本体进行网络流量信息资源一致性描述,实现基于MapReduce架构的并行化网络流量本体构建。本专利技术设计的,主要包括如下步骤:1、设计网络流量本体结构网络流量信息资源规模大且复杂,本方法根据互联网网络流量采集环境和网络流量信息资源设计网络流量本体结构,采用网络流量本体结构对网络流量资源进行分层描述,并建立资源描述的层次关系,以消除由不同网络设备所采集的网络流量信息资源间的不一致性,减小异构信息资源对网络流量分类结果的影响;Π、利用MapReduce并行计算框架构建网络流量本体所述步骤Π具体包括如下子步骤:Π -1、通过MapReduce的映射(Map)函数捕获网络流量数据包并计算网络流量的统计特征值;Π _2、通过MapReduce的规约(Reduce)函数生成网络流量本体; 通过MapReduce的规约(Reduce)函数根据步骤I设计的网络流量本体结构,新建网络流量本体模型,并添加网络流量本体基本概念、网络流量实例、网络流量本体基本概念与网络流量实例之间的关系以及网络流量实例与网络流量统计特征值之间的关系,将添加各元素后的网络流量本体模型用网络本体语言OWL描述成文件形式的网络流量本体,最终保存至Hadoop分布式文件系统(HDFS)中。以下对各步骤详细说明。所述步骤I设计网络流量本体结构包括如下内容:本方法根据互联网网络流量采集环境和网络流量信息资源设计网络流量本体结构,本方法设计的网络流量本体结构为多层结构,首层包括互联网中流量采集节点(Nodes)信息和流量(Traf f i cs)信息。所述流量采集节点的下一层记录流量采集节点的相关信息,包括流量采集节点的网络软硬件设备信息(Devicelnfo)、流量采集节点的流量采集工具(Tools)及流量采集节点的配置参数(Configurat1n);所述流量采集工具的下一层记录各流量采集节点的各种流量采集工具名称以及流量采集信息格式。所述流量信息的下一层记录互联网上网络流量的相关信息,包括网络流量实例集合(F1ws)、流量统计特征集合(Attributes)、流量所属应用类型(AppType)及协议(Protocol);所述流量所属应用类型的下一层描述各种应用类型,如万维网(www)、游戏(Games)、服务(Service)、邮件(Mail)、攻击(Attack)、数据库(Database )、交互(Interactive)、文件传输协议控制(FTP-Control)、文件传输协议被动连接(FTP-Pasv)、文件传输协议数据(FTP-Data)、多媒体(Multimedia)和点对点(P2P)。 所述子步骤Π -1、通过MapReduce的映射(Map)函数捕获流量数据包并计算网络流量的统计特征值,具体包括如下次子步骤:Π-1-1、根据每个网络流量采集节点启动对应的映射函数,以〈网络标识符,网络IP地址〉为键值对作为每个映射函数的输入;Π -1-2、映射函数根据网络IP地址控制网络流量采集节点,收集节点相关信息,调用网络流量采集工具捕获网络流量数据包,然后将采集到的网络流量信息传入中间结果(Combiner)。Π-1-3、中间结果根据网络流量数据包的五元组,即源IP地址,源端口,目的IP地址,目的端口和传输层协议,确定每条网络流量,根据构成每条网络流量的数据包包头信息计算每条网络流量的统计特征值,并赋予每条网络流量标识符;Π-1-4、完成网络流量统计特征值的计算之后,中间结果以〈网络流量标识符,网络流量信息〉为键值对,将各条网络流量的信息送入规约(Reduce)函数。所述子步骤Π -2通过MapReduce的规约(Reduce)函数生成网络流量本体,具体包括如下次子步骤:Π -2-1、在规约函数中新建网络流量本体模型;Π -2-2、规约函数解析由中间结果传入的、以〈网络流量标识符,网络流量信息〉为键值对的网络流量信息资源,抽取其中需要进行本体描述的资源,对应到步骤I设计的网络流量本体结构中的相应位置;Π -2-3、规约函数本文档来自技高网
...

【技术保护点】
一种基于MapReduce的网络流量本体构建方法,主要包括如下步骤:Ⅰ、设计网络流量本体结构采用网络流量本体结构对网络流量信息资源进行分层描述,并建立资源描述的层次关系;Ⅱ、利用MapReduce并行计算框架构建网络流量本体所述步骤Ⅱ具体包括如下子步骤:Ⅱ‑1、通过MapReduce的映射函数捕获网络流量数据包并计算网络流量统计特征值;Ⅱ‑2、通过MapReduce的规约函数生成网络流量本体;通过MapReduce的规约函数根据步骤I设计的网络流量本体结构,新建网络流量本体模型,并添加网络流量本体基本概念、网络流量实例、网络流量本体基本概念与网络流量实例之间的关系以及网络流量实例与网络流量统计特征值之间的关系,将添加各元素后的网络流量本体模型用网络本体语言OWL描述成文件形式的网络流量本体,最终保存至Hadoop分布式文件系统中。

【技术特征摘要】

【专利技术属性】
技术研发人员:陶晓玲韦毅王勇孔德艳伍欣亢蕊楠
申请(专利权)人:桂林电子科技大学
类型:发明
国别省市:广西;45

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1