基于Hadoop平台的深度包检测系统及方法技术方案

技术编号:10668766 阅读:121 留言:0更新日期:2014-11-20 13:57
本发明专利技术公开一种基于Hadoop平台的深度包检测系统及方法,涉及数据挖掘技术,本发明专利技术包括网络爬虫部分和深度包检测部分,网络爬虫单元从互联网抓取页面,文件解析单元对网页进行分析得到统一资源定位符URL与网页分级内容的映射关系,不断迭代更新数据库中的映射关系库;深度包检测部分将原始数据解析成五元组流,输入TC模块,做业务流标记,生成特定业务流,将特定业务流转化成DPI事件,将DPI事件与映射关系库匹配,完成DPI事件统计。本发明专利技术将深度包检测技术集成到Hadoop平台,满足大数据存储与流量深度分析的需求。

【技术实现步骤摘要】
【专利摘要】本专利技术公开一种,涉及数据挖掘技术,本专利技术包括网络爬虫部分和深度包检测部分,网络爬虫单元从互联网抓取页面,文件解析单元对网页进行分析得到统一资源定位符URL与网页分级内容的映射关系,不断迭代更新数据库中的映射关系库;深度包检测部分将原始数据解析成五元组流,输入TC模块,做业务流标记,生成特定业务流,将特定业务流转化成DPI事件,将DPI事件与映射关系库匹配,完成DPI事件统计。本专利技术将深度包检测技术集成到Hadoop平台,满足大数据存储与流量深度分析的需求。【专利说明】
本专利技术涉及海量网络数据的分析,尤其涉及一种深度包检测系统。
技术介绍
深度包检测技术即DPI技术是一种基于应用层的流量检测和控制技术,深度包检 测技术广泛用于数据包应用类型分析、用户行为分析,以及入侵检测、病毒/蠕虫检测等方 面,是数据挖掘的重要手段。 大数据时代的到来给传统网络流量分析方法带来了新的冲击,特别是在网络流量 监控、安全管理、内容审计,以及电信运营商的分类计费、市场营销和智能管道建设等方面 对于流量分析提出了更高的要求和挑战。 传统网络流量分析方法主要包括基于传输协议端口、特征内容、流量特征统计的 分析,上述分析方法不能满足流量分类和深度分析多功能需求。基于深度包检测技术的流 量识别优点在于能够解析较深层次的网络协议,具有较高的匹配准确率,但由于DPI需要 对每个数据包进行解析,伴随着网络流量的爆炸式增涨,处理速度已成为基于DPI流量深 度分析的瓶颈。需要采用新的方法解决大数据深度分析面临的精确、速度和成本的挑战。
技术实现思路
基于以上问题,本专利技术充分利用Hadoop分布式计算平台的开源、高效、稳定、容错 性高等优势,将深度包检测技术集成到Hadoop平台,满足大数据存储与流量深度分析的需 求。 本专利技术解决上述技术问题的技术方案是:提出一种基于Hadoop (分布式系统基础 架构)平台深度包检测系统,所述系统包括网络爬虫和深度包检测部分,网络爬虫部分通 过抓取与分析网页,不断迭代更新映射关系库,供深度包检测部分匹配使用,该部分包括网 络爬虫模块和网页分析模块,网络爬虫模块抓取特定网站网页文件,为网页分析模块提供 输入;网页分析模块分析网页文件,得到URL(统一资源定位符)与网页分级内容的映射关 系,供DPI模块匹配使用。根据抓取页面不断迭代更新数据库中的映射关系库;深度包检测 部分包括数据包解析PA模块、流量分类TC模块、深度包检测DPI模块,PA模块将原始数据 解析成五元组流,输入TC模块,TC模块将输入的五元组流做业务流标记,生成特定业务流 输入DPI模块,DPI模块将特定业务流转化成DPI事件,将DPI事件与映射关系库匹配,完 成DPI事件统计。 PA模块将原始数据解析成五元组流,输入TC模块具体包括,PA模块读取HDFS中 原始数据流,以数据包偏移量为Key、数据包内容为Value的键值对形式作为MapReduce的 输入,结果输出以五元组为Key、五元组流和流特征统计为Value的形式,存储到HDFS中。 TC模块将输入的五元组流做业务流标记,生成特定业务流输入DPI模块具体包括,TC模块 读取HDFS中五元组流,以五元组为Key、五元组流为Value的键值对形式作为MapReduce的 输入,结果输出以五元组/业务标记为Key、业务标记流为Value的形式,存储到HDFS中。 DPI模块将特定业务流转化成DPI事件具体包括,DPI模块读取HDFS中特定业务流,以五元 组/业务标记为Key、特定业务流特征为Value的键值对形式作为MapReduce输入,结果输 出以五元组/业务标记为Key、DPI事件为Value的形式。 本专利技术还提出一种基于Hadoop平台深度包检测方法,包括步骤:网络爬虫模块不 断循环抓取特定网站网页文件,文件解析模块对网页文件进行分析,得到URL与网页分级 内容的映射关系,存储到数据库,根据抓取页面不断迭代更新数据库中的映射关系库;PA 模块将原始数据解析成五元组流输入TC模块,TC模块将输入的五元组流做业务流标记,生 成特定业务流输入DPI模块,DPI模块将特定业务流转化成DPI事件,将DPI事件与映射关 系库匹配,完成DPI事件统计。 本专利技术充分利用Hadoop分布式计算平台的开源、高效、稳定、容错性高等优势,将 基于网络爬虫的深度包检测技术集成到Hadoop平台,达到高效的流量深度分析的目的。本 专利技术能够解析较深层次的网络协议,具有较高的匹配准确率,处理速度快,解决了大数据深 度分析中精确、速度问题。 【专利附图】【附图说明】 附图1本专利技术基于Hadoop平台深度包检测系统框架示意图; 附图2本专利技术基于Hadoop平台深度包检测系统网络爬虫部分流程图; 附图3本专利技术基于Hadoop平台深度包检测系统深度包检测部分流程图。 【具体实施方式】 深度包检测部分建立在Hadoop平台上,完成业务流标记以及特定业务流(主要指 Web业务流)转化成DPI事件的功能,DPI事件是对网络事件的深层次识别结果(例如,用 户A某一时间浏览了某一视频网站),是DPI模块的输出。该部分包括数据包解析PA模块、 流量分类TC模块、深度包检测DPI模块。PA模块主要完成数据包解析功能,将原始数据解 析成五元组流(五元组包括:源IP地址、源端口、目的IP地址、目的端口、传输层协议号), 输出到TC模块,TC模块将输入的五元组流做业务流标记,为DPI模块提供输入;DPI模块完 成特定业务流转化成DPI事件,将DPI事件与映射关系库匹配,根据DPI事件与映射关系库 中信息的匹配完成DPI事件统计。 以下结合附图和具体实施对本专利技术做进一步说明,具体如下: 如图1所示为本专利技术基于Hadoop平台深度包检测系统框架示意图,所述系统包括 网络爬虫和深度包检测两个部分。 网络爬虫部分包括网络爬虫模块、文件解析模块、数据库,网络爬虫单元从互联网 抓取页面,文件解析单元对网页进行分析得到统一资源定位符URL与网页分级内容的映射 关系,根据抓取页面不断迭代更新数据库中的映射关系库,供深度包检测部分DPI模块匹 配使用。 深度包检测部分建立在Hadoop平台上,完成业务流标记以及特定业务流转化成 DPI事件。该部分包括数据包解析PA、流量分类TC、深度包检测DPI三个模块。PA模块完成 数据包解析,将原始数据解析成五元组流,为TC模块提供输入;TC模块完成流标记功能,将 输入的五元组流做业务流标记,生成特定业务流,输入DPI模块;DPI模块将特定业务流转 化成深度包检测DPI事件,将DPI事件与映射关系库匹配,完成DPI事件统计。10 Format 的主要功能是各个模块输入和输出的数据分割和读取。HDFS作为Hadoop的分布式存储系 统,其主要功能是对原始数据以及各个模块数据处理结果的存储。 如图2所示为本专利技术基于Hadoop平台深度包检测系统网络爬虫部分流程图。网 络爬虫部分分为网页抓取和网页分析两个阶段,通过以下步骤完成 : 网络爬虫模块不断循环抓取特定网站网页文件;文件解析模块对网页文件进行分 本文档来自技高网
...
<a href="http://www.xjishu.com/zhuanli/55/201410317160.html" title="基于Hadoop平台的深度包检测系统及方法原文来自X技术">基于Hadoop平台的深度包检测系统及方法</a>

【技术保护点】
基于Hadoop平台的深度包检测系统,其特征在于,所述系统包括网络爬虫部分和深度包检测部分,网络爬虫部分包括网络爬虫模块、文件解析模块、数据库,网络爬虫单元从互联网抓取页面,文件解析单元对网页进行分析得到统一资源定位符URL与网页分级内容的映射关系,根据抓取页面不断迭代更新数据库中的映射关系库;深度包检测部分包括数据包解析PA模块、流量分类TC模块、深度包检测DPI模块,PA模块将原始数据解析成五元组流,输入TC模块,TC模块将输入的五元组流做业务流标记,生成特定业务流输入DPI模块,DPI模块将特定业务流转化成DPI事件,将DPI事件与映射关系库匹配,完成DPI事件统计。

【技术特征摘要】

【专利技术属性】
技术研发人员:雒江涛杨军超胡汝荣向程超高伟王小平申建刘勇
申请(专利权)人:重庆邮电大学
类型:发明
国别省市:重庆;85

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1