一种基于MapReduce算法的并行识别、统计网页URL的方法技术

技术编号：10317693 阅读：336 留言：0更新日期：2014-08-13 18:45

本发明专利技术公开了一种基于MapReduce算法的并行识别、统计网页URL的方法，包括步骤：将捕获的网络数据流量以block(块，默认大小64M)为单位分散存储在HDFS(分布式文件系统)中；提取URL之前，重组HTTP请求；执行Job1，从重组后的HTTP请求中并行提取URL；执行Job2，从提取出的URL中识别出页面URL。本方法提供了一种稳定、可靠、均匀且低成本的并行识别、统计网页URL的方法。

全部详细技术资料下载

【技术实现步骤摘要】
一种基于MapReduce算法的并行识别、统计网页URL的方法
本专利技术涉及网络大数据流量分析领域。目的在于提出一种基于MapReduce算法的并行识别、统计网页URL的方法。
技术介绍
近些年来，电子商务给人们带了便利、实惠，越来越多的人群尤其是年轻一代偏向于网上消费，电子商务市场竞争日趋白热化。与此同时，网络上充斥着大量的钓鱼网站、垃圾页面，威胁着人们的上网安全。通过分析网络流量提取、统计网页URL，可以反映各类群体所感兴趣的商品类别，有助于运营商、各大电子商务企业把握趋势，拟定营销策略、提高企业竞争力。另一方面可以从提取到的URL中检测、识别含有不良信息的页面加入黑名单，优化网民的上网环境。传统的URL提取技术通过提取HTTP请求报文的Referer字段或者拼接GET字段和Host字段来实现。前者仅能体现页面URL，不能统计访问记录。而后者虽然可以统计访问记录，但不能识别哪些URL属于网页。随着互联网的迅速发展，网民数量的不断增多，互联网所产生的流量也急剧攀升。有相关研究表明，截至2013年整个互联网流量为56EB(1EB＝10亿GB)，预计2020年全球...
一种基于MapReduce算法的并行识别、统计网页URL的方法

【技术保护点】
一种基于MapReduce算法的并行识别、统计网页URL的方法，其特征在于，包括以下步骤：101、获取网络的数据流量，并将网络数据流量以块block为单位存储在分布式文件系统HDFS中；102、将步骤101中存储的网络数据流量进行HTTP请求重组，形成重组后的HTTP请求报文；103、读入步骤102中经过重组后的HTTP请求报文，并将该经过重组后的HTTP请求报文转化为键值对<五元组，HTTP请求>，利用正则表达式提取GET字段及Host字段拼成URL，完成对URL资源的一次访问请求，当未提取到GET字段及Host字段时则读取下一个请求，返回步骤103；若URL提取成功，则接着利用...

【技术特征摘要】
1.一种基于MapReduce算法的并行识别、统计网页URL的方法，其特征在于，包括以下步骤：101、获取网络的数据流量，并将网络数据流量以块block为单位存储在基于Hadoop的分布式文件系统HDFS中；102、将步骤101中存储的网络数据流量进行HTTP请求重组，形成重组后的HTTP请求报文；103、读入步骤102中经过重组后的HTTP请求报文，并将该经过重组后的HTTP请求报文转化为键值对<五元组，HTTP请求>，利用正则表达式提取GET字段及Host字段拼成URL，完成对URL资源的一次访问请求，当未提取到GET字段及Host字段时则读取下一个请求，返回步骤103；若URL提取成功，则接着利用正则表达式提取键值对<五元组，HTTP请求>中HTTP请求报文的Referer字段，根据提交方已有的广告过滤规则对Referer字段进行过滤，并将过滤后的Referer字段的值存入提交方数据库RefererDB；跳转至步骤104；104、过滤以gif/jpg/png/js/css/swf/flv结尾的页面元素URL，生成输出键值对<URL，1>，其中URL为过滤掉gif/jpg/png/js/css/swf/flv结尾的页面元素后的URL，1代表一次访问；105、重复步骤103和104，统计得到若干个输出键值对...

【专利技术属性】
技术研发人员：雒江涛，高伟，杨军超，王小平，邓生雄，刘勇，申健，
申请(专利权)人：重庆邮电大学，
类型：发明
国别省市：重庆;85

全部详细技术资料下载我是这个专利的主人