【技术实现步骤摘要】
一种基于MapReduce算法的并行识别、统计网页URL的方法
本专利技术涉及网络大数据流量分析领域。目的在于提出一种基于MapReduce算法的并行识别、统计网页URL的方法。
技术介绍
近些年来,电子商务给人们带了便利、实惠,越来越多的人群尤其是年轻一代偏向于网上消费,电子商务市场竞争日趋白热化。与此同时,网络上充斥着大量的钓鱼网站、垃圾页面,威胁着人们的上网安全。通过分析网络流量提取、统计网页URL,可以反映各类群体所感兴趣的商品类别,有助于运营商、各大电子商务企业把握趋势,拟定营销策略、提高企业竞争力。另一方面可以从提取到的URL中检测、识别含有不良信息的页面加入黑名单,优化网民的上网环境。传统的URL提取技术通过提取HTTP请求报文的Referer字段或者拼接GET字段和Host字段来实现。前者仅能体现页面URL,不能统计访问记录。而后者虽然可以统计访问记录,但不能识别哪些URL属于网页。随着互联网的迅速发展,网民数量的不断增多,互联网所产生的流量也急剧攀升。有相关研究表明,截至2013年整个互联网流量为56EB(1EB=10亿GB),预计2020年全球 ...
【技术保护点】
一种基于MapReduce算法的并行识别、统计网页URL的方法,其特征在于,包括以下步骤:101、获取网络的数据流量,并将网络数据流量以块block为单位存储在分布式文件系统HDFS中;102、将步骤101中存储的网络数据流量进行HTTP请求重组,形成重组后的HTTP请求报文;103、读入步骤102中经过重组后的HTTP请求报文,并将该经过重组后的HTTP请求报文转化为键值对<五元组,HTTP请求>,利用正则表达式提取GET字段及Host字段拼成URL,完成对URL资源的一次访问请求,当未提取到GET字段及Host字段时则读取下一个请求,返回步骤103;若URL ...
【技术特征摘要】
1.一种基于MapReduce算法的并行识别、统计网页URL的方法,其特征在于,包括以下步骤:101、获取网络的数据流量,并将网络数据流量以块block为单位存储在基于Hadoop的分布式文件系统HDFS中;102、将步骤101中存储的网络数据流量进行HTTP请求重组,形成重组后的HTTP请求报文;103、读入步骤102中经过重组后的HTTP请求报文,并将该经过重组后的HTTP请求报文转化为键值对<五元组,HTTP请求>,利用正则表达式提取GET字段及Host字段拼成URL,完成对URL资源的一次访问请求,当未提取到GET字段及Host字段时则读取下一个请求,返回步骤103;若URL提取成功,则接着利用正则表达式提取键值对<五元组,HTTP请求>中HTTP请求报文的Referer字段,根据提交方已有的广告过滤规则对Referer字段进行过滤,并将过滤后的Referer字段的值存入提交方数据库RefererDB;跳转至步骤104;104、过滤以gif/jpg/png/js/css/swf/flv结尾的页面元素URL,生成输出键值对<URL,1>,其中URL为过滤掉gif/jpg/png/js/css/swf/flv结尾的页面元素后的URL,1代表一次访问;105、重复步骤103和104,统计得到若干个输出键值对...
【专利技术属性】
技术研发人员:雒江涛,高伟,杨军超,王小平,邓生雄,刘勇,申健,
申请(专利权)人:重庆邮电大学,
类型:发明
国别省市:重庆;85
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。