一种网络日志URL 的分析方法及装置制造方法及图纸

技术编号:9295821 阅读:102 留言:0更新日期:2013-10-31 00:23
本申请提供了一种网络日志URL的分析方法和装置。所述方法包括:提取网页日志中的URL;对所述URL进行去重处理;依次采用预置的多个正则表达式,对去重后URL进行正则匹配,提取与去重后URL匹配的正则表达式的编号;针对去重前URL,复制与其相同的去重后URL的正则表达式编号,作为对应的正则表达式编号;对去重前各URL对应的不同的正则表达式编号进行统计,本申请可以减少正则匹配的计算量,降低计算成本。

【技术实现步骤摘要】
一种网络日志URL的分析方法及装置
本申请涉及数据处理的
,特别是涉及一种网络日志URL的分析方法和装置。
技术介绍
在商业分析中经常会对这些海量Weblog(网络日志)进行各种分析挖掘处理,其中,Weblog的URL中包含着访客访问的重要信息,通常需要使用正则表达式与URL进行匹配,对匹配上的正则表达式所属类别进行商业分析。现有技术中,整个Weblog的URL处理过程分三步:1.收集到海量的Weblog并存储原始数据;2.对URL进行正则表达式的匹配,每一条URL匹配到正则规则可能会有多条(通常为1-10条这个范围内);3.根据正则规则对应的商业分类,产出商业分类的后续数据指标分析。假设原始weblog有n条,匹配正则表达式有m条,那么真实的匹配过程产生的数据匹配就会有n×m条。以上现有技术中存在的问题是,URL正则匹配过程较为复杂,大型互联网Weblog的记录数是海量的,多条正则匹配规则依次对海量的URL逐条进行正则匹配,计算量非常大,计算成本较高。因此,本申请所要解决的技术问题是,提供一种网络日志URL的分析机制,以减少正则匹配的计算量,降低计算成本。
技术实现思路
本申请所要解决的技术问题是提供一种网络日志URL的分析方法,以减少正则匹配的计算量,降低计算成本。本申请还提供了一种网络日志URL的分析装置,用以保证上述方法在实际中的应用及实现。为了解决上述问题,本申请公开了一种网络日志URL的分析方法,包括:提取网页日志中的URL;对所述URL进行去重处理;依次采用预置的多个正则表达式,对去重后URL进行正则匹配,提取与去重后URL匹配的正则表达式的编号;针对去重前URL,复制与其相同的去重后URL的正则表达式编号,作为对应的正则表达式编号;对去重前各URL对应的不同的正则表达式编号进行统计。优选的,去重前和去重后的URL分别以列的形式存储在第一表格和第二表格中;所述去重后的URL对应的正则表达式编号,对应存储在第二表格中。优选的,所述针对去重前的所有URL,在去重后的URL中,找到与其相同的URL对应的正则表达式,作为对应的正则表达式的步骤包括:将第二表格的数据进行行转列;通过对第一表格和第二表格中URL所在列进行等值连接,使去重前的所有URL找到其对应的正则表达式编号。优选的,所述去重前URL对应的正则表达式编号,对应添加到第一表格中。优选的,所述去重前URL对应的正则表达式编号,替换第一表格中对应的URL。优选的,所述对去重前各URL对应的不同的正则表达式编号进行统计的步骤为,分别计算各个不同的正则表达式编号在去重前所有URL中出现的次数。优选的,所述正则表达式的编号为其所属商业类别的编号。本申请还提供了一种网络日志URL的分析装置,包括:URL提取模块,用于提取网页日志中的URL;URL去重模块,用于对所述URL进行去重处理;正则匹配模块,用于依次采用预置的多个正则表达式,对去重后URL进行正则匹配,提取与去重后URL匹配的正则表达式的编号;匹配结果复制模块,用于针对去重前URL,复制与其相同的去重后URL的正则表达式编号,作为对应的正则表达式编号;统计模块,用于对去重前各URL对应的不同的正则表达式编号进行统计。优选的,去重前和去重后的URL分别以列的形式存储在第一表格和第二表格中;所述去重后的URL对应的正则表达式编号,对应存储在第二表格中。优选的,所述匹配结果复制模块包括:行转列子模块,用于将第二表格的数据进行行转列;等值连接子模块,用于通过对第一表格和第二表格中URL所在列进行等值连接,使去重前的所有URL找到其对应的正则表达式编号。与现有技术相比,本申请具有以下优点:依据本申请,针对海量的Weblog中的URL,先去除其中重复的URL,在对去重后的URL进行正则匹配,由于海量的log里面,URL的重复访问的次数非常高,去重后,针对相同的URL进行正则匹配技术成本只有一次,由去重后URL的匹配结果,即可得到与之相同的所有URL对应的正则表达式。因此,能够非常有效的将URL正则匹配的计算成本降低到最低。本申请可以将去重前后的URL存储在表格中,通过将去重前后URL所在列进行等值连接,即可找到去重前所有URL与其正则表达式的对应关系,相比于正则匹配的不等值连接,可以降低计算成本。而且,在进行等值连接时可以选择将正则表达式编号替换掉表中对应的URL,展示结果就只有正则匹配表达式的编号,相比于存在URL的情况,大大减小了表格的列宽,占用资源较小。附图说明图1是本申请的一种网络日志URL的分析方法实施例的流程图;图2是本申请的一种网络日志URL的分析装置实施例的结构框图。具体实施方式为使本申请的上述目的、特征和优点能够更加明显易懂,下面结合附图和具体实施方式对本申请作进一步详细的说明。参考图1,示出了本申请的一种网络日志URL的分析方法实施例的流程图,具体可以包括以下步骤:步骤101、提取网页日志中的URL。网页日志是记录web服务器接收处理请求以及运行时错误等各种原始信息的以.log结尾的文件,确切的讲,应该是服务器日志。网页日志中包含了访客请求访问的网页地址URL。URL由协议、域名、请求地址三部分组成,完整地URL唯一确定了一个请求的资源,该资源可以是页面、内容模块、文件或多媒体资源等。URL对于网站而言,URL的用处是对资源的唯一定位,所以方式可以有很多,用资源的唯一描述(资源名称或简称等),资源的唯一识别码(ID、数字标记等),也可以是动态参数。因此,通过提取URL中的信息可以得知访客访问了哪些网页内容,通过对海量日志中URL的分析,可以得知各种网页资源被访问的情况,如次数,频率等信息。步骤102、对所述URL进行去重处理。一个URL一天内会被多次访问,因此,海量的网络日志中会存在大量的重复的URL。所述去重处理为去除所述网页日志中重复的网络地址,保留下的URL均不相同。在进行去重处理的时候,可以提取所有URL中不重复的URL,或将URL依次放入表,在存储之前判断表中是否存在相同的网络地址,若不存在,则添加到表中,若存在,则不进行添加。在本申请的一种优选实施例中,去重前和去重后的URL可以分别以列的形式存储在第一表格和第二表格中。如下例所示。第一表格为:Ahttp://men.taobao.com/123456http://men.taobao.com/123456http://men.taobao.com/123456http://women.taobao.com/123456http://women.taobao.com/123456http://women.taobao.com/123456其中,http://men.taobao.com/123456这个URL重复了3次,http://women.taobao.com/123456这个URL也重复了3次,因此,去重后得到的第二表格为:Dhttp://men.taobao.com/123456http://women.taobao.com/123456步骤103、依次采用预置的多个正则表达式,对去重后URL进行正则匹配,提取与去重后URL匹配的正则表达式的编号。公知的是,正则表达式是用于进行文本匹配的工具,通本文档来自技高网...
一种<a href="http://www.xjishu.com/zhuanli/55/201210133170.html" title="一种网络日志URL 的分析方法及装置原文来自X技术">网络日志URL 的分析方法及装置</a>

【技术保护点】
一种网络日志URL的分析方法,其特征在于,包括:提取网页日志中的URL;对所述URL进行去重处理;依次采用预置的多个正则表达式,对去重后URL进行正则匹配,提取与去重后URL匹配的正则表达式的编号;针对去重前URL,复制与其相同的去重后URL的正则表达式编号,作为对应的正则表达式编号;对去重前各URL对应的不同的正则表达式编号进行统计。

【技术特征摘要】
1.一种网络日志URL的分析方法,其特征在于,包括:提取网页日志中的URL;对所述URL进行去重处理,去除所述网页日志中重复的网络地址,保留下的URL均不相同;依次采用预置的多个正则表达式,对去重后URL进行正则匹配,提取与去重后URL匹配的正则表达式的编号;针对去重前URL,复制与其相同的去重后URL的正则表达式编号,作为对应的正则表达式编号;对去重前各URL对应的不同的正则表达式编号进行统计。2.如权利要求1所述的方法,其特征在于,去重前和去重后的URL分别以列的形式存储在第一表格和第二表格中;所述去重后的URL对应的正则表达式编号,对应存储在第二表格中。3.如权利要求2所述的方法,其特征在于,针对所有所述去重前的URL,在去重后的URL中,找到与其相同的URL对应的正则表达式,作为对应的正则表达式的步骤包括:将第二表格的数据进行行转列;通过对第一表格和第二表格中URL所在列进行等值连接,使去重前的所有URL找到其对应的正则表达式编号。4.如权利要求2所述的方法,其特征在于,所述去重前URL对应的正则表达式编号,对应添加到第一表格中。5.如权利要求2所述的方法,其特征在于,所述去重前URL对应的正则表达式编号,替换第一表格中对应的URL。6.如权利要求1所述的方法,其特征在于,所述对去...

【专利技术属性】
技术研发人员:张清
申请(专利权)人:阿里巴巴集团控股有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1