一种基于分布式计算网络的日志文件分析方法和系统技术方案

技术编号:3487455 阅读:230 留言:0更新日期:2012-04-11 18:40
本发明专利技术公开了一种基于分布式计算网络的日志文件分析方法和系统。所述方法包括:将用户标识与相应的日志信息存储在日志文件中;将所述日志文件划分为多个目标文件,所述目标文件中含有相同用户标识的日志信息;使用两个以上的节点分别对所述目标文件进行分析并得到分析结果;合并各节点的分析结果。这样,通过用户标识在不同的日志文件中建立关联,并可进一步分析用户访问网站不同内容之间的关系。

【技术实现步骤摘要】

本专利技术涉及数据处理领域,特别是涉及一种分布式计算网络的日志文件分 冲斤方法和系统。
技术介绍
随着互联网上信息服务的发展,许多政府部门、公司、大专院校、科研院所等都已经拥有或正在建设自己的网站。每个网站的后面都运行着一个Web 服务器,Web服务器是一个用于管理Web页面的软件,并使这些页面通过本地 网络或Internet供客户浏览器使用。现在较常用的Web服务器包括Apache、 IIS和Iplanet的Enterprise服务器。对网站的管理,要求不仅仅关注服务 器每天的吞吐量,还要了解网站各页面的访问情况,根据各页面的点击频率来 改善网页的内容和质量、提高内容的可读性,跟踪包含有商业交易的步骤以及 管理Web网站"幕后"的婆:据等。尤其对于以电子商务或搜索引擎为业务的网络公司而言,更是如此;需要对web服务器的运行和访问情况进行详细和周全的分析,了解网站运行情况, 发现网站存在的不足,促进网站的更好发展,而这些要求都可以通过对web 服务器的日志文件的统计和分析来做到。常见的日志分析工具有WebTrends、 Wusage、 wwwstat、 http-analyze、 pwebstats、 WebStat Explorer, webalizer、 AWStats 等。对日志文件进行分析、查看的过程,就是从大量数据中挖掘出来未知的、 有价值的模式或者规律,为决策服务的复杂过程。由于网站的内容总是在不断地更新和变化中,因此,网站管理人员需要及 时地获知日志文件的分析结果,例如可以在第二天上班时看到前一天的页面访 问量(PV, Page View )等统计数据。与此同时,随着互联网的不断普及,上网 人数的不断增加,Web网站的访问量从十万,百万级别上升到千万,上亿级别; Web服务器的日志文件的数据量也从几十MB到几十GB,甚至达到TB的数 量级。而相应的对日志文件的统计和分析的时间要求却并没有P争低。因此,如 何及时有效地对不断增加的日志文件进行分析和统计,就成为本领域技术人员 所必需面临的问题。目前较为常见的是采用基于分布式计算网络的日志分析方法。分布式计算 网络是由多台计算机构成的计算集群。分布式处理的基本思想是将文件分割成 多个小的文件,各个文件之间互不相关。这样每个部分就可以分别在各台机器 上执行,最后将分析结果合并就可以了。如图l所示,是分布式计算网络的一 种拓朴结构图。其中日志分析服务器110负责从web服务器获取日志文件, 将划分好地日志文件分别发送至节点121、 122和123进行分析。分析完成后, 再由日志分析服务器110从各节点取得分析结果对其汇总合并,并最终得到该 web服务器的日志分析结果。当前采用分布式处理方式对日志文件进行分析 时,普遍的做法是按照网站结构划分日志文件,例如,如果一个网站的内容由 新闻、论坛和博客三部分组成,那么就将新闻日志、论坛日志和博客日志划分 出来由节点121、 122和123分别处理。当然,用户可才艮据划分日志的多少决 定是否增加新的节点。现实中,用户在访问一个网站时的行为往往是连续的, 而上述处理方式,将导致一个即访问了新闻频道,又访问了论坛、博客的用户 的日志信息,被分成三个部分,造成无法得到该用户完整的访问路径。例如用 户访问了 8个页面,前两个页面(ual,ua2)访问新闻,第3、 4个页面(ub3,ub4 ) 访问论坛,第5 、 6个页面(ua5,ua6 )访问新闻,最后两个页面(uc7,uc8 )访 问博客。这种情况下用户的访问路径就被切分成了三部分,第一部分是用户在 新闻频道的访问路径ual,ua2,ua5,ua6;第二部分是用户在论坛的访问路径ua3, ua4;第三部分是用户在博客的访问路径uc7,uc8。这样以来,原本关联的内容 由三个节点分别处理,导致用户的访问过程^皮割裂,也就无法分析出不同内容 之间的关系了。
技术实现思路
本专利技术的目的在于提供一种基于分布式计算网络的日志文件分析方法和 系统,以解决现有技术中由于日志文件被分割处理,导致无法获取用卢完整的 访问过程,无法分析出不同内容之间关系的问题。为解决上述问题,本专利技术公开了一种基于分布式网络的日志文件分析方法,包括以下步骤将用户标识与相应的日志信息存储在日志文件中;将所述日志文件划分为多个目标文件,所述目标文件中含有相同用户标识 的日志信息;使用两个以上的节点分别对所述目标文件进行分析并得到分析结果;合并各节点的分析结果。其中,所述日志文件是web服务器的日志文件。其中,所述web服务器是由至少一个服务器组成的服务器集群,所述日 志文件为日志文件集,包括该服务器集群中各个服务器产生的日志文件。优选的,所述将日志文件划分为多个目标文件的过程包括将所述日志文件下载到日志分析服务器;曰志分析服务器将所述日志文件发送至相应的各个节点;节点对收到的日志文件按用户标识分割为标识文件,将具有相同用户标识 的日志信息放入同一个标识文件中,并将该标识文件发送至日志分析服务器;日志分析服务器收集各个节点发送的标识文件,将具有相同用户标识的标 识文件合并为一个文件作为目标文件。优选的,所述节点将日志文件分割为目标文件之前还包括节点过滤所述 曰志文件中与日志分析无关的信息。优选的,所述节点对目标文件进行分析之前还包括对目标文件中的曰志信息按其生成时间排序。优选的,所述用户标识由web服务器,根据用户的IP和随机数产生,并保存在用户本地;f几器中。优选的,所述用户标识存储在用户本地机器的Cookie中。 本专利技术还公开了一种基于分布式计算网络的日志丈件分析系统,包括日志 分析服务器和多个节点,其中, 所述日志分析服务器包括收集单元,用于收集web服务器的日志文件,所述日志文件含有用户标 识及与该用户标识相应的日志信息;存储单元,用于存储收集单元收集的日志文件; 第一接口单元,用于接收和发送数据;划分单元,用于将所述存储单元中的日志文件划分为多个目标文件,所述 目标文件由具有相同用户标识的日志信息组成; 所述节点包括第二接口单元,用于接收和发送数据; 处理单元,用于对目标文件进行分析;所述日志分析服务器还包括和并单元,用于合并各节点的分析结果。 优选的,所述日志文件是web服务器的日志文件,所述web服务器是由至少一个服务器组成的服务器集群,所述日志文件为日志文件集,包括该服务器集群中各个服务器产生的日志文件。 优选的,所述节点还包括过滤单元,用于过滤日志文件中与日志分析无关的信息; 分割单元,用于对过滤单元过滤后的日志文件按用户标识分割为标识文 件,将具有相同用户标识的日志信息放入同一个标识文件中; 所述划分单元还包括目标文件生成单元,用于将各个节点发送的具有相同用户标识的标识文件 合并为一个文件作为目标文件。 优选的,所述节点还包括排序单元,用于对目标文件中的日志信息按其生成时间排序。与现有4支术相比,本专利技术具有以下优点本专利技术通过在web服务器的日志信息中记录用户标识,这样即使日志文件 被分割,或者该日志文件是一个日志文件集,都可以利用用户标识在位于不同 的日志信息之间建立关联关系。进一步的,本专利技术根据用户标识将日志文件划 分为目标文件,让目标文件中含有一个用户在访问网站时的所有日志本文档来自技高网
...

【技术保护点】
一种基于分布式计算网络的日志文件分析方法,其特征在于,包括以下步骤:将用户标识与相应的日志信息存储在日志文件中;将所述日志文件划分为多个目标文件,所述目标文件中含有相同用户标识的日志信息;使用两个以上的节点分别对所述目标文件进行分析并得到分析结果;合并各节点的分析结果。

【技术特征摘要】

【专利技术属性】
技术研发人员:吴伟勋李江华张金银李昂
申请(专利权)人:阿里巴巴集团控股有限公司
类型:发明
国别省市:KY[]

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1
相关领域技术
  • 暂无相关专利