一种基于分层方式分析网络访问日志的方法和设备技术

技术编号:12693586 阅读:76 留言:0更新日期:2016-01-13 11:43
本发明专利技术的目的是提供一种基于分层方式分析网络访问日志的方法与设备;采集层获取网络访问日志,并发送至对应的分析层;所述分析层对获取到的所述网络访问日志进行实时分析处理,以获得对应的分析结果;报表层将所述分析结果以报表形式展现给用户。与现有技术相比,本发明专利技术基于分层方式,对网络访问日志进行实时分析处理,并将分析结果以报表形式展现给用户,提供了一种实时化的互联网HTTP业务分析方法,基于人群统计学的分析指标,能够较为客观准确地反映互联网HTTP业务的服务情况。本发明专利技术解决了大型互联网公司需要对在线HTTP业务进行实时化、可定制监控的问题。

【技术实现步骤摘要】

本专利技术涉及计算机
,尤其涉及一种用于基于分层方式分析网络访问日志的技术。
技术介绍
现代的互联网公司,对web服务质量有极高的要求,每一分钟的宕机,都可能给互联网公司带来巨大的损失。大型web应用,同时在线人数都能达到千万级别。而这些web应用,大部分都是采用分布式的部署方案,例如在全国各省市部署大量的HTTP Cache设备和HTTP应用服务器。如何在尽可能短的时间内,完成对这些用户访问日志的采集、归并、分析、报表输出,成为本领域技术人员亟需解决的问题之一。
技术实现思路
本专利技术的目的是提供一种基于分层方式分析网络访问日志的方法与设备。根据本专利技术的一个方面,提供了一种基于分层方式分析网络访问日志的方法,其中,该方法包括以下步骤:a采集层获取网络访问日志,并发送至对应的分析层;b所述分析层对获取到的所述网络访问日志进行实时分析处理,以获得对应的分析结果;c报表层将所述分析结果以报表形式展现给用户。根据本专利技术的另一方面,还提供了一种基于分层方式分析网络访问日志的设备,其中,该设备包括:采集层装置,用于获取网络访问日志,并发送至对应的分析层装置;分析层装置,用于对获取到的所述网络访问日志进行实时分析处理,以获得对应的分析结果;报表层装置,用于将所述分析结果以报表形式展现给用户。与现有技术相比,本专利技术基于分层方式,对网络访问日志进行实时分析处理,并将分析结果以报表形式展现给用户,提供了一种实时化的互联网HTTP业务分析方法,基于人群统计学的分析指标,能够较为客观准确地反映互联网HTTP业务的服务情况。本专利技术解决了大型互联网公司需要对在线HTTP业务进行实时化、可定制监控的问题。进一步地,本专利技术采用了分层的设计理念,来降低耦合度,划出了采集层、分析层、报表层。其中,分析层基于URL正则表达式对网络进行实时监控,能够实时化地分析web应用在各地的用户访问日志,无论是业务人员还是开发人员,都可以自助式地增加URL正则表达式,终端报表系统能够在短时间内输出相应的请求量信息、时间信息、故障信息。更一进步地,本专利技术还可以增加更多的可视化跟踪图表,方便了用户对分析结果的查看和使用。【附图说明】通过阅读参照以下附图所作的对非限制性实施例所作的详细描述,本专利技术的其它特征、目的和优点将会变得更明显:图1示出根据本专利技术一个方面的基于分层方式分析网络访问日志的设备示意图;图2示出根据本专利技术一个优选实施例的基于分层方式分析网络访问日志的设备不意图;图3示出根据本专利技术另一个方面的基于分层方式分析网络访问日志的方法流程图;图4示出根据本专利技术一个优选实施例的基于分层方式分析网络访问日志的方法流程图。附图中相同或相似的附图标记代表相同或相似的部件。【具体实施方式】下面结合附图对本专利技术作进一步详细描述。图1示出根据本专利技术一个方面的基于分层方式分析网络访问日志的设备示意图。该设备1包括采集层装置101、分析层装置102和报表层装置103。其中,采集层装置101获取网络访问日志,并发送至对应的分析层装置102。具体地,采集层装置101通过实时获取、定期获取或应事件触发地获取等方式,从全网获取网络访问日志,并将获取到的网络访问日志发送至对应的分析层。例如,该采集层装置101由若干个爬虫组成,定期地,如,每分钟,前往各地机房爬取网络访问日志,并实时发送给上游的分析层装置102。在此,采集层装置101与分析层装置102中间例如使用kafka作为两层之间的通信桥梁。在此,爬虫可通过中央控制器来调度,采用爬虫的方式能够自动适配各类网络环境,能够自动处理短时间的网络拥堵情况等。本领域技术人员应能理解,上述获取网络访问日志的方式仅为举例,其他现有的或今后可能出现的获取网络访问日志的方式如可适用于本专利技术,也应包含在本专利技术保护范围以内,并在此以引用方式包含于此。分析层装置102对获取到的所述网络访问日志进行实时分析处理,以获得对应的分析结果。具体地,分析层装置102对从采集层装置101处获取到的网络访问日志进行实时分析处理,例如,基于URL正则表达式,对所述网络访问日志进行实时分析处理,或更进一步地,对该网络访问日志进行去重处理,再基于URL正则表达式,对去重处理后的网络访问日志进行实时分析处理,以获得对应的分析结果。在此,网络访问日志记录了 web服务器接收处理请求以及运行时错误等各种原始信息的文件,包含了网络用户请求访问的网页地址URL。URL由协议、域名、请求地址三部分组成,完整的URL唯一确定了一个请求的资源,如页面、内容模块、文件或多媒体资源等。通过提取URL中的信息可以得知网络用户访问了哪些网页内容,通过对全网网络访问日志中URL的分析,可以得知各种网页资源被访问的情况,如访问次数、访问频率等。在此,分析层装置102例如可以包括Kafka日志接收队列、Storm实时分析集群、Hbase分析结果预处理集群、Mysql结果报表存储集群等。其中,Kafka日志接收队列用于自采集层装置101获取网络访问日志。Storm实时分析集群用于对该获取到的网络访问日志进行实时分析处理。Storm是个实时的、分布式以及具备高容错的计算系统,可以处理大批量的数据,在保证高可靠性的前提下还可以让处理进行的更加实时。具有易于扩展、每条信息的处理都可以得到保证、Storm集群管理简易、具备高容错、可以用任何语言设计等优点。Hbase分析结果预处理集群用于对该分析层装置102所得到的分析结果进行预处理。Hbase是一个高可靠性、高性能、面向列、可伸缩的分布式存储系统,其不同于一般的关系数据库,是一个适合于非结构化数据存储的数据库,且Hbase是基于列的而不是基于行的模式。利用HBase技术可在廉价PC Server上搭建起大规模结构化存储集群。Mysql结果报表存储集群用于将分析结果以报表的形式进行存储。这样,报表层装置103可以直接使用Mysql中的报表数据,以展现给用户,而无须关心底层的各类采集和分析工作流程。本领域技术人员应能理解,上述实时分析处理网络访问日志的方式仅为举例,其他现有的或今后可能出现的实时分析处理网络访问日志的方式如可适用于本专利技术,也应包含在本专利技术保护范围以内,并在此以引用方式包含于此。报表层装置103将所述分析结果以报表形式展现给用户。具体地,报表层装置103根据分析层装置102实时分析处理所获得的分析结果,将该分析结果例如通过绘图技术,以报表形式展现给用户。例如,假设分析层装置102的Mysql结果报表存储集群已经将分析结果以报表的形式进行了存储,则该报表层装置103直接自该Mysql中获取报表数据,并以报表的形式展现给用户。本领域技术人员应能理解,上述展现分析结果的方式仅为举例,其他现有的或今后可能出现的展现分析结果的方式如可适用于本专利技术,也应包含在本专利技术保护范围以内,并在此以引用方式包含于此。优选地,设备1的各个装置之间是持续不断工作的。具体地,采集层装置101获取网络访问日志,并发送至对应的分析层装置;分析层装置102对获取到的所述网络访问日志进行实时分析处理,以获得对应的分析结果;报表层装置103将所述分析结果以报表形式展现给用户。在此,本领域技术人员应理解“持续”是指设备1的各装置分别按照设定的或实时调整的工作模式要本文档来自技高网...

【技术保护点】
一种基于分层方式分析网络访问日志的方法,其中,该方法包括以下步骤:a采集层获取网络访问日志,并发送至对应的分析层;b所述分析层对获取到的所述网络访问日志进行实时分析处理,以获得对应的分析结果;c报表层将所述分析结果以报表形式展现给用户。

【技术特征摘要】

【专利技术属性】
技术研发人员:彭晓涛
申请(专利权)人:北京风行在线技术有限公司
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1