一种网站分析系统及方法和装置制造方法及图纸

技术编号:7936758 阅读:178 留言:0更新日期:2012-11-01 07:16
本发明专利技术提供一种基于旁路镜像的网站分析系统及方法和装置,从而解决现有技术中存在的问题。本发明专利技术采用“旁路镜像”的模式完成网站分析的数据采集。对用户访问网站的数据进行“旁路镜像”,可以获得用户访问网站的原始数据包信息,经过有效的数据清理、筛选,获得完整的网站分析的数据报告。本发明专利技术可以对网站的流量进行最全面的分析,包括网站的攻击流量、网络爬虫、恶意的机器人访问等等情况。无需网站修改任何代码,没有任何的安全风险。

【技术实现步骤摘要】

本专利技术涉及通信
,尤其涉及一种网站分析系统及方法和装置
技术介绍
网站分析(Web Analytics)是一种对网站访客行为的研究。通过获得了基本的流量数据,从中发现网站访客的规律和问题。通过网站分析,可以有效的达到监控流量、吸引流量、保留流量的作用。现在技术中网站分析通常采用日志分析法和页面标记法两种方式 关于日志分析法日志分析法利用WEB服务器保存的访问日志文件作为原始的数据输入源,分析访客的浏览和访问行为。日志分析法的基本流程是I、首先需要在web服务器(例如Appache、ISS等)配置WEB日志格式,通过web服务器记录用户访问的信息;2、将保存于服务器上的日志记录通过FTP等协议保存到本地的某台机器上;3、在保存了日志的机器上运行日志分析软件;4、日志分析软件读取日志记录,通过日志记录的还原分析可以获得访客的浏览和访问行为。关于页面标记法页面标记法需要在被统计的页面中嵌入一小段脚本,这个脚本的作用就是收集必要的用户访问数据,然后将用户访问的数据发送到特定的服务器上进行分析。 页面标记法的基本流程I、在需要被统计的页面中嵌入一段采用JS语言开发脚本;2、当用户浏览网页的同时,浏览器同时解析执行这段嵌入到网页的脚本;3、这个脚本会触发一次新的HTTP请求,该请求会携带一些内容到一台专门用于网站分析的服务器上,内容通常会包括该用户的IP地址、访问的URL、用户的浏览器等信息,并通过Cookies记录一些用户信息。用于网站分析的服务器本身也是一台WEB服务器,该服务器会接收脚本发来的请求,将请求携带的内容记录在服务器上,可以获得访客的浏览和访问行为。这两种分析方法存在的弊端是I、日志分析法需要web服务器开启日志保存功能,增加了 web服务器的性能负担;2、日志分析法由于需要取得服务器日志信息之后才可以提供网站分析结果,因此网站日志分析法无法获得实时的分析结果;3、页面标记法需要在每个需要分析的页面中嵌入一段JS代码,增加了技术实施的复杂度;4、页面标记法无法统计爬虫、攻击等行为,如果用户的浏览器安全级别要求较高,或者不允许JS脚本执行,也会导致页面标记法无法完成统计功能;因为这些访问不会触发JS脚本的执行;5、页面标记法一般都是通过第三方网站提供的脚本来完成统计分析服务,这样有可能会导致网站的一些敏感信息被第三方获取;6、页面标记法的脚本都会采用Cookies的模式记录用户信息,其中有些是采用第一方Cookies,有些采用第三方Cookies。其中第一方Cookies会增加网站负担,第三方Cookies会带来用户隐私泄漏 的风险。
技术实现思路
本专利技术的目的在于提供一种基于旁路镜像的网站分析系统及方法和装置,从而解决现有技术中存在的前述问题。本专利技术采用独具创新的模式完成网站分析的数据采集。对用户访问网站的数据进行“旁路镜像”,可以获得用户访问网站的原始数据包信息,经过有效的数据清理、筛选,获得完整的网站分析的数据报告。本专利技术可以对网站的流量进行最全面的分析,包括网站的攻击流量、网络爬虫、恶意的机器人访问等等情况。无需网站修改任何代码,没有任何的安全风险。传统组网模型就是在交换机上接入相关的WEB服务器,由WEB服务器实体来完成相关的网站分析等功能;而本专利技术的技术组网方案在交换机上旁路部署了一个设备实体,由该设备实体来完成网站分析的功能,WEB服务器实体仅需要完成网站的信息应答功能。本专利技术公开的技术方案具体如下一种网站分析系统,包括防火墙、网络交换机和web服务器,所述网络交换机为具备镜像端口的网络交换机,所述镜像端口上连接有网站分析服务器;所述镜像端口用于通过流量镜像方式获取连接有所述网站分析服务器的通讯端口的通讯数据。优选的,所述网站分析服务器包括流量采集模块、http协议分析模块、Request报文分析模块、Response报文分析模块、访问信息收集模块和网站分析基础数据库;所述流量采集模块、所述http协议分析模块、所述Request报文分析模块、所述Response报文分析模块、所述访问信息收集模块和所述网站分析基础数据库顺序连接。优选的,所述网站分析系统还包括访问数据挖掘模块,所述访问数据挖掘模块用于根据请求端指定的分析条件对所述网站分析基础数据库中的数据进行筛选形成网站分析的报表并将所述网站分析的报表反馈给所述请求端。一种应用网站分析系统进行数据采集和分析的方法,包括以下步骤SI,通过所述镜像端口获取所述web服务器收到和发出的全部数据包;S2,分析所述数据包,从所述数据包中获取http协议数据包;S3,分析所述http协议数据包中的Request报文数据,得到Request报文必要信息;S4,分析所述http协议数据包中的Response报文数据,得到Response报文必要信息;S5,将所述Request报文数据的所述Request报文必要信息,和与所述Request报文数据相对应的Response报文数据的Response报文必要信息组合在一起,形成访问网站的一次完整访问信息记录;S6,将所述完整访问信息记录写入数据库和/或数据文件中;S7,在预设时间段内循环执行S2-S6,从而形成网站分析基础数据;S8,根据预设条件和指定格式对所述数据库和/或数据文件中所述网站分析基础数据进行分析归纳形成网站分析报表。优选的,所述Request报文必要信息包括访问者的IP地址、访问的具体域名、访问的具体URL、Refrence信息和携带的Cookies ;所述Response报文必要信息包括应答状态码、携带的内容类型和报文长度。优选的,SI具体为,通过所述镜像端口获取,得到所有发送到所述web服务器以及从所述web服务器发出的报文,并将所述报文分离成上行和下行流量;和/或 S2具体为,通过对所述上行和下行流量中TCP载荷的内容分析区分,获取得到http协议报文;和/或S3具体为,对所述http协议报文中的Request报文进行解码处理,分离出Request必要信息,并将所述Request必要信息缓冲;和/或S4具体为,对所述http协议报文中的Response报文进行解码处理,分离出Response必要信息,并将所述Response必要信息缓冲;和/或S5具体为,把包含有所述Request必要信息的Request报文缓存,并等待与该Request报文相对应的Response报文,当获取到与该Request报文对应的Response报文后,则将相互对应的Request报文中的Request必要信息和Response报文中的Response必要信息合并组合,形成访问网站的一次完整访问信息记录;和/ 或S6具体为,将所述网站分析基础数据按照预设格式和规则,将一次完整的用户访问按照访问时间、访问者信息、访问的类型几个不同的维度分布存放在数据库和或数据文件中;一种应用网站分析系统进行数据采集和分析的装置,其特征在于,包括流量采集模块,用于通过所述镜像端口获取所述web服务器收到和发出的全部数据包;http协议分析模块,用于通过所述镜像端口获取所述web服务器收到和发出的全部数据包;Request报文分析模块,用于分析所述http协议数据包中的Request报文数据,得到Reques本文档来自技高网
...

【技术保护点】
一种网站分析系统,包括防火墙、网络交换机和web服务器,其特征在于,所述网络交换机为具备镜像端口的网络交换机,所述镜像端口上连接有网站分析服务器;所述镜像端口用于通过流量镜像方式获取连接有所述网站分析服务器的通讯端口的通讯数据。

【技术特征摘要】
1.一种网站分析系统,包括防火墙、网络交换机和web服务器,其特征在于,所述网络交换机为具备镜像端口的网络交换机,所述镜像端口上连接有网站分析服务器;所述镜像端口用于通过流量镜像方式获取连接有所述网站分析服务器的通讯端口的通讯数据。2.根据权利要求I所述的网站分析系统,其特征在于,所述网站分析服务器包括流量采集模块、http协议分析模块、Request报文分析模块、Response报文分析模块、访问信息收集模块和网站分析基础数据库;所述流量采集模块、所述http协议分析模块、所述Request报文分析模块、所述Response报文分析模块、所述访问信息收集模块和所述网站分析基础数据库顺序连接。3.根据权利要求I所述的网站分析系统,其特征在于,所述网站分析系统还包括访问数据挖掘模块,所述访问数据挖掘模块用于根据请求端指定的分析条件对所述网站分析基础数据库中的数据进行筛选形成网站分析的报表并将所述网站分析的报表反馈给所述请 求端。4.一种应用权利要求I或2或3所述的网站分析系统进行数据采集和分析的方法,其特征在于,包括以下步骤 SI,通过所述镜像端口获取所述web服务器收到和发出的全部数据包; S2,分析所述数据包,从所述数据包中获取http协议数据包; 53,分析所述http协议数据包中的Request报文数据,得到Request报文必要信息; 54,分析所述http协议数据包中的Response报文数据,得到Response报文必要信息; 55,将所述Request报文数据的所述Request报文必要信息,和与所述Request报文数据相对应的Response报文数据的Response报文必要信息组合在一起,形成访问网站的一次完整访问信息记录; S6,将所述完整访问信息记录写入数据库和/或数据文件中; S7,在预设时间段内循环执行S2-S6,从而形成网站分析基础数据; S8,根据预设条件和指定格式对所述数据库和/或数据文件中所述网站分析基础数据进行分析归纳形成网站分析报表。5.根据权利要求4所述的方法,其特征在于,所述Request报文必要信息包括访问者的IP地址、访问的具体域名、访问的具体URL、Refrence信息和携带的Cookies ;所述Response报文必要信息包括应答状态码、携带的内容类型和报文长度。6.根据权利要求4或5所述的方法,其特征在于, SI具体为,通过所述镜像端口获取,得...

【专利技术属性】
技术研发人员:王宁
申请(专利权)人:北京鼎震科技有限责任公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1