一种网站日志异常会话分析方法技术

技术编号:9358653 阅读:188 留言:0更新日期:2013-11-21 01:59
本发明专利技术公开了一种网站日志异常会话分析方法,其通过将用户会话形成为一个独立的有目的的访问单元(比如一个页面、一个图片、一次脚本访问等),在分析的初期,采用结合日志自动访问网站的方式分析出正常会话流程,并且在后续的处理过程中不断增加正常会话流,将所有正常之外的会话都被归结为异常,同时异常会区分成不同的等级分别显示和处理。该方法从异常分析为出发点,能够大大提高网站日志异常分析的效率,不会遗漏任何异常访问会话,对分析黑客入侵的安全/取证应用也最为有用。

【技术实现步骤摘要】
一种网站日志异常会话分析方法
本专利技术涉网站数据的分析处理技术,具体涉及网站日志的分析技术。
技术介绍
网站日志分析有很多不同的应用领域,根据应用目的不同,对日志分析的要求和处理方式会不一样。以分析系统性能为目标的Web数据挖掘的研究多采用统计学的方法;以改进系统设计为目标的数据挖掘多采用关联规则挖掘的方法;以理解用户意图为目标的数据挖掘研究多采用聚类挖掘和分类挖掘的方法。在这些领域中都会涉及到数据清理、会话标识和用户标识等技术,但是因为应用的要求不同,对网站日志的分析和处理方式也大不相同。对于网站数据的异常使用,异常包括访问目的的异常、访问方式的异常、访问行为以及访问工具的异常。网站提供的是内容和应用信息,正常的访问用户使用浏览器访问网站上的页面内容,使用网站解决某一类的问题。异常用户的访问目的在于取得不一样的信息和数据,所以其访问方式、访问行为和访问工具都会有所不同。网站数据的异常会话分析应用于证据分析领域时,则对网站日志的处理要求更加精细,不能漏过一点一滴的异常,才能最终找出攻击或网站异常来源。数据清理是指清除日志记录中不相关的数据,传统的网站分析关注的是用户访问的链接页面,对于页面中包括的图片、显示文法、脚本等都认为是页面的一部分,在数据清理的过程中将会直接删除这些不相关的内容。对于异常分析来说,没有什么数据是不相关的,每一个页面包括多少内容最终都是定数,少于或者多于这一定数都可以认为是异常。用户会话是指用户对服务器的一次有效访问,正常网站期待的用户会话就是用户点击某一链接,网站将该链接相关的所有数据内容发送给用户。传统的会话分析可能包括用户一次访问网站所涉及的多个页面的相互链接,同时使用了简单的会话判断方法,在数据清理后保留下来的日志项构成了会话的内容。传统的网站日志分析聚焦于网站的正常访问模式,如进行负载优化分析、用户模式分析等。这种网站日志分析方法所需要分析的网站日志条数非常大,利用其进行网站日志异常分析的效率非常的低。再者,传统的网站日志分析所采用的方法不适用于分析黑客入侵的安全/取证应用。由于在黑客类案件中,网站相关的黑客活动包括踩点、扫描、发起攻击、上传、提权、控制、拒绝服务攻击等,这些访问行为与正常的用户访问方式、访问行为和访问工具有很大区别。所以传统的网站日志分析方法根本不适用于黑客入侵的安全/取证分析。
技术实现思路
本专利技术针对现有网站日志分析效率低且不适用于黑客入侵安全/取证的分析等问题,而提供一种网站日志异常会话分析方法。该方法不仅能够大大提高网站日志异常分析的效率,而且对分析黑客入侵的安全/取证应用也最为有用。为了达到上述目的,本专利技术采用如下的技术方案:一种网站日志异常会话分析方法,所述分析方法将用户会话形成为一个独立的有目的的访问单元,在分析的初期,采用结合日志自动访问网站的方式分析出正常会话流程,并且在后续的处理过程中不断增加正常会话流,将所有正常之外的会话都被归结为异常,同时异常会区分成不同的等级分别显示和处理。在本专利技术的优选实例中,所述分析方法具体实施步骤如下:(1)加载网站日志,通过对日志的初步分析,得到网站访问的入口点和页面/文件访问地址信息;(2)模拟浏览器和用户行为,启动爬虫引擎对网站的页面进行抓取,分析每个页面的结构,生成页面文档对象模型以及页面/文件内容间链接信息;(3)使用爬虫生成的文档对象模型和页面链接信息,同时结合日志的访问信息,对网站日志进行二次分析,生成初步的会话信息流,同时对网站会话进行正常/异常进行标注;(4)使用URL模式/访问方式/返回结果等对异常和正常会话进行归类,并反馈给用户,用户可以修正异常/正常会话属性,并可以合并/分拆/调整归类;(5)根据用户的调整,对日志会话进行处理,输出所有异常会话流,异常会根据内置的配置模式分成不同的等级进行显示和进一步处理。进一步的,所述步骤(1)扫描每一条日志,解析日志的客户端IP、访问时间、访问方法、访问的页面链接、客户端程序、服务器返回值、服务器状态等,分析得到的每一个访问的页面链接(URL)就是网站的页面/文件访问地址。进一步的,所述步骤(2)模拟浏览器对网站的每一个不同的URL进行访问,分析返回页面内容的文档对象模型,如果某文档对象的访问不会引起对其它对象的引用访问,则确定为一个原子访问;如果访问某文档会同时获取其它文档对象的内容,则其它文档对象的连接包含在该文档中成为一个原子访问,包含多个文档对象链接的原子访问的构成标准会话,仅包含一个文档对象访问的原子访问不构成标准会话。进一步的,所述步骤(3)根据步骤(2)中确定的会话和原子访问对日志进行扫描处理,将网站日志流转换成会话信息流;将所有标准会话确定为正常会话,将所有非正常会话确定为异常会话。进一步的,所述步骤(4)中按照模式匹配的方式进行合并/分拆/调整归类。进一步的,所述步骤(3)通过如下步骤进行网站日志进行会话处理:(31)完全符合模拟浏览器访问规律的页面会话被认定为正常;(32)符合预先配置模式的会话被认定为异常;(33)某一种会话用户重复访问超过设定的配置值被认定为异常;(33)低于某一设定配置值的页面会话被认定为异常;(34)不能标记为正常的页面会话被认定为异常;(35)通过人工交互的方式对会话分析结果进行处理,对会话的正常/异常进行标注更改,对会话模式进行归并,使得正常会话的种类减少、数量增多。进一步的,所述步骤(5)过滤所有的正常会话,仅显示日志中的异常会话,根据配置的不同为异常会话生成不同的级别,具有类似级别和访问类型的异常显示为相同的模式。使用本专利技术所述的方法进行网站日志的异常分析,在会话分析阶段可将网站日志的分析量缩减到原始日志条数的1/8,在排除正常访问日志会话之后,日志分析的规模可以缩减到原始日志条数的1/100,大大提高了网站日志异常分析的效率。具体实施方式为了使本专利技术实现的技术手段、创作特征、达成目的与功效易于明白了解,下面结合实例进一步阐述本专利技术。本专利技术提供的网站日志异常会话分析方法,其通过将用户会话形成为一个独立的有目的的访问单元(比如一个页面、一个图片、一次脚本访问等),在分析的初期,采用结合日志自动访问网站的方式分析出正常会话流程,并且在后续的处理过程中不断增加正常会话流,将所有正常之外的会话都被归结为异常,同时异常会区分成不同的等级分别显示和处理。该方案在具体实施时,主要包括如下三个部分:1)处理会话:通过对原始网站的扫描和分析,可以找出网站日志中的会话逻辑,从而得出网站日志中的精确会话流。2)枚举全部用户会话的模式:真实网站中的会话数量可能是很少的,比如一个公司站点,页面在进行综合后,不会超过20个。论坛网站的会话也不多,基本上可以归类于对模块的访问以及对具体页面的访问,其会话模式也是在20个以内。3)区别异常访问的会话和正常用户会话:出于异常网站使用目的的网站访问行为,其会话有别于正常会话模式。由此,网站日志异常会话分析方法在中首先要对网站日志中的会话进行分析,随后基于网站的会话流信息分析其异常。其具体实施如下:(1)加载网站日志,通过对日志的初步分析,得到网站访问的入口点和页面/文件内容间链接信息。该步骤在具体实施时,通过扫描每一条日志,解析日志的客户端IP、访问时间、访问方法、访问本文档来自技高网
...

【技术保护点】
一种网站日志异常会话分析方法,其特征在于,所述分析方法将用户会话形成为一个独立的有目的的访问单元,在分析的初期,采用结合日志自动访问网站的方式分析出正常会话流程,并且在后续的处理过程中不断增加正常会话流,将所有正常之外的会话都被归结为异常,同时异常会区分成不同的等级分别显示和处理。

【技术特征摘要】
1.一种网站日志异常会话分析方法,其特征在于,所述分析方法将用户会话形成为一个独立的有目的的访问单元,在分析的初期,采用结合日志自动访问网站的方式分析出正常会话流程,并且在后续的处理过程中不断增加正常会话流,将所有正常之外的会话都被归结为异常,同时异常会区分成不同的等级分别显示和处理;所述分析方法具体实施步骤如下:(1)加载网站日志,通过对日志的初步分析,得到网站访问的入口点和页面/文件访问地址信息;(2)模拟浏览器和用户行为,启动爬虫引擎对网站的页面进行抓取,分析每个页面的结构,生成页面文档对象模型以及页面/文件内容间链接信息;(3)使用爬虫生成的文档对象模型和页面链接信息,同时结合日志的访问信息,对网站日志进行二次分析,生成初步的会话信息流,同时对网站会话进行正常/异常进行标注;(4)使用URL模式/访问方式/返回结果对异常和正常会话进行归类,并反馈给用户,用户修正异常/正常会话属性,并可以合并/分拆/调整归类;(5)根据用户的调整,对日志会话进行处理,输出所有异常会话流,异常会根据内置的配置模式分成不同的等级进行显示和进一步处理。2.根据权利要求1所述的一种网站日志异常会话分析方法,其特征在于,所述步骤(1)扫描每一条日志,解析日志的客户端IP、访问时间、访问方法、访问的页面链接、客户端程序、服务器返回值、服务器状态,分析得到的每一个访问的页面链接就是网站的页面/文件访问地址。3.根据权利要求1所述的一种网站日志异常会话分析方法,其特征在于,所述步骤(2)模拟浏览器对网站的每一个不同的URL进行访问,分析返回页面内容的文...

【专利技术属性】
技术研发人员:陆道宏汤伟
申请(专利权)人:盘石软件上海有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1