一种WEB分类控制和日志审计的方法技术

技术编号:10802692 阅读:70 留言:0更新日期:2014-12-24 10:08
本发明专利技术公开了一种WEB分类控制和日志审计的方法,其首先,识别出网站访问报文,并将所要记录的信息插入队列中;再通过定时器任务,将队列中的网站访问日志写入数据库中。该方法基于模式匹配、DPI识别以及嵌入式数据库技术,有效解决现有技术所存在的问题。

【技术实现步骤摘要】
【专利摘要】本专利技术公开了一种WEB分类控制和日志审计的方法,其首先,识别出网站访问报文,并将所要记录的信息插入队列中;再通过定时器任务,将队列中的网站访问日志写入数据库中。该方法基于模式匹配、DPI识别以及嵌入式数据库技术,有效解决现有技术所存在的问题。【专利说明】—种WEB分类控制和日志审计的方法
本专利技术涉及计算机网络
,具体涉及网站访问行为管理和监控技术。
技术介绍
由于在企业、单位中,经常会有一些员工在上班时间浏览一些与工作无关的娱乐网站,导致工作效率下降。因此这些企业、单位就希望能够采取某些方法对员工的网站访问行为进行管理,禁止其在上班时间访问某些类别的网站,以及保存其上网的历史记录。 目前有一些厂商已经提供了该功能,但是许多都是简单地记录http报文中的Host字段或者URI字段的内容,这会导致记录的信息过于庞大或者不够准确,因此实用性不强。 归结起来主要有以下几个不足之处: (I)有的提供专门的设备接在路由器WAN 口后面,如果有多个WAN 口的话就需要多台,很不方便。 (2)会把许多p2p下载软件发出的伪浏览器报文误识别为网站访问报文。 (3)有的为了减少网页访问记录数量,就只记录http请求报文中HOST字段的值,但是该字段的值表示的是网站的名称,并不能准确记录用户究竟访问了哪一个网页,因此意义不大。 (4)有的记录的是GET后面的字段,但是这容易导致多余记录的问题,例如访问一个www.sina.com.cn的时候,同时发出多个HTTP的GET请求,但我们只需要记录www.sina.com.cn这条原始网页访问记录,其他的并发的衍生出的众多的广告、推送、图片等链接信息不需要记录。 (5)仅仅根据发出去的http请求报文来记录上网信息,这样的话在网络不通或者网站根本无法访问的情况下仍然会留下上网记录,这是不合理的。 (6)所有的网站信息统一放在一个数据库中,没有根据使用频率进行分类,导致查询效率低下。
技术实现思路
本专利技术针对现有网站访问行为管理和监控技术所存在的各项缺陷,而提供一种WEB分类控制和日志审计的方法。该方法基于模式匹配、DPI识别以及嵌入式数据库技术,有效解决现有技术所存在的问题。 为了达到上述目的,本专利技术采用如下的技术方案: 一种WEB分类控制和日志审计的方法,所述方法包括如下步骤: (I)识别出网站访问报文,并将所要记录的信息插入队列中; (2)通过定时器任务,将队列中的网站访问日志写入数据库中。 在本专利技术的优选实例中,所述步骤(I)中采用DPI技术识别出真正的HTTP请求报文。 进一步的,采用DPI技术分析报文中是否含有Accept-Encoding:字段,如果没有含有该字段,则认为是伪装成浏览器报文。 进一步的,所述步骤(I)在识别报文后,将识别出的HTTP请求报文与网址库中存储的网址信息进行类型匹配,判断HTTP请求报文对应的网站是否属于允许访问的网站类别范围。所述网址库实际包括存放完整网址库信息的第三级比较表、存放从第三级比较表中挑选出的热门网站的网址信息的第二级比较表、存放用户最近最经常访问网站的网址信息的第一级比较表。在进行类型匹配时,优先与第一级比较表中的信息进行匹配,若未找到则继续匹配第二级比较表,仍未找到则匹配第三级比较表,如果还是没有找到,则记录网址类型为未分类。未分类的暂定为一律允许。 再进一步的,若HTTP请求报文对应的网站判断为属于允许访问的网站,进一步获取报文中Referer字段的信息,根据Referer字段采取不同的策略,如果该字段非空,就记录该字段内容,否则将Host字段与GET字段后面的内容拼接后记录到内存队列中。 再进一步的,所述步骤(I)中的内存队列中的流节点是在收到一条http请求报文并在获取访问网站的网址信息及其控制类别的以后,根据报文的五元组(协议号、源IP地址、源端口、目的IP地址、目的端口)信息来建立并加入的,每一个新加入队列的流节点将自动被维护一个名为CHECKREQ的初始状态。在此状态基础上如果收到访问网站的回应报文且http状态值是200 (成功)或者304 (未修改)就将队列中相应的流节点的状态切换为CHECKREPLY。且在后续的定时器定时写数据库操作中,只有状态为CHECKREPLY的才会真正被移出队列并写入数据库中。 再进一步的,在网站访问日志保存到数据库以后,所述第一级比较表中存储的信息将根据数据库中记录的网站访问日志信息不断的动态更新。 进一步的,所述数据库包括两张数据表,第一张数据表存储最近一段时间内的网站访问日志信息,第二张数据表存储所有的网站访问日志信息,并且规定时间内将第一张数据表内数据移至第二张数据表中。 本专利技术的方案在具体实施具有如下优点: 1.避免将不是网页访问报文的伪浏览器报文误识别并记录下来。 2.准确记录用户访问的确切页面,同时也避免将一些附带发出的http请求报文当作网页访问记录下来。 3.能够有效过滤掉浏览器发出的不可达的网站的访问日志信息,减少无效访问日志的审计和处理,节约系统资源。 4.网址类型匹配采用多级匹配的策略,提高了效率。 5.可用于各企业、单位对员工的网站访问行为进行管理和监控。 【专利附图】【附图说明】 以下结合附图和【具体实施方式】来进一步说明本专利技术。 图1为本专利技术中报文处理的流程示意图; 图2为本专利技术中网页访问日志信息写入数据库的流程示意图。 【具体实施方式】 为了使本专利技术实现的技术手段、创作特征、达成目的与功效易于明白了解,下面结合具体图示,进一步阐述本专利技术。 本专利技术基于模式匹配、DPI识别以及嵌入式数据库技术实现WEB分类控制和日志审计,主要包括如下步骤: 首先,识别出网站访问报文,并将所要记录的信息插入队列中; 再者,通过定时器任务,将队列中的网站访问日志写入数据库中。 基于上述原理方案,其具体的实施方案如下: (I)在识别报文时,采用DPI技术排除掉常见的伪浏览器报文,从而识别出真正的HTTP请求报文。具体方法是通过DPI技术分析报文中是否含有Acc印t-Encoding:字段,如果没有含有该字段,则认为是伪装成浏览器报文。这样针对有些下载软件以及网络电视使用伪浏览器报文下载数据,只根据协议号和端口号无法确定该报文究竟是真正的HTTP请求报文还是伪浏览器报文,通过该方案能够有效的别出真正的HTTP请求报文。 (2)在识别报文后,将识别出的HTTP请求报文与网址库中存储的网址信息进行类型匹配,判断HTTP请求报文对应的网站是否属于允许访问的网站类别范围。 其中,网址库用于存储网址类型匹配用的网址信息,如果只用一张大表的话就会导致查询效率低下,这里使用三张表来分级查询:表siteall中存放完整的网址库信息,数据量较大,只需存放在U盘中,无需加载到内存里;表sitecomn中存放的是从表siteall中挑选出来的热门网站的网址信息,数据量不是很大,因此可以加载到内存,作为第二级比较,存放在comn_addr中中存放的是用户最近几天最经常访问的网站的网址信息,也需要加载到内存中,作为第一级比较,存放着freq_addr中;在网站类本文档来自技高网
...

【技术保护点】
一种WEB分类控制和日志审计的方法,其特征在于,所述方法包括如下步骤:(1)识别出网站访问报文,并将所要记录的信息插入队列中;(2)通过定时器任务,将队列中的网站访问日志写入数据库中。

【技术特征摘要】

【专利技术属性】
技术研发人员:汪革彭双庭郭海涛陈肖方宇
申请(专利权)人:上海博达数据通信有限公司
类型:发明
国别省市:上海;31

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1