一种网页审计方法及装置制造方法及图纸

技术编号:5264801 阅读:207 留言:0更新日期:2012-04-11 18:40
本发明专利技术提供一种网页审计方法及装置,其应用于网络设备中,用于对用户的上网行为进行审计,该方法包括:从用户的HTTP请求报文中提取用户访问的URL;根据预定规则从步骤A提取的URL中过滤出代表主要链接的主要URL;对用户访问所述主要URL的报文进行解压缩处理,并从中获得所述主要URL所指向的网页的特征信息,然后将所述特征信息作为审计日志信息保存起来。本发明专利技术通过区分主次链接,大量减少了网络设备的资源消耗,采用基于VCPU的内存申请方式,更进一步地减少了内存资源的消耗。

【技术实现步骤摘要】

本专利技术涉及数据通信技术,尤其涉及一种网页审计的方法及装置。
技术介绍
在网络技术普及的今天,企业员工通过企业网络接入互联网获取各种资讯;然而 员工的上网行为可能引发各种安全隐患,比如说访问了一些含有木马的网站可能会引发机 密信息泄露等问题。网页浏览审计用于审计用户所访问的网页,记录用户的上网行为。并对 用户所访问的非法网站加已控制。网页浏览审计中应用了 gzip解压缩算法(GNU' s Not Unix Zip,自由软件压缩算法),gzip算法是一种非常流行的压缩算法,该算法已成为http 协议(超文本传输协议)中标准压缩算法。现有的网页浏览审计方案是报文经过网络设备的应用识别引擎进行深度检测,识 别出网页浏览协议后进入网页浏览审计框架,通过分析报文提取出所访问网页的HOST(主 机)及URL,并分析网页的URL过滤掉图片、动画、flash、脚本等信息,并使用gzip解压缩 算法或修改用户访问网页所请求的报文头获取网页标题。将获取的HOST和URL组织成一 个完整的网址发送到设备上已便管理员查看。在获取标题时使用了两种方法,gzip解压缩 方法就是对每个会话上用户访问的网页内容进行gzip解压缩,在解压完后的内容中查找 网页标题;修改用户访问网页请求报文头意思就是当用户访问网页时网页浏览审计框架获 取用户访问网页的请求头,通过修改请求头中的参数,让服务器采用明文方式传输网页内 容这样设备就可以获取到网页标题。现有网页浏览审计方案存在已下缺点(1)由于通过URL只过滤掉了图片、动画、flash、脚本等信息。由于现在的网页一 般都经过切分处理,一个完整的网页被切分完几块十几块。这样每次访问一个网页时就相 当于访问了几个网页,因此网页浏览审计会出现大量无用的日志,日志误报率高。(2)网页浏览审计需要获取用户所访问网页的标题,现有的技术方案有如下两种 一种是通过修改用户请求的报文头,由于这种方式使得网页内容在传输时没有压缩传输的 信息量比使用压缩时要大得多,因此这种方式会降低网络速度。另一种是使用gzip解压缩 算法。当使用gzip解压缩算法时每个会话大约需要占用100K内存,当设备存在大量会话 时就会占用大量内存从而导致设备内存不足。由于设计上的局限性,当前的网页浏览审计日志误报率高,存在大量会话时难以 使用gzip解压缩方式获取网页标题,严重影响了日志的准确性及网络设备的性能。
技术实现思路
本专利技术提供一种网页审计装置,其应用于网络设备中,用于对用户的上网行为进 行审计,包括URL提取单元、主次链接过滤单元以及解压缩处理单元,其中,所述URL提取单元,用于从用户的HTTP请求报文中提取用户访问的URL,并将提取 到的URL提交给主次链接过滤单元;所述主次链接过滤单元,用于根据预定规则从提交的URL中过滤出代表主要链接 的主要URL,并将所述主要URL提交解压缩处理单元;所述解压缩处理单元、用于对用户访问所述主要URL的报文进行解压缩处理,并 从中获得所述主要URL所指向的网页的特征信息,然后将所述特征信息作为审计日志信息 保存起来。优选地,其中所述网络设备至少一个物理CPU,所述物理CPU被虚拟为多个虚拟 CPU,该装置还包括内存管理单元,用于以运行解压缩处理单元的虚拟CPU为单元进行内 存申请。优选地,,还包括HTTP报文识别单元,用于根据HTTP请求报文的特征从用户报文 中识别出HTTP请求报文,并将识别到的HTTP请求报文提交给URL提取单元。优选地,其中所述特征信息为网页标题。优选地,所述预定规则包括判断所述URL中是否携带有URL参数,若未携带URL 参数则判定为代表主要链接的URL,若携带有URL参数,则判定将该URL作为次要链接丢 弃;或者判断HTTP请求头中的“Content-Type”字段中的值是否为text/*类型,如果 是则判定为主要链接,如果不是则判定为次要链接。优选地,其中所述特征信息为网页标题,所述预定规则进一步包括判断代表主要 链接的主要URL所指向的网页是否具有可以提取的标题,如果没有则放弃保存所述网页标题。本专利技术还提供一种网页审计方法,其应用于网络设备中,用于对用户的上网行为 进行审计,该方法包括步骤A、从用户的HTTP请求报文中提取用户访问的URL ;步骤B、根据预定规则从步骤A提取的URL中过滤出代表主要链接的主要URL ;步骤C、对用户访问所述主要URL的报文进行解压缩处理,并从中获得所述主要 URL所指向的网页的特征信息,然后将所述特征信息作为审计日志信息保存起来。优选地,其中所述网络设备至少一个物理CPU,所述物理CPU被虚拟为多个虚拟 CPU,步骤C中解压缩处理的内存申请是以运行解压缩处理的虚拟CPU为单元进行的。优选地,还包括步骤A之前还包括步骤D,根据HTTP请求报文的特征从用户报文 中识别出HTTP请求报文。优选地,其中所述特征信息为网页标题。优选地,其特征在于,所述预定规则包括判断所述URL中是否携带有URL参数,若 未携带URL参数则判定为代表主要链接的URL,若携带有URI参数,则判定将该URL作为次 要链接丢弃;或者判断HTTP请求头中的“Content-Type”字段中的值是否为text/*类型,如果 是则判定为主要链接,如果不是则判定为次要链接。优选地,其中所述特征信息为网页标题,所述预定规则进一步包括判断代表主要 链接的主要URL所指向的网页是否具有可以提取的标题,如果没有则放弃保存所述网页标题。相较于现有技术,本专利技术通过区分主次链接,大量减少了网络设备的资源消耗,采用基于VCPU的内存申请方式,更进一步地减少了内存资源的消耗。 附图说明图1是网页审计的基本网络环境逻辑图。图2是本专利技术网页审计装置逻辑结构图。 图3HTTP报文的基本格式示意图。具体实施例方式在典型的企业网环境中,用户上网行为的审计通常由出口设备,即位于内网和外 网之间的网络设备完成,通常称之为网关。企业网关除了要完成报文转发这一基本功能之 外,通常承担着很多应用的执行,比如NAT(网络地址转换)功能、安全处理、Qos (服务质 量)功能、访问控制、上网行为审计等等。从设计上来说,既可以通过软件实现,也可以通过 插入业务板来支持各种应用。对于复杂的应用来说,后者是目前来说更为常见的实现方式。请参考图1,在企业网络环境中,多个用户200通过一个网络设备100(比如说,企 业网关)接入互联网,实现我们通俗意义所说的用户上网,因此一般来说用户的所有访问 外网的报文都会经过网关,因此较佳的实施方式是在此对用于的上网行为进行审计操作, 也可以把流量旁路到另一个网络设备(比如服务器)上进行审计操作。从整体上来看,本 专利技术的目标是要通过HTTP报文中的URL判断主要链接和次要链接,对用户访问网页的内容 进行主次区分,把审计的精力集中在访问主要链接的内容上,从而大幅度减轻设备在网页 审计业务上的资源消耗。请参考图2所示的本专利技术网页审计装置10逻辑结构图,所述网页审计装置包括 HTTP报文识别单元20、URL提取单元30、主次链接过滤单元40、解压缩处理单元50。所述 网页审计装置在运行其对应的执行流程如下步骤101,根据HTTP请求报文的特征从用户报文中识别出HTTP请求报文本文档来自技高网
...

【技术保护点】
一种网页审计装置,其应用于网络设备中,用于对用户的上网行为进行审计,包括URL提取单元、主次链接过滤单元以及解压缩处理单元,其特征在于:所述URL提取单元,用于从用户的HTTP请求报文中提取用户访问的URL,并将提取到的URL提交给主次链接过滤单元;所述主次链接过滤单元,用于根据预定规则从提交的URL中过滤出代表主要链接的主要URL,并将所述主要URL提交解压缩处理单元;所述解压缩处理单元、用于对用户访问所述主要URL的报文进行解压缩处理,并从中获得所述主要URL所指向的网页的特征信息,然后将所述特征信息作为审计日志信息保存起来。

【技术特征摘要】

【专利技术属性】
技术研发人员:许志宏张晓东田涛李晶楠
申请(专利权)人:杭州迪普科技有限公司
类型:发明
国别省市:86[中国|杭州]

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1