web机器人流量识别方法及装置制造方法及图纸

技术编号:12732094 阅读:61 留言:0更新日期:2016-01-20 15:31
本发明专利技术公开了一种web机器人流量识别方法,包括以下步骤:解析网络数据流中请求访问的页面资源信息,根据所述页面资源信息建立页面访问模型;基于所述页面访问模型对访问页面的行为进行分析;根据分析结果识别所述网络数据流中的web机器人流量。本发明专利技术还公开了一种web机器人流量识别装置。本发明专利技术可根据web机器人访问页面的习惯性行为对页面访问模型进行比对分析,从而有效地识别出网络数据流中web机器人在页面访问行为中所产生的流量。

【技术实现步骤摘要】

本专利技术涉及网络安全
,尤其涉及一种web机器人流量识别方法及装置
技术介绍
据分析统计,目前,Web机器人流量在网站流量中占到了50%以上,如在Bash漏洞爆出来后,互联网上立即出现了大量利用这个漏洞对全网Web服务器进行攻击的机器人流量,据统计,全球大概存在142000主机受到这个漏洞的影响。此外,除了一般定义中的攻击者,还有另一类攻击系统,攻击系统会对全世界的网站进行持续的扫描,并对网站的版本信息,网络的架构,以及服务器开放的端口、服务甚至漏洞等全部进行记录。一旦发现存在漏洞,攻击者就可以第一时间发送攻击,这种方式也将带来大量的Web机器人流量。攻击者还可利用Web机器人收集Web站点上发布的敏感信息,如Email地址、身份证号码、生日、电话号码等,用来发送垃圾邮件或者传播病毒。Web机器人蠕虫还可通过Web机器人自动在Web站点上发表文章、评论等,使得Web站点充斥各种垃圾信息或者散布谣言、反动言论等。上述攻击行为均会在网站流量中带来大量的Web机器人流量,影响网站的正常运营。现有的识别web机器人流量方法中一般是由WAF、IPS系统利用字符串、正则表达式等来定义攻击和漏洞的特征码,通过对数据包进行深度内容检测如字符串搜索、正则表达式匹配等来识别是否为攻击,但存在如下不足:1、特征码是通过分析现有的攻击手段和漏洞提取出来的,因此只能识别已知的攻击和漏洞,无法识别出Web机器人利用未知漏洞或者新的攻击内容来进行的攻击。2、现有系统通过定义攻击来识别异常,如SQL注入、XSS攻击等。对于网站的正常功能使用则不会识别为攻击,如发表评论、访问页面。但Web机器人利用的正好是网站提供的正常功能,如访问页面收集Email信息,自动发布垃圾评论和文章,攻击系统扫描网站收集网站的架构信息等行为。对于Web机器人的这些攻击行为,WAF和IPS系统都无法提取出特征码,因此也无法对Web机器人进行识别。上述内容仅用于辅助理解本专利技术的技术方案,并不代表承认上述内容是现有技术。
技术实现思路
本专利技术的主要目的在于提供一种web机器人流量识别方法及装置,旨在有效地对Web机器人流量进行识别。为实现上述目的,本专利技术提供的一种web机器人流量识别方法,所述方法包括以下步骤:解析网络数据流中请求访问的页面资源信息,根据所述页面资源信息建立页面访问模型;基于所述页面访问模型对访问页面的行为进行分析;根据分析结果识别所述网络数据流中的web机器人流量。优选地,所述解析网络数据流中请求访问的页面资源信息,根据所述页面资源信息建立页面访问模型的步骤包括:对网络数据流中的页面访问请求进行解析获取URI请求信息,并根据所述URI请求信息建立URI请求序列的链接关系图,将所述链接关系图作为页面访问模型。优选地,所述基于所述页面访问模型对访问页面的行为进行分析的步骤包括:根据网络数据流中的页面访问请求获取所述页面访问请求在浏览器中的响应内容,解析所述响应内容获取对应的浏览器URI请求,根据所述浏览器URI请求建立所述浏览器URI请求序列的链接关系图,将所述浏览器URI请求序列的链接关系图作为正常页面访问模型;将所述页面访问模型与所述正常页面访问模型进行比对;所述根据分析结果识别所述网络数据流中的web机器人流量的步骤包括:当根据比对结果分析在所述页面访问模型中访问页面的行为出现至少以下两种行为时,则识别为web机器人流量;该行为包括:未访问与所述响应内容相关的浏览器URI请求链接;对同一页面的访问次数超过预设次数;访问失败的页面的比例超过预设比例;访问的页面资源类型单一。优选地,所述根据分析结果识别所述网络数据流中的web机器人流量的步骤之后还包括:记录所述web机器人流量的源IP地址,并封锁所述源IP地址的流量。优选地,所述根据分析结果识别所述网络数据流中的web机器人流量的步骤之后还包括:记录所有识别的web机器人流量日志,并对所有识别的web机器人流量进行归类展示,以配置对应的安全策略。此外,为实现上述目的,本专利技术还提供一种web机器人流量识别装置,所述web机器人流量识别装置包括:解析建立模块,用于解析网络数据流中请求访问的页面资源信息,根据所述页面资源信息建立页面访问模型;分析模块,用于基于所述页面访问模型对访问页面的行为进行分析;识别模块,用于根据分析结果识别所述网络数据流中的web机器人流量。优选地,所述解析建立模块具体用于:对网络数据流中的页面访问请求进行解析获取URI请求信息,并根据所述URI请求信息建立URI请求序列的链接关系图,将所述链接关系图作为页面访问模型。优选地,所述分析模块具体用于:根据网络数据流中的页面访问请求获取所述页面访问请求在浏览器中的响应内容,解析所述响应内容获取对应的浏览器URI请求,根据所述浏览器URI请求建立所述浏览器URI请求序列的链接关系图,将所述浏览器URI请求序列的链接关系图作为正常页面访问模型;将所述页面访问模型与所述正常页面访问模型进行比对;所述识别模块具体用于:当根据比对结果分析在所述页面访问模型中访问页面的行为出现至少以下两种行为时,则识别为web机器人流量;该行为包括:未访问与所述响应内容相关的浏览器URI请求链接;对同一页面的访问次数超过预设次数;访问失败的页面的比例超过预设比例;访问的页面资源类型单一。优选地,所述web机器人流量识别装置还包括:封锁模块,用于记录所述web机器人流量的源IP地址,并封锁所述源IP地址的流量。优选地,所述web机器人流量识别装置还包括:归类模块,用于记录所有识别的web机器人流量日志,并对所有识别的web机器人流量进行归类展示,以配置对应的安全策略。本专利技术提出的一种web机器人流量识别方法及装置,通过对网络数据流中请求访问的页面资源信息进行解析,建立能反映出访问页面行为的页面访问模型,再对该页面访问模型进行分析即可识别出网络数据流中的web机器人流量。由于是根据访问页面的行为来对web机器人进行识别,可根据web机器人访问页面的习惯性行为对页面访问模型进行比对分析,从而有效地识别出网络数据流中web机器人在页面访问行为中所产生的流量。附图说明图1为本专利技术web机器人流量识别方法第一实施例的流程示意图;图2为本专利技术web机器人流本文档来自技高网
...

【技术保护点】
一种web机器人流量识别方法,其特征在于,所述方法包括以下步骤:解析网络数据流中请求访问的页面资源信息,根据所述页面资源信息建立页面访问模型;基于所述页面访问模型对访问页面的行为进行分析;根据分析结果识别所述网络数据流中的web机器人流量。

【技术特征摘要】
1.一种web机器人流量识别方法,其特征在于,所述方法包括以下步骤:
解析网络数据流中请求访问的页面资源信息,根据所述页面资源信息建
立页面访问模型;
基于所述页面访问模型对访问页面的行为进行分析;
根据分析结果识别所述网络数据流中的web机器人流量。
2.如权利要求1所述的web机器人流量识别方法,其特征在于,所述解
析网络数据流中请求访问的页面资源信息,根据所述页面资源信息建立页面
访问模型的步骤包括:
对网络数据流中的页面访问请求进行解析获取URI请求信息,并根据所
述URI请求信息建立URI请求序列的链接关系图,将所述链接关系图作为页
面访问模型。
3.如权利要求2所述的web机器人流量识别方法,其特征在于,所述基
于所述页面访问模型对访问页面的行为进行分析的步骤包括:
根据网络数据流中的页面访问请求获取所述页面访问请求在浏览器中的
响应内容,解析所述响应内容获取对应的浏览器URI请求,根据所述浏览器
URI请求建立所述浏览器URI请求序列的链接关系图,将所述浏览器URI请
求序列的链接关系图作为正常页面访问模型;
将所述页面访问模型与所述正常页面访问模型进行比对;
所述根据分析结果识别所述网络数据流中的web机器人流量的步骤包
括:当根据比对结果分析在所述页面访问模型中访问页面的行为出现至少以
下两种行为时,则识别为web机器人流量;该行为包括:
未访问与所述响应内容相关的浏览器URI请求链接;
对同一页面的访问次数超过预设次数;
访问失败的页面的比例超过预设比例;
访问的页面资源类型单一。
4.如权利要求3所述的web机器人流量识别方法,其特征在于,所述根
据分析结果识别所述网络数据流中的web机器人流量的步骤之后还包括:
记录所述web机器人流量的源IP地址,并封锁所述源IP地址的流量。
5.如权利要求3所述的web机器人流量识别方法,其特征在于,所述根
据分析结果识别所述网络数据流中的web机器人流量的步骤之后还包括:
记录所有识别的web机器人...

【专利技术属性】
技术研发人员:李凯
申请(专利权)人:深信服网络科技深圳有限公司
类型:发明
国别省市:广东;44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1