web机器人流量识别方法及装置制造方法及图纸

技术编号：12732094 阅读：61 留言：0更新日期：2016-01-20 15:31

本发明专利技术公开了一种web机器人流量识别方法，包括以下步骤：解析网络数据流中请求访问的页面资源信息，根据所述页面资源信息建立页面访问模型；基于所述页面访问模型对访问页面的行为进行分析；根据分析结果识别所述网络数据流中的web机器人流量。本发明专利技术还公开了一种web机器人流量识别装置。本发明专利技术可根据web机器人访问页面的习惯性行为对页面访问模型进行比对分析，从而有效地识别出网络数据流中web机器人在页面访问行为中所产生的流量。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及网络安全
，尤其涉及一种web机器人流量识别方法及装置。
技术介绍
据分析统计，目前，Web机器人流量在网站流量中占到了50％以上，如在Bash漏洞爆出来后，互联网上立即出现了大量利用这个漏洞对全网Web服务器进行攻击的机器人流量，据统计，全球大概存在142000主机受到这个漏洞的影响。此外，除了一般定义中的攻击者，还有另一类攻击系统，攻击系统会对全世界的网站进行持续的扫描，并对网站的版本信息，网络的架构，以及服务器开放的端口、服务甚至漏洞等全部进行记录。一旦发现存在漏洞，攻击者就可以第一时间发送攻击，这种方式也将带来大量的Web机器人流量。攻击者还可利用Web机器人收集Web站点上发布的敏感信息，如Email地址、身份证号码、生日、电话号码等，用来发送垃圾邮件或者传播病毒。Web机器人蠕虫还可通过Web机器人自动在Web站点上发表文章、评论等，使得Web站点充斥各种垃圾信息或者散布谣言、反动言论等。上述攻击行为均会在网站流量中带来大量的Web机器人流量，影响网站的正常运营。现有的识别web机器人流量方法中一般是由WAF、IPS系统利用字符串、正则表达式等来定义攻击和漏洞的特征码，通过对数据包进行深度内容检测如字符串搜索、正则表达式匹配等来识别是否为攻击，但存在如下不足：1、特征码是通过分析现有的攻击手段和漏洞提取出来的，因此只能识别已知的攻击和漏洞，无法识别出Web机器人利用...

【技术保护点】
一种web机器人流量识别方法，其特征在于，所述方法包括以下步骤：解析网络数据流中请求访问的页面资源信息，根据所述页面资源信息建立页面访问模型；基于所述页面访问模型对访问页面的行为进行分析；根据分析结果识别所述网络数据流中的web机器人流量。

【技术特征摘要】
1.一种web机器人流量识别方法，其特征在于，所述方法包括以下步骤：
解析网络数据流中请求访问的页面资源信息，根据所述页面资源信息建
立页面访问模型；
基于所述页面访问模型对访问页面的行为进行分析；
根据分析结果识别所述网络数据流中的web机器人流量。
2.如权利要求1所述的web机器人流量识别方法，其特征在于，所述解
析网络数据流中请求访问的页面资源信息，根据所述页面资源信息建立页面
访问模型的步骤包括：
对网络数据流中的页面访问请求进行解析获取URI请求信息，并根据所
述URI请求信息建立URI请求序列的链接关系图，将所述链接关系图作为页
面访问模型。
3.如权利要求2所述的web机器人流量识别方法，其特征在于，所述基
于所述页面访问模型对访问页面的行为进行分析的步骤包括：
根据网络数据流中的页面访问请求获取所述页面访问请求在浏览器中的
响应内容，解析所述响应内容获取对应的浏览器URI请求，根据所述浏览器
URI请求建立所述浏览器URI请求序列的链接关系图，将所述浏览器URI请
求序列的链接关系图作为正常页面访问模型；
将所述页面访问模型与所述正常页面访问模型进行比对；
所述根据分析结果识别所述网络数据流中的web机器人流量的步骤包
括：当根据比对结果分析在所述页面访问模型中访问页面的行为出现至少以
下两种行为时，则识别为web机器人流量；该行为包括：
未访问与所述响应内容相关的浏览器URI请求链接；
对同一页面的访问次数超过预设次数；
访问失败的页面的比例超过预设比例；
访问的页面资源类型单一。
4.如权利要求3所述的web机器人流量识别方法，其特征在于，所述根
据分析结果识别所述网络数据流中的web机器人流量的步骤之后还包括：
记录所述web机器人流量的源IP地址，并封锁所述源IP地址的流量。
5.如权利要求3所述的web机器人流量识别方法，其特征在于，所述根
据分析结果识别所述网络数据流中的web机器人流量的步骤之后还包括：
记录所有识别的web机器人...

【专利技术属性】
技术研发人员：李凯，
申请(专利权)人：深信服网络科技深圳有限公司，
类型：发明
国别省市：广东;44

全部详细技术资料下载我是这个专利的主人