基于Web访问日志的爬虫行为识别方法及装置制造方法及图纸

技术编号：20160896 阅读：55 留言：0更新日期：2019-01-19 00:13

本申请中公开了一种基于Web访问日志的爬虫行为识别方法及装置。该通过获取待识别访问源的访问日志，根据访问日志中的访问时间、访问URL和访问URL对应的引用URL，获取待识别访问源所访问独立页面的访问特征信息，其中独立页面为访问URL中出度不为0的访问URL所对应的页面，当访问特征信息与预设爬虫访问特征信息匹配时，确定待识别访问源具有爬虫行为。可见，本申请通过获取的访问日志，分析得到待识别的访问源的访问特征信息，基于得到的访问特征信息与预设爬虫访问特征信息进行比较，确定待识别访问源具有爬虫行为，以使对具有爬虫行为的访问源中的用户代理标识进行跟踪或拦截，提高了识别网络爬虫行为的准确率和安全性。

全部详细技术资料下载

【技术实现步骤摘要】
基于Web访问日志的爬虫行为识别方法及装置
本申请涉及网络安全领域，尤其涉及一种基于Web访问日志的爬虫行为识别方法及装置。
技术介绍
随着各种Web应用技术的发展，网络上出现了大量用于自动获取Web页面信息的网络爬虫。网络爬虫是搜索引擎技术的基础组成部分。网络爬虫技术是从一个或若干初始网页的URL(UniformResourceLocator，统一资源定位符)开始，获得初始网页上的URL，在抓取网页信息的过程中，根据网页的抓取策略，不断从当前网页上抽取新的URL放入队列，直到满足某种停止条件。然后将抓取到的网页信息存储在搜索引擎的服务器中。网络爬虫通过爬取用户数据、商业数据，来挖掘用户隐私或用于舆情监控。传统识别网络爬虫的方法是一种基于阈值的统计方法，即统计某IP在一段时间内访问目标网站产生的URL总量，若该值超过设定阈值，则认为该IP来源为网络爬虫，即非真实用户。然而，上述方法中是将每个源IP确认为一个访问源。在IP公用场景下，相同源IP代表了若干个真实用户，当很多正常用户共用一个IP的情况下，会将这些正常用户误认为是网络爬虫。例如在站点进行促销活动期间很多正...

【技术保护点】
1.一种基于Web访问日志的爬虫行为识别方法，其特征在于，所述方法包括：获取待识别访问源的访问日志，所述待识别访问源是由源IP地址和客户端的用户代理标识确定的；根据所述访问日志中的访问时间、访问统一资源定位符URL和所述访问URL对应的引用URL，获取预设时间段内的所述待识别访问源所访问独立页面的访问特征信息，其中，所述独立页面为所述访问URL出度不为0的页面，所述访问特征信息为所述待识别访问源所访问独立页面的访问行为信息；根据所述访问特征信息，确定所述待识别访问源具有爬虫行为。

【技术特征摘要】
1.一种基于Web访问日志的爬虫行为识别方法，其特征在于，所述方法包括：获取待识别访问源的访问日志，所述待识别访问源是由源IP地址和客户端的用户代理标识确定的；根据所述访问日志中的访问时间、访问统一资源定位符URL和所述访问URL对应的引用URL，获取预设时间段内的所述待识别访问源所访问独立页面的访问特征信息，其中，所述独立页面为所述访问URL出度不为0的页面，所述访问特征信息为所述待识别访问源所访问独立页面的访问行为信息；根据所述访问特征信息，确定所述待识别访问源具有爬虫行为。2.如权利要求1所述的方法，其特征在于，所述访问特征信息包括访问速率，以及访问随机性和访问数量中的至少一种访问特征信息；所述根据所述访问日志中的访问时间、访问URL和所述访问URL对应的引用URL，获取所述待识别访问源所访问独立页面的访问特征信息，包括：根据所述访问日志中的访问URL和所述访问URL对应的引用URL，提取所述访问URL中的所述至少两个独立页面；根据所述访问时间和提取的所述至少两个独立页面，获取预设时间段内的访问速率、以及访问随机性和访问数量中的至少一种访问特征信息。3.如权利要求2所述的方法，其特征在于，所述根据所述访问特征信息，确定所述待识别访问源具有爬虫行为，包括：若所述访问特征信息满足所述预设爬虫访问条件，则确定所述待识别访问源具有爬虫行为；其中，当所述访问特征信息包括所述访问速率和所述访问随机性时，所述预设爬虫访问条件包括：所述访问速率大于预设访问速率和访问不具有随机性；当所述访问特征信息包括所述访问速率、所述访问随机性、所述访问数量时，所述预设爬虫访问条件包括：所述访问速率大于预设访问速率、访问不具有随机性和所述访问数量大于预设访问数量；当所述访问特征信息包括所述访问速率和所述访问数量时，所述预设爬虫访问条件包括：所述访问速率大于预设访问速率、所述访问数量大于预设访问数量。4.如权利要求3所述的方法，其特征在于，所述访问特征信息还包括重复访问率；若所述访问特征信息满足所述预设爬虫访问条件，则确定所述待识别访问源具有爬虫行为，包括：当所述访问特征信息包括所述访问速率、所述访问随机性、所述访问数量和所述重复访问率时，所述预设爬虫访问条件包括：所述访问速率大于预设访问速率、访问不具有随机性、所述访问数量大于预设访问数量和所述重复访问率小于预设重复访问率；当所述访问特征信息包括所述访问速率、所述访问随机性和所述重复访问率时，所述预设爬虫访问条件包括：所述访问速率大于预设访问速率、访问不具有随机性和所述重复访问率小于预设重复访问率；当所述访问特征信息包括所述访问速率、所述访问数量和所述重复访问率时，所述预设爬虫访问条件包括：所述访问速率大于预设访问速率、所述访问数量大于预设访问数量和所述重复访问率小于预设重复访问率。5.如权利要求1所述的方法，其特征在于，所述确定所述待识别访问源具有爬虫行为之后，所述方法还包括：向客户端发送提示信息，所述提示信息用于向用户展示所述待识别访问源具有爬虫行为。6.如权利要求1所述的方法，其特征在于，获取预设时间段内的所述待识别访问源所访问独立页面的访问特征信息之前，所述方法还包括：查询所述待识别访问源的访问日志，获取所述访问日志中的多个访问路径，所述访问路径为所述待识别访问源所访问的访问URL形成的路径；提取所述多个访问路径中访问URL的出度不为0的页面作为独立页面。7.一种爬虫行为识别装置，其特征在于，所述装置包括：获取单元，用于获取待识别访问源的访问日志，所述待识别访问源是由源IP地址和客户端的...

【专利技术属性】
技术研发人员：樊恒阳，潘钧康，
申请(专利权)人：北京神州绿盟信息安全科技股份有限公司，北京神州绿盟科技有限公司，
类型：发明
国别省市：北京,11

全部详细技术资料下载我是这个专利的主人