一种爬虫行为检测方法及装置制造方法及图纸

技术编号:20025836 阅读:25 留言:0更新日期:2019-01-06 04:40
本发明专利技术公开了一种爬虫行为检测方法及装置,此方法包括:获取用户的日志信息,从所述日志信息中提取出用户访问的各统一资源定位器URL,确定各URL的信息模式;在预设时段内根据用户访问的各URL的信息模式的分布情况判断此用户是否为爬虫。本发明专利技术可以有效提高爬虫检测准确度和检测效率,保护网络信息内容。

【技术实现步骤摘要】
一种爬虫行为检测方法及装置
本专利技术涉及互联网
,尤其涉及一种爬虫行为检测方法及装置。
技术介绍
网络爬虫技术是从一个或多个网页的URL(UniformResourceLocator,统一资源定位符)开始,获得初始网页上的URL,抓取网页信息的技术。现有技术中检测爬虫的方法多是通过设置阈值的方法实现的,即统计同一时刻客户端的IP地址访问服务器端的IP地址时的会话连接数,若访问时的会话连接数超过了设置的阈值,则认为该IP地址对应的客户端正在通过网络爬虫抓取网页。现有的方法中,当客户端的IP地址正常访问服务器IP地址时,也会导致会话连接数超过阈值,所以现有的方法容易造成错误检测。
技术实现思路
为了解决上述技术问题,本专利技术提供了一种爬虫行为检测方法及装置。本专利技术提供的爬虫行为检测方法,包括:获取用户的日志信息,从所述日志信息中提取出用户访问的各统一资源定位器URL,确定各URL的信息模式;在预设时段内根据用户访问的各URL的信息模式的分布情况判断此用户是否为爬虫。上述爬虫行为检测方法还具有以下特点:所述确定URL的信息模式包括:根据URL分隔符将URL划分为不同部分,从各部分中提取出关键字,将各关键字组合为信息模式。上述爬虫行为检测方法还具有以下特点:所述根据URL分隔符将URL划分为不同部分包括根据URL分隔符将URL划分为以下部分:协议部分、网站名称部分、路径部分、目标部分;所述协议部分的关键字包括协议类型;所述网站名称部分的关键字包括服务器类型、域名名称;所述路径部分的关键字包括:各级目录的标识;所述目标部分的关键字包括:操作类型、目标文件的后缀类型。上述爬虫行为检测方法还具有以下特点:所述根据日志信息分析用户访问的统一资源定位器URL确定用户访问的URL的信息模式包括:统计所述用户在预设历史时段内访问的URL,按分隔符提取URL各位置的字符串,统计各字符串的历史出现次数;确定用户访问的URL的信息模式时,按分隔符提取URL各位置的字符串,确定各字符串的历史出现次数,按出现次数排序,选择字符串排序中出现次数最大的前N个字符串作为关键字,将选择出的关键字组合为此URL的信息模式,N为正整数。上述爬虫行为检测方法还具有以下特点:所述在预设时段内根据用户访问的各URL的信息模式的分布情况判断此用户是否为爬虫包括以下方式中的一种:方式一,在预设时段内,确定不同信息模式的个数,所述用户访问的URL的个数与不同模式的个数的比值大于预设门限值时,判定此用户为爬虫;方式二,在预设时段内,确定不同信息模式的个数,所述用户访问的所述用户访问的URL的个数与不同模式的个数的比值大于预设门限值时,并且对应URL个数最多的信息模式所对应的URL的个数与所述预设时段内此用户访问的所有URL的个数比例大于预设比例时,判定此用户为爬虫。本专利技术还提供了一种爬虫行为检测装置,包括:日志信息获取模块,用于获取用户的日志信息;信息模式确定模块,用于从所述日志信息中提取出用户访问的各统一资源定位器URL,确定各URL的信息模式;判断模块,用于在预设时段内根据用户访问的各URL的信息模式的分布情况判断此用户是否为爬虫。上述爬虫行为检测装置还具有以下特点:所述信息模式确定模块包括划分单元、处理单元;所述划分单元,用于根据URL分隔符将URL划分为不同部分;所述处理单元,用于从各部分中提取出关键字,将各关键字组合为信息模式。上述爬虫行为检测装置还具有以下特点:所述划分单元,用于根据URL分隔符将URL划分为以下部分:协议部分、网站名称部分、路径部分、目标部分;所述协议部分的关键字包括协议类型;所述网站名称部分的关键字包括服务器类型、域名名称;所述路径部分的关键字包括:各级目录的标识;所述目标部分的关键字包括:操作类型、目标文件的后缀类型。上述爬虫行为检测装置还具有以下特点:所述信息模式确定模块包括统计单元、判断单元;所述统计单元,用于统计所述用户在预设历史时段内访问的URL,按分隔符提取URL各位置的字符串,统计各字符串的历史出现次数;所述处理单元,用于确定用户访问的URL的信息模式时,按分隔符提取URL各位置的字符串,确定各字符串的历史出现次数,按出现次数排序,选择字符串排序中出现次数最大的前几个字符串作为关键字,将选择出的关键字组合为此URL的信息模式。上述爬虫行为检测装置还具有以下特点:所述判断模块用于使用以下方式中的一种在预设时段内根据用户访问的各URL的信息模式的分布情况判断此用户是否为爬虫:方式一,在预设时段内,确定不同信息模式的个数,所述用户访问的URL的个数与不同模式的个数的比值大于预设门限值时,判定此用户为爬虫;方式二,在预设时段内,确定不同信息模式的个数,所述用户访问的所述用户访问的URL的个数与不同模式的个数的比值大于预设门限值时,并且对应URL个数最多的信息模式所对应的URL的个数与所述预设时段内此用户访问的所有URL的个数比例大于预设比例时,判定此用户为爬虫。本专利技术可以有效提高爬虫检测准确度和检测效率,保护网络信息内容。附图说明构成本专利技术的一部分的附图用来提供对本专利技术的进一步理解,本专利技术的示意性实施例及其说明用于解释本专利技术,并不构成对本专利技术的不当限定。在附图中:图1是实施例中爬虫行为检测方法的流程图;图2是实施例中爬虫行为检测装置的结构图。具体实施方式为使本专利技术实施例的目的、技术方案和优点更加清楚,下面将结合本专利技术实施例中的附图,对本专利技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本专利技术一部分实施例,而不是全部的实施例。基于本专利技术中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本专利技术保护的范围。需要说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互任意组合。图1是实施例中爬虫行为检测方法的流程图;此方法包括:步骤101,获取用户的日志信息,步骤102,从所述日志信息中提取出用户访问的各统一资源定位器URL,确定各URL的信息模式;步骤103,在预设时段内根据用户访问的各URL的信息模式的分布情况判断此用户是否为爬虫。其中,步骤102中确定URL的信息模式的方法包括两种方法。方法一,确定URL的信息模式时根据URL分隔符将URL划分为不同部分,从各部分中提取出关键字,将各关键字组合为信息模式。根据URL分隔符将URL划分为不同部分包括根据URL分隔符将URL划分为以下部分:协议部分、网站名称部分、路径部分、目标部分。协议部分的关键字包括协议类型;网站名称部分的关键字包括服务器类型、域名名称;路径部分的关键字包括:各级目录的标识;目标部分的关键字包括:操作类型、目标文件的后缀类型。例如:URL为http://www.abcde.com/music1/122674119.mp3协议部分包括http://,此部分的关键字包括http。网站名称部分包括www.abcde.com,此部分的关键字包括服务器类型www,和域名名称abcde.com。路径部分的关键字包括music/,此部分的关键字包括music1。目标部分的关键字包括122674119.mp3,此部分的关键字包括目标文件的后缀类型mp3。方法二根据日志信息分析用户访问的统一资源定位器本文档来自技高网...

【技术保护点】
1.一种爬虫行为检测方法,其特征在于,包括:获取用户的日志信息,从所述日志信息中提取出用户访问的各统一资源定位器URL,确定各URL的信息模式;在预设时段内根据用户访问的各URL的信息模式的分布情况判断此用户是否为爬虫。

【技术特征摘要】
1.一种爬虫行为检测方法,其特征在于,包括:获取用户的日志信息,从所述日志信息中提取出用户访问的各统一资源定位器URL,确定各URL的信息模式;在预设时段内根据用户访问的各URL的信息模式的分布情况判断此用户是否为爬虫。2.如权利要求1所述的爬虫行为检测方法,其特征在于,包括:所述确定URL的信息模式包括:根据URL分隔符将URL划分为不同部分,从各部分中提取出关键字,将各关键字组合为信息模式。3.如权利要求2所述的爬虫行为检测方法,其特征在于,包括:所述根据URL分隔符将URL划分为不同部分包括根据URL分隔符将URL划分为以下部分:协议部分、网站名称部分、路径部分、目标部分;所述协议部分的关键字包括协议类型;所述网站名称部分的关键字包括服务器类型、域名名称;所述路径部分的关键字包括:各级目录的标识;所述目标部分的关键字包括:操作类型、目标文件的后缀类型。4.如权利要求1所述的爬虫行为检测方法,其特征在于,包括:所述根据日志信息分析用户访问的统一资源定位器URL确定用户访问的URL的信息模式包括:统计所述用户在预设历史时段内访问的URL,按分隔符提取URL各位置的字符串,统计各字符串的历史出现次数;确定用户访问的URL的信息模式时,按分隔符提取URL各位置的字符串,确定各字符串的历史出现次数,按出现次数排序,选择字符串排序中出现次数最大的前N个字符串作为关键字,将选择出的关键字组合为此URL的信息模式,N为正整数。5.如权利要求1所述的爬虫行为检测方法,其特征在于,包括:所述在预设时段内根据用户访问的各URL的信息模式的分布情况判断此用户是否为爬虫包括以下方式中的一种:方式一,在预设时段内,确定不同信息模式的个数,所述用户访问的URL的个数与不同模式的个数的比值大于预设门限值时,判定此用户为爬虫;方式二,在预设时段内,确定不同信息模式的个数,所述用户访问的所述用户访问的URL的个数与不同模式的个数的比值大于预设门限值时,并且对应URl个数最多的信息模式所对应的URL的个数与所述预设时段内此用户访问的所有URL的个数比例大于预设比例时,判定此用户为爬虫。6.一种爬虫行为检测装置,...

【专利技术属性】
技术研发人员:陈峰从磊
申请(专利权)人:北京数安鑫云信息技术有限公司
类型:发明
国别省市:北京,11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1