【技术实现步骤摘要】
网络恶意爬虫识别方法及装置
本专利技术涉及互联网领域,具体而言,涉及一种网络恶意爬虫识别方法及装置。
技术介绍
网络爬虫是一种自动获取网页内容的程序。对于一个网站而言,恶意爬虫的大量请求会消耗服务器的性能,浪费很多资源,甚至会造成服务器宕机。因此,有必要保证用户对网站进行正常的访问,而避免大规模的恶意爬虫向网站发起访问。 现有的识别恶意爬虫的方法是通过解析网站的服务器记录日志,从日志中找出频繁访问该网站的网络地址,并将该网络地址过滤掉,禁止该网络地址再次访问该网站。但是这种方法误杀率比较高。因为公司或者楼宇通常对外只有一个公网网络地址,网站记录的网络地址可能不是个人的网络地址,而是公司或者楼宇的网络地址,也就是说通过该网络地址访问网站的是多个用户,不应被当作恶意爬虫的访问。 针对相关技术中对网络恶意爬虫进行识别时准确性差的问题,目前尚未提出有效的解决方案。
技术实现思路
本专利技术的主要目的在于提供一种网络恶意爬虫识别方法及装置,以解决对网络恶意爬虫进行识别时准确性差的问题。 为了实现上述目的,根据本专利技术的一个方面,提供了一种网络恶意爬虫识别方法。 根据本专利技术的网络恶意爬虫识别方法包括:获取待检测网络地址,其中,待检测网络地址为满足第一预设条件的网络地址,如果在预设时间段内通过网络地址访问目标网站的次数超过预设次数阈值,则确定网络地址满足第一预设条件;获取待检测网络地址对应的用户访问信息,其中,用户访问信息包括访问目标网站的网络终端信息,网络终端信息包括目标网络终端信息;根据对应的用户访问信息中包含目标网络终 ...
【技术保护点】
一种网络恶意爬虫识别方法,其特征在于,包括: 获取待检测网络地址,其中,所述待检测网络地址为满足第一预设条件的网络地址,如果在预设时间段内通过网络地址访问目标网站的次数超过预设次数阈值,则确定所述网络地址满足所述第一预设条件; 获取所述待检测网络地址对应的用户访问信息,其中,所述用户访问信息包括访问所述目标网站的网络终端信息,所述网络终端信息包括目标网络终端信息; 根据对应的用户访问信息中包含所述目标网络终端信息的待检测网络地址的个数和在预设时间段内通过所述待检测网络地址访问所述目标网站的次数计算目标访问比率; 判断所述目标访问比率是否超过预设比率阈值;以及如果所述目标访问比率超过所述预设比率阈值,则确定通过所述待检测网络地址访问所述目标网站的行为是恶意爬虫访问行为。
【技术特征摘要】
1.一种网络恶意爬虫识别方法,其特征在于,包括: 获取待检测网络地址,其中,所述待检测网络地址为满足第一预设条件的网络地址,如果在预设时间段内通过网络地址访问目标网站的次数超过预设次数阈值,则确定所述网络地址满足所述第一预设条件; 获取所述待检测网络地址对应的用户访问信息,其中,所述用户访问信息包括访问所述目标网站的网络终端信息,所述网络终端信息包括目标网络终端信息; 根据对应的用户访问信息中包含所述目标网络终端信息的待检测网络地址的个数和在预设时间段内通过所述待检测网络地址访问所述目标网站的次数计算目标访问比率;判断所述目标访问比率是否超过预设比率阈值;以及如果所述目标访问比率超过所述预设比率阈值,则确定通过所述待检测网络地址访问所述目标网站的行为是恶意爬虫访问行为。2.根据权利要求1所述的方法,其特征在于,获取所述待检测网络地址对应的用户访问信息包括: 获取所述目标网站的访问日志; 解析所述访问日志,获取解析结果;以及从所述解析结果中获取所述待检测网络地址对应的用户访问信息。3.根据权利要求1所述的方法,其特征在于,通过以下方法确定所述预设比率阈值: 确定参考网络地址集合,其中,所述参考网络地址集合包括多个网络地址,所述多个网络地址均为满足第二预设条件的网络地址,如果在所述预设时间段内通过网络地址访问所述目标网站的次数未超过所述预设次数阈值,则确定所述网络地址满足所述第二预设条件; 获取所述参考网络地址集合对应的用户访问信息;以及根据所述参考网络地址集合对应的用户访问信息确定预设比率阈值,其中,所述预设比率阈值为所述参考网络地址集合中对应的用户访问信息中包含所述目标网络终端信息的网络地址的个数和在预设时间段内通过所述参考网络地址集合中的网络地址访问所述目标网站的次数的比值。4.根据权利要求3所述的方法,其特征在于,在所述预设时间段内通过多个网络地址访问所述目标网站,确定参考网络地址集合包括: 分别检测在所述预设时间段内通过所述多个网络地址访问所述目标网站的次数是否超过所述预设次数阈值;以及确定在所述预设时间段内访问所述目标网站的次数未超过所述预设次数阈值的网络地址为所述参考网络地址集合中的网络地址。5.根据权利要求1所述的方法,其特征在于,根据对应的用户访问信息中包含所述目标网络终端信息的待检测网络地址的个数和在预设时间段内通过所述待检测网络地址访问所述目标网站的次数计算目标访问比率包括: 统计在所述预设时间段内通过所述待检测网络地址访问所述目标网站的次数; 判断所述待检测网络地址对应的用户访问信息中是否包含所述目标网络终端信息;如果所述待检测网络地址对应的用户访问信息中包含所述目标网络终端信息,则统计对应的用户访问信息中包含所述目标网络终端信息的待检测网络地址的个数;以及通过以下公式计算所述目标访问比率:S = A/B, 其中,S为所述目标访问比率,A为对应的用户访问信息中包含所述目标网络终端信息的待检测网络地址的个数,B为在预设时间段内通过所述待检测网络地址访问所述目标网站的次数。6.一种网络恶意爬虫识别装置,其特征在于,包括: 第一获取...
【专利技术属性】
技术研发人员:崔维福,范浩文,
申请(专利权)人:北京国双科技有限公司,
类型:发明
国别省市:北京;11
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。