网络恶意爬虫识别方法及装置制造方法及图纸

技术编号:11103708 阅读:113 留言:0更新日期:2015-03-04 15:56
本发明专利技术公开了一种网络恶意爬虫识别方法及装置。该网络恶意爬虫识别方法包括:获取待检测网络地址;获取待检测网络地址对应的用户访问信息;根据对应的用户访问信息中包含目标网络终端信息的待检测网络地址的个数和在预设时间段内通过待检测网络地址访问目标网站的次数计算目标访问比率;判断目标访问比率是否超过预设比率阈值;如果目标访问比率超过预设比率阈值,则确定通过待检测网络地址访问目标网站的行为是恶意爬虫访问行为。通过本发明专利技术,解决了对网络恶意爬虫进行识别时准确性差的问题,进而在目标访问比率超过预设比率阈值情况下确定通过待检测网络地址访问目标网站的行为是恶意爬虫访问行为,达到了提高网络恶意爬虫识别的准确性的效果。

【技术实现步骤摘要】
网络恶意爬虫识别方法及装置
本专利技术涉及互联网领域,具体而言,涉及一种网络恶意爬虫识别方法及装置。
技术介绍
网络爬虫是一种自动获取网页内容的程序。对于一个网站而言,恶意爬虫的大量请求会消耗服务器的性能,浪费很多资源,甚至会造成服务器宕机。因此,有必要保证用户对网站进行正常的访问,而避免大规模的恶意爬虫向网站发起访问。 现有的识别恶意爬虫的方法是通过解析网站的服务器记录日志,从日志中找出频繁访问该网站的网络地址,并将该网络地址过滤掉,禁止该网络地址再次访问该网站。但是这种方法误杀率比较高。因为公司或者楼宇通常对外只有一个公网网络地址,网站记录的网络地址可能不是个人的网络地址,而是公司或者楼宇的网络地址,也就是说通过该网络地址访问网站的是多个用户,不应被当作恶意爬虫的访问。 针对相关技术中对网络恶意爬虫进行识别时准确性差的问题,目前尚未提出有效的解决方案。
技术实现思路
本专利技术的主要目的在于提供一种网络恶意爬虫识别方法及装置,以解决对网络恶意爬虫进行识别时准确性差的问题。 为了实现上述目的,根据本专利技术的一个方面,提供了一种网络恶意爬虫识别方法。 根据本专利技术的网络恶意爬虫识别方法包括:获取待检测网络地址,其中,待检测网络地址为满足第一预设条件的网络地址,如果在预设时间段内通过网络地址访问目标网站的次数超过预设次数阈值,则确定网络地址满足第一预设条件;获取待检测网络地址对应的用户访问信息,其中,用户访问信息包括访问目标网站的网络终端信息,网络终端信息包括目标网络终端信息;根据对应的用户访问信息中包含目标网络终端信息的待检测网络地址的个数和在预设时间段内通过待检测网络地址访问目标网站的次数计算目标访问比率;判断目标访问比率是否超过预设比率阈值;如果目标访问比率超过预设比率阈值,则确定通过待检测网络地址访问目标网站的行为是恶意爬虫访问行为。 进一步地,获取待检测网络地址对应的用户访问信息包括:获取目标网站的访问日志;解析访问日志,获取解析结果;从解析结果中获取待检测网络地址对应的用户访问信息。 进一步地,通过以下方法确定预设比率阈值:确定参考网络地址集合,其中,参考网络地址集合包括多个网络地址,多个网络地址均为满足第二预设条件的网络地址,如果在预设时间段内通过网络地址访问目标网站的次数未超过预设次数阈值,则确定网络地址满足第二预设条件;获取参考网络地址集合对应的用户访问信息;根据参考网络地址集合对应的用户访问信息确定预设比率阈值,其中,预设比率阈值为参考网络地址集合中对应的用户访问信息中包含目标网络终端信息的网络地址的个数和在预设时间段内通过参考网络地址集合中的网络地址访问目标网站的次数的比值。 进一步地,在预设时间段内通过多个网络地址访问目标网站,确定参考网络地址集合包括:分别检测在预设时间段内通过多个网络地址访问目标网站的次数是否超过预设次数阈值;确定在预设时间段内访问目标网站的次数未超过预设次数阈值的网络地址为参考网络地址集合中的网络地址。 进一步地,根据对应的用户访问信息中包含目标网络终端信息的待检测网络地址的个数和在预设时间段内通过待检测网络地址访问目标网站的次数计算目标访问比率包括:统计在预设时间段内通过待检测网络地址访问目标网站的次数;判断待检测网络地址对应的用户访问信息中是否包含目标网络终端信息;如果待检测网络地址对应的用户访问信息中包含目标网络终端信息,则统计对应的用户访问信息中包含目标网络终端信息的待检测网络地址的个数;通过以下公式计算目标访问比率:S = A/B,其中,S为目标访问比率,A为对应的用户访问信息中包含目标网络终端信息的待检测网络地址的个数,B为在预设时间段内通过待检测网络地址访问目标网站的次数。 为了实现上述目的,根据本专利技术的另一方面,提供了一种网络恶意爬虫识别装置。 根据本专利技术的网络恶意爬虫识别装置包括:第一获取单元,用于获取待检测网络地址,其中,待检测网络地址为满足第一预设条件的网络地址,如果在预设时间段内通过网络地址访问目标网站的次数超过预设次数阈值,则确定网络地址满足第一预设条件;第二获取单元,用于获取待检测网络地址对应的用户访问信息,其中,用户访问信息包括访问目标网站的网络终端信息,网络终端信息包括目标网络终端信息;计算单元,用于根据对应的用户访问信息中包含目标网络终端信息的待检测网络地址的个数和在预设时间段内通过待检测网络地址访问目标网站的次数计算目标访问比率;判断单元,用于判断目标访问比率是否超过预设比率阈值;确定单元,用于在目标访问比率超过预设比率阈值时,确定通过待检测网络地址访问目标网站的行为是恶意爬虫访问行为。 进一步地,第二获取单元包括:第一获取模块,用于获取目标网站的访问日志;解析模块,用于解析访问日志,获取解析结果;第二获取模块,用于从解析结果中获取待检测网络地址对应的用户访问信息。 进一步地,通过以下模块确定预设比率阈值:第一确定模块,用于确定参考网络地址集合,其中,参考网络地址集合包括多个网络地址,多个网络地址均为满足第二预设条件的网络地址,如果在预设时间段内通过网络地址访问目标网站的次数未超过预设次数阈值,则确定网络地址满足第二预设条件;第三获取模块,用于获取参考网络地址集合对应的用户访问信息;第二确定模块,用于根据参考网络地址集合对应的用户访问信息确定预设比率阈值,其中,预设比率阈值为参考网络地址集合中对应的用户访问信息中包含目标网络终端信息的网络地址的个数和在预设时间段内通过参考网络地址集合中的网络地址访问目标网站的次数的比值。 进一步地,在预设时间段内通过多个网络地址访问目标网站,第一确定模块包括:检测子模块,用于分别检测在预设时间段内通过多个网络地址访问目标网站的次数是否超过预设次数阈值;确定子模块,用于确定在预设时间段内访问目标网站的次数未超过预设次数阈值的网络地址为参考网络地址集合中的网络地址。 进一步地,计算单元包括:第一统计模块,用于统计在预设时间段内通过待检测网络地址访问目标网站的次数;判断模块,用于判断待检测网络地址对应的用户访问信息中是否包含目标网络终端信息;第二统计模块,用于在待检测网络地址对应的用户访问信息中包含目标网络终端信息时,统计对应的用户访问信息中包含目标网络终端信息的待检测网络地址的个数;计算模块,用于通过以下公式计算目标访问比率:s = A/B,其中,S为目标访问比率,A为对应的用户访问信息中包含目标网络终端信息的待检测网络地址的个数,B为在预设时间段内通过待检测网络地址访问目标网站的次数。 通过本专利技术,采用包括如下步骤的方法:获取待检测网络地址,其中,待检测网络地址为满足第一预设条件的网络地址,如果在预设时间段内通过网络地址访问目标网站的次数超过预设次数阈值,则确定网络地址满足第一预设条件;获取待检测网络地址对应的用户访问信息,其中,用户访问信息包括访问目标网站的网络终端信息,网络终端信息包括目标网络终端信息;根据对应的用户访问信息中包含目标网络终端信息的待检测网络地址的个数和在预设时间段内通过待检测网络地址访问目标网站的次数计算目标访问比率;判断目标访问比率是否超过预设比率阈值;如果目标访问比率超过预设比率阈值,则确定通过待检测网本文档来自技高网...
网络恶意爬虫识别方法及装置

【技术保护点】
一种网络恶意爬虫识别方法,其特征在于,包括: 获取待检测网络地址,其中,所述待检测网络地址为满足第一预设条件的网络地址,如果在预设时间段内通过网络地址访问目标网站的次数超过预设次数阈值,则确定所述网络地址满足所述第一预设条件; 获取所述待检测网络地址对应的用户访问信息,其中,所述用户访问信息包括访问所述目标网站的网络终端信息,所述网络终端信息包括目标网络终端信息; 根据对应的用户访问信息中包含所述目标网络终端信息的待检测网络地址的个数和在预设时间段内通过所述待检测网络地址访问所述目标网站的次数计算目标访问比率; 判断所述目标访问比率是否超过预设比率阈值;以及如果所述目标访问比率超过所述预设比率阈值,则确定通过所述待检测网络地址访问所述目标网站的行为是恶意爬虫访问行为。

【技术特征摘要】
1.一种网络恶意爬虫识别方法,其特征在于,包括: 获取待检测网络地址,其中,所述待检测网络地址为满足第一预设条件的网络地址,如果在预设时间段内通过网络地址访问目标网站的次数超过预设次数阈值,则确定所述网络地址满足所述第一预设条件; 获取所述待检测网络地址对应的用户访问信息,其中,所述用户访问信息包括访问所述目标网站的网络终端信息,所述网络终端信息包括目标网络终端信息; 根据对应的用户访问信息中包含所述目标网络终端信息的待检测网络地址的个数和在预设时间段内通过所述待检测网络地址访问所述目标网站的次数计算目标访问比率;判断所述目标访问比率是否超过预设比率阈值;以及如果所述目标访问比率超过所述预设比率阈值,则确定通过所述待检测网络地址访问所述目标网站的行为是恶意爬虫访问行为。2.根据权利要求1所述的方法,其特征在于,获取所述待检测网络地址对应的用户访问信息包括: 获取所述目标网站的访问日志; 解析所述访问日志,获取解析结果;以及从所述解析结果中获取所述待检测网络地址对应的用户访问信息。3.根据权利要求1所述的方法,其特征在于,通过以下方法确定所述预设比率阈值: 确定参考网络地址集合,其中,所述参考网络地址集合包括多个网络地址,所述多个网络地址均为满足第二预设条件的网络地址,如果在所述预设时间段内通过网络地址访问所述目标网站的次数未超过所述预设次数阈值,则确定所述网络地址满足所述第二预设条件; 获取所述参考网络地址集合对应的用户访问信息;以及根据所述参考网络地址集合对应的用户访问信息确定预设比率阈值,其中,所述预设比率阈值为所述参考网络地址集合中对应的用户访问信息中包含所述目标网络终端信息的网络地址的个数和在预设时间段内通过所述参考网络地址集合中的网络地址访问所述目标网站的次数的比值。4.根据权利要求3所述的方法,其特征在于,在所述预设时间段内通过多个网络地址访问所述目标网站,确定参考网络地址集合包括: 分别检测在所述预设时间段内通过所述多个网络地址访问所述目标网站的次数是否超过所述预设次数阈值;以及确定在所述预设时间段内访问所述目标网站的次数未超过所述预设次数阈值的网络地址为所述参考网络地址集合中的网络地址。5.根据权利要求1所述的方法,其特征在于,根据对应的用户访问信息中包含所述目标网络终端信息的待检测网络地址的个数和在预设时间段内通过所述待检测网络地址访问所述目标网站的次数计算目标访问比率包括: 统计在所述预设时间段内通过所述待检测网络地址访问所述目标网站的次数; 判断所述待检测网络地址对应的用户访问信息中是否包含所述目标网络终端信息;如果所述待检测网络地址对应的用户访问信息中包含所述目标网络终端信息,则统计对应的用户访问信息中包含所述目标网络终端信息的待检测网络地址的个数;以及通过以下公式计算所述目标访问比率:S = A/B, 其中,S为所述目标访问比率,A为对应的用户访问信息中包含所述目标网络终端信息的待检测网络地址的个数,B为在预设时间段内通过所述待检测网络地址访问所述目标网站的次数。6.一种网络恶意爬虫识别装置,其特征在于,包括: 第一获取...

【专利技术属性】
技术研发人员:崔维福范浩文
申请(专利权)人:北京国双科技有限公司
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1