【技术实现步骤摘要】
防抓站的方法、电子设备、存储介质及计算机程序产品
[0001]本公开涉及互联网安全
,本公开特别涉及一种防抓站的方法、电子设备、存储介质及计算机程序产品。
技术介绍
[0002]爬虫是搜索引擎的重要组成部分,用于自动获取网页内容。
[0003]对于一个内容型驱动的网站而言,受到网络爬虫的光顾是不可避免的。正常的搜索引擎爬虫的抓站频率比较合理,对网站资源的消耗较少;但是,恶意爬虫的网页抓站能力较差,经常并发上百个请求循环重复抓站,这些爬虫对于网站会产生毁灭性打击,破坏力极强。
[0004]针对恶意爬虫,通常的防抓站方法为统计和识别爬虫IP(Internet Protocol Address,互联网协议地址),当爬虫IP访问目标服务器超过阈值时,就会被认为是恶意爬虫IP,进而阻值该爬虫IP的访问请求。
[0005]但是,若恶意爬虫每次在IP池中选取不同的IP访问目标服务器,那么相关技术的防爬虫方法将无法精准阻止黑客的恶意抓取,容易泄露公司信息并且增加了对目标服务器的运行成本。
技术实现思路
< ...
【技术保护点】
【技术特征摘要】
1.一种防抓站的方法,其特征在于,包括:根据用于表征访问请求中地址信息的地址哈希值,在对应于所述地址哈希值的红黑树中确定针对所述地址信息的过滤规则;根据用于表征所述访问请求中域名信息的域名哈希值,在对应于所述域名哈希值的双向链表中获取所述域名信息的存储位;以及在所述过滤规则中筛选出所述存储位对应的应对指令。2.根据权利要求1所述的防抓站的方法,其特征在于,所述根据用于表征访问请求中地址信息的地址哈希值,在对应于所述地址哈希值的红黑树中确定针对所述地址信息的过滤规则,包括:对用于表征访问请求中地址信息的地址哈希值进行特征值计算,获取对应于所述地址哈希值的地址特征;根据所述地址特征,确定所述地址信息对应的第一元素,其中所述第一元素中包含适用于所述地址信息的过滤规则;以及基于所述地址哈希值,遍历所述第一元素中所述红黑树的各个过滤规则,筛选出适应于所述地址信息的过滤规则。3.根据权利要求1所述的防抓站的方法,其特征在于,所述根据用于表征所述访问请求中域名信息的域名哈希值,在对应于所述域名哈希值的双向链表中获取所述域名信息的存储位,包括:对用于表征所述访问请求中域名信息的域名哈希值进行特征值计算,获取对应于所述域名信息的域名特征;根据所述域名特征,确定所述域名特征对应的第二元素,其中所述第二元素中具有对应于所述域名特征的存储位;以及基于所述域名哈希值,遍历所述第二元素中所述双向链表的各个存储位,筛选出对应于所述域名特征的存储位。4.根据权利要求1所述的防抓站的方法,其特征在于,在所述根据用于表征访问请求中地址信息的地址哈希值,在对应于所述地址哈希值的红黑树中确定针对所述地址信息的过滤规则之前,还包括:对所述访问请求中的地址信息进行哈希运算,获取用于表征访问请求中地址信息的地址哈希值。5.根据权利要求1所述的防抓站的方法,其特征在于,在所述根据用于表征访问请求中地址信息的地址哈希值,在对应于所述地址哈希值的红黑树中确定针对所述地址信息的过滤规则之前,还包括:响应于更新时间,分别触发多个定时器对各个元素中红黑...
【专利技术属性】
技术研发人员:冉旭欣,
申请(专利权)人:贝壳找房北京科技有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。