一种爬虫检测方法、装置及电子设备制造方法及图纸

技术编号:28848442 阅读:20 留言:0更新日期:2021-06-11 23:49
本申请提供一种爬虫检测方法、装置、电子设备及机器可读存储介质,应用于服务端;所述方法包括:响应于待检测客户端发送的针对目标web页面的访问请求,向所述待检测客户端下发探测数据;从与所述待检测客户端对应的终端设备的物理缓存信息中读取与所述探测数据对应的缓存信息;如果未读取到与所述探测数据对应的缓存信息,则确定所述待检测客户端为爬虫程序。

【技术实现步骤摘要】
一种爬虫检测方法、装置及电子设备
本申请涉及反爬虫
,尤其涉及一种爬虫检测方法、装置、电子设备及机器可读存储介质。
技术介绍
爬虫(spider),是一种可以用于自动地抓取互联网信息的程序或脚本。如果黑客利用爬虫程序攻击网站的服务器,可能会威胁到互联网信息的安全,甚至导致该服务器无法正常地为用户提供服务。因此,需要利用反爬虫技术准确地检测出爬虫程序,从而使得反爬虫方可以采取相关的安全防护手段进行防御。蜜罐(honeypot),本质上是一种对爬虫方进行欺骗的防御技术,可以布置一些作为诱饵的主机、网络服务或信息,诱使爬虫方对其实施攻击,从而可以对攻击行为进行捕获与分析。在实际应用中,当爬虫方对反爬虫方基于蜜罐技术布置的“蜜罐”进行攻击时,反爬虫方可以对攻击行为进行捕获与分析,了解爬虫方所使用的工具与方法,锁定爬虫方的身份信息,推测爬虫方的攻击意图,从而能够清楚了解所面对的安全威胁,并有针对性地提高自身的安全防护能力。
技术实现思路
本申请提供一种爬虫检测方法,应用于服务端,所述方法包括:响应于待检测客户端发送的针对目标web页面的访问请求,向所述待检测客户端下发探测数据;从与所述待检测客户端对应的终端设备的物理缓存信息中读取与所述探测数据对应的缓存信息;如果未读取到与所述探测数据对应的缓存信息,则确定所述待检测客户端为爬虫程序。可选的,响应于待检测客户端发送的针对目标web页面的访问请求,向所述待检测客户端下发探测数据,包括:响应于待检测客户端发送的针对目标web页面的访问请求,针对所述待检测客户端进行身份识别;如果未识别出所述待检测客户端对应的身份,则向所述待检测客户端下发探测数据。可选的,所述探测数据包括所述目标web页面对应的页面数据中的部分数据。可选的,所述目标web页面对应的页面数据包括所述目标web页面对应的页面内容;以及,在所述目标web页面中展示的与所述页面内容无关的页面数据;所述部分数据包括与所述目标web页面对应的页面内容无关的页面数据。可选的,与所述目标web页面对应的页面内容无关的页面数据包括在所述目标web页面中展示的广告数据。可选的,从与所述待检测客户端对应的终端设备的物理缓存信息中读取与所述探测数据对应的缓存信息之前,还包括:读取与所述待检测客户端对应的终端设备的物理缓存信息;如果读取到与所述待检测客户端对应的终端设备的物理缓存信息,则进一步从所述物理缓存信息中读取与所述探测数据对应的缓存信息。可选的,所述方法还包括:如果未读取到与所述待检测客户端对应的终端设备的物理缓存信息,则确定所述待检测客户端为爬虫程序。可选的,所述方法还包括:如果读取到与所述探测数据对应的缓存信息,则检测所述读取到的缓存信息与所述探测数据是否匹配;如果不匹配,则确定所述待检测客户端为爬虫程序。可选的,从与所述待检测客户端对应的终端设备的物理缓存信息中读取与所述探测数据对应的缓存信息,包括:在预设时长后,从与所述待检测客户端对应的终端设备的物理缓存信息中读取与所述探测数据对应的缓存信息。可选的,所述服务端搭载了用于读取缓存信息的安全组件;在预设时长后,从与所述待检测客户端对应的终端设备的物理缓存信息中读取与所述探测数据对应的缓存信息,包括:向所述安全组件发送获取缓存信息的异步通知,以使所述安全组件响应于所述异步通知,在预设时长后,从与所述待检测客户端对应的终端设备的物理缓存信息中读取与所述探测数据对应的缓存信息。本申请还提供一种爬虫检测装置,应用于服务端,所述装置包括:收发单元,用于响应于待检测客户端发送的针对目标web页面的访问请求,向所述待检测客户端下发探测数据;读取单元,用于从与所述待检测客户端对应的终端设备的物理缓存信息中读取与所述探测数据对应的缓存信息;检测单元,用于如果未读取到与所述探测数据对应的缓存信息,则确定所述待检测客户端为爬虫程序。可选的,所述收发单元,具体用于:响应于待检测客户端发送的针对目标web页面的访问请求,针对所述待检测客户端进行身份识别;如果未识别出所述待检测客户端对应的身份,则向所述待检测客户端下发探测数据。可选的,所述探测数据包括所述目标web页面对应的页面数据中的部分数据。可选的,所述目标web页面对应的页面数据包括所述目标web页面对应的页面内容;以及,在所述目标web页面中展示的与所述页面内容无关的页面数据;所述部分数据包括与所述目标web页面对应的页面内容无关的页面数据。可选的,与所述目标web页面对应的页面内容无关的页面数据包括在所述目标web页面中展示的广告数据。可选的,所述读取单元,还用于:读取与所述待检测客户端对应的终端设备的物理缓存信息;如果读取到与所述待检测客户端对应的终端设备的物理缓存信息,则进一步从所述物理缓存信息中读取与所述探测数据对应的缓存信息。可选的,所述检测单元,还用于:如果未读取到与所述待检测客户端对应的终端设备的物理缓存信息,则确定所述待检测客户端为爬虫程序。可选的,所述检测单元,还用于:如果读取到与所述探测数据对应的缓存信息,则检测所述读取到的缓存信息与所述探测数据是否匹配;如果不匹配,则确定所述待检测客户端为爬虫程序。可选的,所述读取单元,具体用于:在预设时长后,从与所述待检测客户端对应的终端设备的物理缓存信息中读取与所述探测数据对应的缓存信息。可选的,所述服务端搭载了用于读取缓存信息的安全组件;所述读取单元,具体用于:向所述安全组件发送获取缓存信息的异步通知,以使所述安全组件响应于所述异步通知,在预设时长后,从与所述待检测客户端对应的终端设备的物理缓存信息中读取与所述探测数据对应的缓存信息。本申请还提供一种电子设备,包括通信接口、处理器、存储器和总线,所述通信接口、所述处理器和所述存储器之间通过总线相互连接;所述存储器中存储机器可读指令,所述处理器通过调用所述机器可读指令,执行上述方法。本申请还提供一种机器可读存储介质,所述机器可读存储介质存储有机器可读指令,所述机器可读指令在被处理器调用和执行时,实现上述方法。通过以上实施例,一方面,由于可以将用于进行爬虫检测的探测数据,作为待检测客户端发送的针对目标web页面的访问请求的正常响应,主动下发给待检测客户端,因此可以将对疑似为爬虫程序的待检测客户端进行爬虫检测的过程,隐藏在响应针对目标web页面的访问的过程中,从而使爬虫程序不易感知到正在被检测,可以提升反爬虫检测的安全性;另一方面,通过从与待检测客户端对应的终端设备的物理缓存信息中读取与服务端下发的探测数据对应的缓存信息,来确定待检测客户端是否为爬虫程序,是一种具有隐蔽性的爬虫检测方式,可以提高反爬虫检测的成功率。附图说明<本文档来自技高网...

【技术保护点】
1.一种爬虫检测方法,其特征在于,应用于服务端,所述方法包括:/n响应于待检测客户端发送的针对目标web页面的访问请求,向所述待检测客户端下发探测数据;/n从与所述待检测客户端对应的终端设备的物理缓存信息中读取与所述探测数据对应的缓存信息;/n如果未读取到与所述探测数据对应的缓存信息,则确定所述待检测客户端为爬虫程序。/n

【技术特征摘要】
1.一种爬虫检测方法,其特征在于,应用于服务端,所述方法包括:
响应于待检测客户端发送的针对目标web页面的访问请求,向所述待检测客户端下发探测数据;
从与所述待检测客户端对应的终端设备的物理缓存信息中读取与所述探测数据对应的缓存信息;
如果未读取到与所述探测数据对应的缓存信息,则确定所述待检测客户端为爬虫程序。


2.根据权利要求1所述的方法,其特征在于,响应于待检测客户端发送的针对目标web页面的访问请求,向所述待检测客户端下发探测数据,包括:
响应于待检测客户端发送的针对目标web页面的访问请求,针对所述待检测客户端进行身份识别;
如果未识别出所述待检测客户端对应的身份,则向所述待检测客户端下发探测数据。


3.根据权利要求1所述的方法,其特征在于,所述探测数据包括所述目标web页面对应的页面数据中的部分数据。


4.根据权利要求1所述的方法,其特征在于,从与所述待检测客户端对应的终端设备的物理缓存信息中读取与所述探测数据对应的缓存信息之前,还包括:
读取与所述待检测客户端对应的终端设备的物理缓存信息;
如果读取到与所述待检测客户端对应的终端设备的物理缓存信息,则进一步从所述物理缓存信息中读取与所述探测数据对应的缓存信息。


5.根据权利要求1所述的方法,其特征在于,还包括:
如果读取到与所述探测数据对应的缓存信息,则检测所述读取到的缓存信息与所述探测数据是否匹配;
如果不匹配,则确定所述待检测客户端为爬虫程序。


6.根据权利要求1所述的方法,其特征在于,...

【专利技术属性】
技术研发人员:陈晓峰范晓锋
申请(专利权)人:拉扎斯网络科技上海有限公司
类型:发明
国别省市:上海;31

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1