用于识别爬虫的方法、装置、设备、介质和产品制造方法及图纸

技术编号:32277457 阅读:15 留言:0更新日期:2022-02-12 19:43
本公开提供了用于识别爬虫的方法、装置、设备、介质和产品,涉及计算机技术领域,具体为信息安全技术领域。具体实现方案为:获取请求访问页面数据的请求信息;按照预设的爬虫识别顺序,从预设的反爬虫操作集合中确定针对请求信息的目标反爬虫操作;基于目标反爬虫操作,对请求信息进行爬虫识别,得到识别结果;响应于确定识别结果指示请求信息为爬虫,将识别结果确定为目标爬虫识别结果。本实现方式可以提高网页版本的小程序的数据安全。高网页版本的小程序的数据安全。高网页版本的小程序的数据安全。

【技术实现步骤摘要】
用于识别爬虫的方法、装置、设备、介质和产品


[0001]本公开涉及计算机
,具体为信息安全


技术介绍

[0002]爬虫是一种按照一定的规则,自动地抓取万维网信息的程序或者脚本。网页版本的小程序中通常具有一些公开数据供用户浏览,而爬虫攻击会导致这些公开数据被恶意使用。
[0003]然而,对于网页版本的小程序而言,并未配置相应的反爬虫手段,从而导致网页版本的小程序中的公开数据存在着一定的安全隐患。

技术实现思路

[0004]本公开提供了一种用于识别爬虫的方法、装置、设备、介质和产品。
[0005]根据本公开的一方面,提供了一种用于识别爬虫的方法,包括:获取请求访问页面数据的请求信息;按照预设的爬虫识别顺序,从预设的反爬虫操作集合中确定针对请求信息的目标反爬虫操作;基于目标反爬虫操作,对请求信息进行爬虫识别,得到识别结果;响应于确定识别结果指示请求信息为爬虫,将识别结果确定为目标爬虫识别结果。
[0006]根据本公开的另一方面,提供了一种用于识别爬虫的装置,包括:信息获取单元,被配置成获取请求访问页面数据的请求信息;操作确定单元,被配置成按照预设的爬虫识别顺序,从预设的反爬虫操作集合中确定针对请求信息的目标反爬虫操作;爬虫识别单元,被配置成基于目标反爬虫操作,对请求信息进行爬虫识别,得到识别结果;结果确定单元,被配置成响应于确定识别结果指示请求信息为爬虫,将识别结果确定为目标爬虫识别结果。
[0007]根据本公开的另一方面,提供了一种电子设备,包括:一个或多个处理器;存储器,用于存储一个或多个程序;当一个或多个程序被一个或多个处理器执行,使得一个或多个处理器实现如上任意一项用于识别爬虫的方法。
[0008]根据本公开的另一方面,提供了一种存储有计算机指令的非瞬时计算机可读存储介质,其中,计算机指令用于使计算机执行如上任意一项用于识别爬虫的方法。
[0009]根据本公开的另一方面,提供了一种计算机程序产品,包括计算机程序,计算机程序在被处理器执行时实现如上任意一项用于识别爬虫的方法。
[0010]根据本公开的技术,提供一种用于识别爬虫的方法,能够提高网页版本的小程序的数据安全。
[0011]应当理解,本部分所描述的内容并非旨在标识本公开的实施例的关键或重要特征,也不用于限制本公开的范围。本公开的其它特征将通过以下的说明书而变得容易理解。
附图说明
[0012]附图用于更好地理解本方案,不构成对本公开的限定。其中:
[0013]图1是本公开的一个实施例可以应用于其中的示例性系统架构图;
[0014]图2是根据本公开的用于识别爬虫的方法的一个实施例的流程图;
[0015]图3是根据本公开的用于识别爬虫的方法的一个应用场景的示意图;
[0016]图4是根据本公开的用于识别爬虫的方法的另一个实施例的流程图;
[0017]图5是根据本公开的用于识别爬虫的装置的一个实施例的结构示意图;
[0018]图6是用来实现本公开实施例的用于识别爬虫的方法的电子设备的框图。
具体实施方式
[0019]以下结合附图对本公开的示范性实施例做出说明,其中包括本公开实施例的各种细节以助于理解,应当将它们认为仅仅是示范性的。因此,本领域普通技术人员应当认识到,可以对这里描述的实施例做出各种改变和修改,而不会背离本公开的范围和精神。同样,为了清楚和简明,以下的描述中省略了对公知功能和结构的描述。
[0020]需要说明的是,在不冲突的情况下,本公开中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本公开。
[0021]如图1所示,系统架构100可以包括终端设备101、102、103,网络104、网页小程序代理服务器105、网络106和开发者服务器107。网络104用以在终端设备101、102、103和网页小程序代理服务器105之间提供通信链路的介质,网络106用以在网页小程序代理服务器105和开发者服务器107之间提供通信链路的介质。网络104、网络106可以包括各种连接类型,例如有线、无线通信链路或者光纤电缆等等。
[0022]用户可以使用终端设备101、102、103通过网络104与网页小程序代理服务器105交互,以接收或发送消息等。终端设备101、102、103可以安装有小程序客户端,用户通过运行该小程序客户端,可以获取网页小程序代理服务器105和开发者服务器107为该小程序客户端提供的相应服务。
[0023]终端设备101、102、103可以是硬件,也可以是软件。当终端设备101、102、103为硬件时,可以是各种电子设备,包括但不限于手机、电脑、平板等等。当终端设备101、102、103为软件时,可以安装在上述所列举的电子设备中。其可以实现成多个软件或软件模块(例如用来提供分布式服务),也可以实现成单个软件或软件模块。在此不做具体限定。
[0024]网页小程序代理服务器105可以是提供各种小程序代理服务的服务器,例如,网页小程序代理服务器105可以获取终端设备101、102、103发送的、上述小程序客户端对应的请求信息,并将请求信息通过网络106发送给开发者服务器107,并接收开发者服务器107返回的与请求信息对应的服务内容,以及将服务内容返回给终端设备101、102、103。
[0025]并且,在网页小程序代理服务器105获取到终端设备101、102、103发送的请求信息之后,以及在将请求信息通过网络106发送给开发者服务器107之前,为了提高数据安全性,还可以按照预设的爬虫识别顺序,从预设的反爬虫操作集合中确定针对请求信息的目标反爬虫操作,并基于目标反爬虫操作对请求信息进行爬虫识别,得到识别结果。如果识别结果指示请求信息为爬虫,则将识别结果确定为目标爬虫识别结果。可选的,网页小程序代理服务器105可以根据目标爬虫识别结果指示请求信息为爬虫,对请求信息进行拦截,或者,也可以向开发者服务器107发送提示消息,以使开发者服务器107对识别为爬虫的请求信息进行相应的处理。
[0026]需要说明的是,网页小程序代理服务器105和开发者服务器107可以是硬件,也可以是软件。当网页小程序代理服务器105和开发者服务器107为硬件时,可以实现成多个服务器组成的分布式服务器集群,也可以实现成单个服务器。当网页小程序代理服务器105和开发者服务器107为软件时,可以实现成多个软件或软件模块(例如用来提供分布式服务),也可以实现成单个软件或软件模块。在此不做具体限定。
[0027]开发者服务器107可以是提供各种服务的服务器,例如,开发者服务器107可以接收网页小程序代理服务器105基于网络106发送的请求信息,并对请求信息进行响应。
[0028]需要说明的是,本公开实施例所提供的用于识别爬虫的方法通常由网页小程序代理服务器105执行,用于识别爬虫的装置通常设置于网页小程序代理服务器105中。
[0029]应该理解,图1中的本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种用于识别爬虫的方法,包括:获取请求访问页面数据的请求信息;按照预设的爬虫识别顺序,从预设的反爬虫操作集合中确定针对所述请求信息的目标反爬虫操作;基于所述目标反爬虫操作,对所述请求信息进行爬虫识别,得到识别结果;响应于确定所述识别结果指示所述请求信息为爬虫,将所述识别结果确定为目标爬虫识别结果。2.根据权利要求1所述的方法,还包括:响应于确定所述识别结果指示所述请求信息不为爬虫、且所述预设的反爬虫操作集合未遍历完成,按照所述预设的爬虫识别顺序,从所述预设的反爬虫操作集合中重新确定针对所述请求信息的所述目标反爬虫操作。3.根据权利要求1所述的方法,还包括:响应于确定所述识别结果指示所述请求信息不为爬虫、且所述预设的反爬虫操作集合遍历完成,将所述识别结果确定为所述目标爬虫识别结果。4.根据权利要求1所述的方法,其中,所述目标反爬虫操作至少包括令牌识别操作;以及所述基于所述目标反爬虫操作,对所述请求信息进行爬虫识别,得到识别结果,包括:确定所述请求信息对应的令牌索引信息;基于所述令牌索引信息,确定目标字符;响应于确定所述目标字符和预设的字符不匹配,确定所述识别结果为所述请求信息为爬虫。5.根据权利要求4所述的方法,还包括:确定所述请求信息对应的目标小程序标识和目标时间戳;响应于确定所述目标小程序标识和预设的小程序标识不匹配、或者所述目标时间戳已过期,确定所述识别结果为所述请求信息为爬虫。6.根据权利要求1所述的方法,还包括:确定所述请求信息对应的加密网络地址;确定所述加密网络地址中的第一加密索引和第二加密索引;基于所述第一加密索引和所述第二加密索引,对所述加密网络地址进行解密,得到解密网络地址;基于所述解密网络地址,进行网络访问。7.根据权利要求1所述的方法,其中,所述目标反爬虫操作至少包括数据分析识别操作;以及所述基于所述目标反爬虫操作,对所述请求信息进行爬虫识别,得到识别结果,包括:获取爬虫分析数据;基于所述爬虫分析数据,对所述请求信息进行爬虫识别,得到所述请求信息对应的所述识别结果。8.根据权利要求1所述的方法,其中,所述目标反爬虫操作至少包括签名同步识别操作;以及
所述基于所述目标反爬虫操作,对所述请求信息进行爬虫识别,得到识别结果,包括:确定所述请求信息中的签名信息;基于所述签名信息和预设的签名信息,得到所述识别结果。9.根据权利要求1所述的方法,还包括:基于所述识别结果,确定所述请求信息对应的爬虫分数信息;输出所述爬虫分数信息。10.根据权利要求1所述的方法,其中,所述请求信息用于请求访问网页小程序的页面数据。11.根据权利要求1所述的方法,其中,所述预设的反爬虫操作集合中的反爬虫操作至少包括以下一项:端特征识别操作、令牌识别操作、人机特征识别操作、数据分析识别操作和签名识别操作。12.一种用于识别爬虫的装置,包括:信息获取单元,被配置成获取请求访问页面数据的请求信息;操作确定单元,被配置成按照预设的爬虫识别顺序,从预设的反爬虫操作集合中确定针对所述请求信息的目标反爬虫操作;爬虫识别单元,被配置成基于所述目标反爬虫操作,对所述请求信息进行爬虫识别,得到识别结果;结果确定单元,被配置成响应于确定所述识别结果指示所述请求信息为...

【专利技术属性】
技术研发人员:何永玄薛志方谭瑞兴
申请(专利权)人:北京百度网讯科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1