一种爬虫方法、装置、系统、设备及可读存储介质制造方法及图纸

技术编号:22219112 阅读:15 留言:0更新日期:2019-09-30 01:20
本申请公开了一种爬虫方法,应用于与爬虫平台建立通信连接的任一个移动终端,包括:接收爬虫平台发送的爬虫任务,爬虫任务至少包括:待爬取的目标和爬虫规则;利用移动终端的IP地址和爬虫规则爬取待爬取的目标,获得与爬虫任务对应的爬虫结果;IP地址为移动终端连接的移动通信网络为移动终端分配的IP地址;将爬虫结果传输至爬虫平台,以便爬虫平台存储爬虫结果。本申请使用的IP地址是移动通信网络为移动终端分配的动态IP地址;且移动终端为多个,因此降低了被爬虫目标拦截或封锁爬虫操作所使用的IP地址的可能性,也为爬虫的高并发提供了可能。本申请公开的一种爬虫装置、系统、设备及可读存储介质,也同样具有上述技术效果。

A crawler method, device, system, device and readable storage medium

【技术实现步骤摘要】
一种爬虫方法、装置、系统、设备及可读存储介质
本申请涉及互联网
,特别涉及一种爬虫方法、装置、系统、设备及可读存储介质。
技术介绍
爬虫是按照一定的规则自动抓取万维网信息的方式,但由于被爬虫的目标通常设有防爬虫的安全机制,因此在现有的爬虫方案中,通常会利用设有多个IP地址的IP代理池来进行爬虫,这样可以频换更换爬取某个目标的IP地址,以尽可能避免被爬虫目标拦截或封锁爬虫操作所使用的IP地址。但是,IP代理池中的IP地址需要不断维护,其数量毕竟有限,当被爬虫的目标较多时,IP代理池中的IP地址数量就显得捉襟见肘,故而现有的IP代理池无法很好地解决被爬虫目标拦截或封锁爬虫操作所使用的IP地址的问题。同时,现有爬虫方案中的IP代理池中的IP地址只作为代理IP,其需要借助其他设备才能完成爬取过程,这无疑增加了爬虫操作的复杂度,不利于高并发的爬虫操作的执行。因此,如何避免被爬虫目标拦截或封锁爬虫操作所使用的IP地址,是本领域技术人员需要解决的问题。
技术实现思路
有鉴于此,本申请的目的在于提供一种爬虫方法、装置、系统、设备及可读存储介质,以避免被爬虫目标拦截或封锁爬虫操作所使用的IP地址。其具体方案如下:第一方面,本申请提供了一种爬虫方法,应用于与爬虫平台建立通信连接的任一个移动终端,包括:接收爬虫平台发送的爬虫任务,爬虫任务至少包括:待爬取的目标和爬虫规则;利用移动终端的IP地址和爬虫规则爬取待爬取的目标,获得与爬虫任务对应的爬虫结果;IP地址为:移动终端连接的移动通信网络为移动终端分配的IP地址;将爬虫结果传输至爬虫平台,以便爬虫平台存储爬虫结果。优选地,将爬虫结果传输至爬虫平台,以便爬虫平台存储爬虫结果,包括:将爬虫结果和移动终端的ID传输至爬虫平台,以便爬虫平台存储爬虫结果和移动终端的ID。优选地,移动通信网络为2G、3G、4G或5G网络。第二方面,本申请提供了一种爬虫装置,应用于与爬虫平台建立通信连接的任一个移动终端,包括:接收模块,用于接收爬虫平台发送的爬虫任务,爬虫任务至少包括:待爬取的目标和爬虫规则;爬虫模块,用于利用移动终端的IP地址和爬虫规则爬取待爬取的目标,获得与爬虫任务对应的爬虫结果;IP地址为:移动终端连接的移动通信网络为移动终端分配的IP地址;传输模块,用于将爬虫结果传输至爬虫平台,以便爬虫平台存储爬虫结果。第三方面,本申请提供了一种爬虫系统,包括:爬虫平台和多个上述公开的爬虫装置。优选地,爬虫平台包括:任务管理中心,用于根据用户输入的待爬取的目标和爬虫规则生成爬虫任务;调度中心,用于发送爬虫任务至任一个爬虫装置;存储中心,用于存储每个爬虫任务对应的爬虫结果。优选地,存储中心利用非关系型数据库存储爬虫结果。优选地,爬虫平台基于WEB服务器搭建。第四方面,本申请提供了一种爬虫设备,包括:存储器,用于存储计算机程序;处理器,用于执行计算机程序,以实现前述公开的爬虫方法。第五方面,本申请提供了一种可读存储介质,用于保存计算机程序,其中,计算机程序被处理器执行时实现前述公开的爬虫方法。通过以上方案可知,本申请提供了一种爬虫方法,应用于与爬虫平台建立通信连接的任一个移动终端,包括:接收爬虫平台发送的爬虫任务,爬虫任务至少包括:待爬取的目标和爬虫规则;利用移动终端的IP地址和爬虫规则爬取待爬取的目标,获得与爬虫任务对应的爬虫结果;IP地址为:移动终端连接的移动通信网络为移动终端分配的IP地址;将爬虫结果传输至爬虫平台,以便爬虫平台存储爬虫结果。其中,本申请利用与爬虫平台建立通信连接的任一个移动终端执行爬虫任务,由于移动终端的IP地址是移动终端连接的移动通信网络为移动终端分配的,因此该IP地址为动态IP地址。所以对于一个移动终端来说,访问待爬取目标的IP地址是动态的;并且与爬虫平台建立通信连接的移动终端为多个,因此执行爬虫任务的IP地址将灵活变换,如此也就降低了被爬虫目标拦截或封锁爬虫操作所使用的IP地址的可能性。同时,本申请中的移动终端可以利用自身完成整个爬虫过程,从而避免了爬虫过程中的数据来回传输,降低了爬虫操作的复杂度,也为爬虫的高并发提供了可能。相应地,本申请提供的一种爬虫装置、系统、设备及可读存储介质,也同样具有上述技术效果。附图说明为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据提供的附图获得其他的附图。图1为本申请公开的一种爬虫方法流程图;图2为本申请公开的一种爬虫装置示意图;图3为本申请公开的一种爬虫系统示意图;图4为本申请公开的一种爬虫设备示意图。具体实施方式下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。目前,IP代理池中的IP地址需要不断维护,其数量毕竟有限,当被爬虫的目标较多时,IP代理池中的IP地址数量就显得捉襟见肘,故而现有的IP代理池无法很好地解决被爬虫目标拦截或封锁爬虫操作所使用的IP地址的问题。同时,现有爬虫方案中的IP代理池中的IP地址只作为代理IP,其无法真正爬取到数据,需要通过其他设备辅助才能完成爬取过程,这无疑增加了爬虫操作的复杂度,不利于高并发的爬虫操作的执行。为此,本申请提供了一种爬虫方案,能够降低被爬虫目标拦截或封锁爬虫操作所使用的IP地址的可能性,也为爬虫的高并发提供了可能。参见图1所示,本申请实施例公开了一种爬虫方法,应用于与爬虫平台建立通信连接的任一个移动终端,包括:S101、接收爬虫平台发送的爬虫任务,爬虫任务至少包括:待爬取的目标和爬虫规则;S102、利用移动终端的IP地址和爬虫规则爬取待爬取的目标,获得与爬虫任务对应的爬虫结果;IP地址为:移动终端连接的移动通信网络为移动终端分配的IP地址;S103、将爬虫结果传输至爬虫平台,以便爬虫平台存储爬虫结果。在本实施例中,将爬虫结果传输至爬虫平台,以便爬虫平台存储爬虫结果,包括:将爬虫结果和移动终端的ID传输至爬虫平台,以便爬虫平台存储爬虫结果和移动终端的ID。具体的,移动终端在传输爬虫结果的同时,也会将自身ID传输至爬虫平台,这样爬虫平台就可以将爬虫结果和ID对应存储,以便于爬虫结果的查询和管理。需要说明的是,待爬取的目标可以具体为网站链接。爬虫规则可采用正则语句设定,并采用任意编程语言(如python)编写爬虫规则。爬虫任务至少还包括以下信息:创建该爬虫任务的账户的ID、爬虫任务的ID等,这些信息会一并发送至移动终端。其中,用户可以基于爬虫平台注册账户,并基于该账户在爬虫平台中创建爬虫任务,从而爬虫平台中可将不同用户创建的爬虫任务分配至不同的移动终端,从而利用移动终端执行各个爬虫任务。在本实施例中,移动通信网络为2G、3G、4G或5G网络。需要说明的是,移动通信网络可为接入该网络的移动终端分配IP地址,且以动态方式进行分配。即:针对某一移动终端,其所使用的IP地址是动态变化的。变化规则可以为本文档来自技高网...

【技术保护点】
1.一种爬虫方法,其特征在于,应用于与爬虫平台建立通信连接的任一个移动终端,包括:接收所述爬虫平台发送的爬虫任务,所述爬虫任务至少包括:待爬取的目标和爬虫规则;利用所述移动终端的IP地址和所述爬虫规则爬取所述待爬取的目标,获得与所述爬虫任务对应的爬虫结果;所述IP地址为:所述移动终端连接的移动通信网络为所述移动终端分配的IP地址;将所述爬虫结果传输至所述爬虫平台,以便所述爬虫平台存储所述爬虫结果。

【技术特征摘要】
1.一种爬虫方法,其特征在于,应用于与爬虫平台建立通信连接的任一个移动终端,包括:接收所述爬虫平台发送的爬虫任务,所述爬虫任务至少包括:待爬取的目标和爬虫规则;利用所述移动终端的IP地址和所述爬虫规则爬取所述待爬取的目标,获得与所述爬虫任务对应的爬虫结果;所述IP地址为:所述移动终端连接的移动通信网络为所述移动终端分配的IP地址;将所述爬虫结果传输至所述爬虫平台,以便所述爬虫平台存储所述爬虫结果。2.根据权利要求1所述的爬虫方法,其特征在于,所述将所述爬虫结果传输至爬虫平台,以便所述爬虫平台存储所述爬虫结果,包括:将所述爬虫结果和所述移动终端的ID传输至所述爬虫平台,以便所述爬虫平台存储所述爬虫结果和所述移动终端的ID。3.根据权利要求1或2所述的爬虫方法,其特征在于,所述移动通信网络为2G、3G、4G或5G网络。4.一种爬虫装置,其特征在于,应用于与爬虫平台建立通信连接的任一个移动终端,包括:接收模块,用于接收所述爬虫平台发送的爬虫任务,所述爬虫任务至少包括:待爬取的目标和爬虫规则;爬虫模块,用于利用所述移动终端的IP地址和所述爬虫规则爬取所述...

【专利技术属性】
技术研发人员:黄巍峰范渊吴卓群
申请(专利权)人:杭州安恒信息技术股份有限公司
类型:发明
国别省市:浙江,33

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1