采用代理IP爬取网站数据的方法、存储介质和服务器技术

技术编号:18575980 阅读:15 留言:0更新日期:2018-08-01 11:00
本发明专利技术公开了一种采用代理IP爬取网站数据的方法、存储介质和服务器,用于解决爬取网站数据时代理IP容易被封的问题。本发明专利技术提供的方法包括:确定待爬取数据的目标网站;根据所述目标网站的属性信息确定适用于所述目标网站的IP分类,各个预设的IP分类预设有各自适用的网站的属性信息;从IP地址池中筛选出属于确定的所述IP分类的各个代理IP,所述IP地址池包括多个预先收集、归类、且互不相同的代理IP;从筛选出的所述各个代理IP中选取一个代理IP;采用选取出的代理IP访问所述目标网站,并执行本次数据爬取任务。

Proxy IP crawling web site data, storage medium and server

The invention discloses a method, a storage medium and a server that uses proxy IP to crawl web data. It is used to solve the problem that agent IP is easily blocked when crawling site data. The method provided by the present invention includes: determining the target website to be crawling data, determining the IP classification applicable to the target site according to the attribute information of the target site, and presupposition of the presupposed IP classifications to have the attribute information of their respective applicable sites; and select the agents belonging to the determined IP classification from the IP address pool. IP, the IP address pool includes a plurality of pre collected, classified, and different proxy IP; a proxy IP is selected from the selected agent IP selected; the selected agent IP is used to access the target site and to perform this data crawling task.

【技术实现步骤摘要】
采用代理IP爬取网站数据的方法、存储介质和服务器
本专利技术涉及数据处理
,尤其涉及采用代理IP爬取网站数据的方法、存储介质和服务器。
技术介绍
在互联网环境中,数据是非常重要的一种资产,爬虫系统则是有效获取数据的重要途径之一。目前,很多网站采取了反爬虫技术,使用同一个IP去爬取网站数据,往往很容易被网站识别拉到黑名单中,从而不能继续爬取网站数据。此时,若想继续获取该网站的数据,采用代理IP访问网站进行数据爬取是有效的途径之一。然而,反复采用相同的代理IP爬取网站数据,同样会导致该网站将该代理IP拉入黑名单中,对网站数据的爬取极其不利。
技术实现思路
本专利技术实施例提供了一种采用代理IP爬取网站数据的方法、存储介质和服务器,能够保证爬取网站数据的代理IP来源的可靠性,避免反复采用相同的代理IP爬取数据导致代理IP被封的情况。第一方面,提供了一种采用代理IP爬取网站数据的方法,包括:确定待爬取数据的目标网站;根据所述目标网站的属性信息确定适用于所述目标网站的IP分类,各个预设的IP分类预设有各自适用的网站的属性信息;从IP地址池中筛选出属于确定的所述IP分类的各个代理IP,所述IP地址池包括多个预先收集、归类、且互不相同的代理IP;从筛选出的所述各个代理IP中选取一个代理IP;采用选取出的代理IP访问所述目标网站,并执行本次数据爬取任务。第二方面,提供了一种计算机可读存储介质,所述计算机可读存储介质存储有计算机可读指令,所述计算机可读指令被处理器执行时实现如下步骤:确定待爬取数据的目标网站;根据所述目标网站的属性信息确定适用于所述目标网站的IP分类,各个预设的IP分类预设有各自适用的网站的属性信息;从IP地址池中筛选出属于确定的所述IP分类的各个代理IP,所述IP地址池包括多个预先收集、归类、且互不相同的代理IP;从筛选出的所述各个代理IP中选取一个代理IP;采用选取出的代理IP访问所述目标网站,并执行本次数据爬取任务。第三方面,提供了一种服务器,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机可读指令,所述处理器执行所述计算机可读指令时实现如下步骤:确定待爬取数据的目标网站;根据所述目标网站的属性信息确定适用于所述目标网站的IP分类,各个预设的IP分类预设有各自适用的网站的属性信息;从IP地址池中筛选出属于确定的所述IP分类的各个代理IP,所述IP地址池包括多个预先收集、归类、且互不相同的代理IP;从筛选出的所述各个代理IP中选取一个代理IP;采用选取出的代理IP访问所述目标网站,并执行本次数据爬取任务。从以上技术方案可以看出,本专利技术实施例具有以下优点:本专利技术实施例中,首先,确定待爬取数据的目标网站;然后,根据所述目标网站的属性信息确定适用于所述目标网站的IP分类,各个预设的IP分类预设有各自适用的网站的属性信息;接着,从IP地址池中筛选出属于确定的所述IP分类的各个代理IP,所述IP地址池包括多个预先收集、归类、且互不相同的代理IP;再之,从筛选出的所述各个代理IP中选取一个代理IP;最后,采用选取出的代理IP访问所述目标网站,并执行本次数据爬取任务。在本专利技术实施例中,由于IP地址池中包括多个互不相同的代理IP,执行当前数据爬取任务时,从中筛选出合适的各个代理IP后,再选取一个代理IP进行访问和爬取数据,因此,不仅保证了爬取网站数据的代理IP来源的可靠性,而且避免了反复采用相同的代理IP爬取数据导致代理IP被封的情况,有利于爬取网站数据的顺利进行。附图说明为了更清楚地说明本专利技术实施例中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本专利技术的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。图1为本专利技术实施例中一种采用代理IP爬取网站数据的方法一个实施例流程图;图2为本专利技术实施例中一种采用代理IP爬取网站数据的方法在一个应用场景下预先收集归类代理IP的流程示意图;图3为本专利技术实施例中一种采用代理IP爬取网站数据的方法步骤104在一个应用场景下的流程示意图;图4为本专利技术实施例中一种采用代理IP爬取网站数据的装置一个实施例结构图;图5为本专利技术一实施例提供的服务器的示意图。具体实施方式本专利技术实施例提供了一种采用代理IP爬取网站数据的方法、存储介质和服务器,用于解决爬取网站数据时代理IP容易被封的问题。为使得本专利技术的专利技术目的、特征、优点能够更加的明显和易懂,下面将结合本专利技术实施例中的附图,对本专利技术实施例中的技术方案进行清楚、完整地描述,显然,下面所描述的实施例仅仅是本专利技术一部分实施例,而非全部的实施例。基于本专利技术中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例,都属于本专利技术保护的范围。请参阅图1,本专利技术实施例中一种采用代理IP爬取网站数据的方法一个实施例包括:101、确定待爬取数据的目标网站;本实施例的执行主体可以是终端设备或者服务器,优选地,本实施例中的执行主体为一服务器。可以理解的是,服务器在爬取数据之前,首先需要确定本次数据爬取任务所针对的网站,即上述的目标网站。优选地,在执行下述步骤102之前,服务器可以先采用本地IP尝试访问该目标网站,如果失败(比如本地IP已被拉黑名单),再采用代理IP进行访问,这样不仅更加方便,而且有利于保护代理IP的有效性。具体包括:首先,采用本地IP访问所述目标网站;若采用本地IP访问所述目标网站成功,则执行本次数据爬取任务;若采用本地IP访问所述目标网站失败,则执行下述步骤102。102、根据所述目标网站的属性信息确定适用于所述目标网站的IP分类,各个预设的IP分类预设有各自适用的网站的属性信息;可以理解的是,不同的目标网站一般具有不同的属性信息,比如,某个网站的服务器地址在广东省深圳市,另一个网站的服务器地址在江苏省南京市。可知,对这两个网站进行访问时,若采用的代理IP的所在地在深圳市,则该代理IP访问前一个网站的响应速度往往远快于后一个网站的响应速度。因此,服务器可以预先对各个代理IP进行分类,具体分类方法在下述内容描述。分类后,服务器上预设有各个IP分类,这些IP分类预先设置有各自使用的网站的属性信息,以便于在确定IP分类时,可以根据网站的属性信息快速筛选出使用的IP分类。举例说明,可以某个IP分类(记为分类A)预设的属性信息为“深圳市”,即表示该分类A适用于服务器地址位于深圳市的目标网站,因此,当该目标网站的属性信息中记载其服务器地址为“广东省深圳市”时,服务器即可确定该分类A为适用于该目标网站的IP分类。103、从IP地址池中筛选出属于确定的所述IP分类的各个代理IP;需要说明的是,服务器上设有IP地址池,该IP地址池包括多个预先收集、归类、且互不相同的代理IP,当需要筛选代理IP时,从IP地址池中筛选出属于上述步骤102确定的IP分类的各个代理IP。进一步地,如图2所示,所述IP地址池中的各个代理IP可以通过以下步骤预先收集、归类:201、从提供代理IP的网站上爬取各个代理IP;202、采用爬取到的所述各个代理IP分别访问指定网站;203、记录访问指定网站时爬取到的所述各个代理IP的各属性项本文档来自技高网...

【技术保护点】
1.一种采用代理IP爬取网站数据的方法,其特征在于,包括:确定待爬取数据的目标网站;根据所述目标网站的属性信息确定适用于所述目标网站的IP分类,各个预设的IP分类预设有各自适用的网站的属性信息;从IP地址池中筛选出属于确定的所述IP分类的各个代理IP,所述IP地址池包括多个预先收集、归类、且互不相同的代理IP;从筛选出的所述各个代理IP中选取一个代理IP;采用选取出的代理IP访问所述目标网站,并执行本次数据爬取任务。

【技术特征摘要】
1.一种采用代理IP爬取网站数据的方法,其特征在于,包括:确定待爬取数据的目标网站;根据所述目标网站的属性信息确定适用于所述目标网站的IP分类,各个预设的IP分类预设有各自适用的网站的属性信息;从IP地址池中筛选出属于确定的所述IP分类的各个代理IP,所述IP地址池包括多个预先收集、归类、且互不相同的代理IP;从筛选出的所述各个代理IP中选取一个代理IP;采用选取出的代理IP访问所述目标网站,并执行本次数据爬取任务。2.根据权利要求1所述的采用代理IP爬取网站数据的方法,其特征在于,所述IP地址池中的各个代理IP通过以下步骤预先收集、归类:从提供代理IP的网站上爬取各个代理IP;采用爬取到的所述各个代理IP分别访问指定网站;记录访问指定网站时爬取到的所述各个代理IP的各属性项的属性值,所述属性项包括响应速度、过滤能力或隐匿属性;根据记录的属性值对爬取到的所述各个代理IP归类至预设的各个IP分类中。3.根据权利要求1所述的采用代理IP爬取网站数据的方法,其特征在于,还包括:在执行本次数据爬取任务时,每间隔预设时长从筛选出的所述各个代理IP中选取一个未被选取过的代理IP作为替换代理IP,然后采用所述替换代理IP重新访问所述目标网站,并继续执行本次数据爬取任务;或在执行本次数据爬取任务时,在每爬取预设数据量后从筛选出的所述各个代理IP中选取一个未被选取过的代理IP作为替换代理IP,然后采用所述替换代理IP重新访问所述目标网站,并继续执行本次数据爬取任务。4.根据权利要求3所述的采用代理IP爬取网站数据的方法,其特征在于,所述从筛选出的所述各个代理IP中选取一个代理IP包括:按照预设规则对筛选出的所述各个代理IP进行排序,组成代理IP列表;选取所述代理IP列表中排行第一的代理IP;所述从筛选出的所述各个代理IP中选取一个未被选取过的代理IP作为替换代理IP具体为:从所述代理IP列表中选取下一个代理IP作为替换代理IP。5.根据权利要求4所述的采用代理IP爬取网站数据的方法,其特征在于,所述按照预设规则对筛选出的所述各个代理IP进行排序,组成代理IP列表包括:按照确定的所述IP分类预先指定的代理IP的属性项对筛选出的所述各个代理IP进行排序,组成代理IP列表,所述属性项包括响应速度、过滤能力或隐匿属性;...

【专利技术属性】
技术研发人员:李晨光王盼
申请(专利权)人:深圳壹账通智能科技有限公司
类型:发明
国别省市:广东,44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1