The invention discloses a method, a storage medium and a server that uses proxy IP to crawl web data. It is used to solve the problem that agent IP is easily blocked when crawling site data. The method provided by the present invention includes: determining the target website to be crawling data, determining the IP classification applicable to the target site according to the attribute information of the target site, and presupposition of the presupposed IP classifications to have the attribute information of their respective applicable sites; and select the agents belonging to the determined IP classification from the IP address pool. IP, the IP address pool includes a plurality of pre collected, classified, and different proxy IP; a proxy IP is selected from the selected agent IP selected; the selected agent IP is used to access the target site and to perform this data crawling task.
【技术实现步骤摘要】
采用代理IP爬取网站数据的方法、存储介质和服务器
本专利技术涉及数据处理
,尤其涉及采用代理IP爬取网站数据的方法、存储介质和服务器。
技术介绍
在互联网环境中,数据是非常重要的一种资产,爬虫系统则是有效获取数据的重要途径之一。目前,很多网站采取了反爬虫技术,使用同一个IP去爬取网站数据,往往很容易被网站识别拉到黑名单中,从而不能继续爬取网站数据。此时,若想继续获取该网站的数据,采用代理IP访问网站进行数据爬取是有效的途径之一。然而,反复采用相同的代理IP爬取网站数据,同样会导致该网站将该代理IP拉入黑名单中,对网站数据的爬取极其不利。
技术实现思路
本专利技术实施例提供了一种采用代理IP爬取网站数据的方法、存储介质和服务器,能够保证爬取网站数据的代理IP来源的可靠性,避免反复采用相同的代理IP爬取数据导致代理IP被封的情况。第一方面,提供了一种采用代理IP爬取网站数据的方法,包括:确定待爬取数据的目标网站;根据所述目标网站的属性信息确定适用于所述目标网站的IP分类,各个预设的IP分类预设有各自适用的网站的属性信息;从IP地址池中筛选出属于确定的所述IP分类的各个代理IP,所述IP地址池包括多个预先收集、归类、且互不相同的代理IP;从筛选出的所述各个代理IP中选取一个代理IP;采用选取出的代理IP访问所述目标网站,并执行本次数据爬取任务。第二方面,提供了一种计算机可读存储介质,所述计算机可读存储介质存储有计算机可读指令,所述计算机可读指令被处理器执行时实现如下步骤:确定待爬取数据的目标网站;根据所述目标网站的属性信息确定适用于所述目标网站的IP分类,各个 ...
【技术保护点】
1.一种采用代理IP爬取网站数据的方法,其特征在于,包括:确定待爬取数据的目标网站;根据所述目标网站的属性信息确定适用于所述目标网站的IP分类,各个预设的IP分类预设有各自适用的网站的属性信息;从IP地址池中筛选出属于确定的所述IP分类的各个代理IP,所述IP地址池包括多个预先收集、归类、且互不相同的代理IP;从筛选出的所述各个代理IP中选取一个代理IP;采用选取出的代理IP访问所述目标网站,并执行本次数据爬取任务。
【技术特征摘要】
1.一种采用代理IP爬取网站数据的方法,其特征在于,包括:确定待爬取数据的目标网站;根据所述目标网站的属性信息确定适用于所述目标网站的IP分类,各个预设的IP分类预设有各自适用的网站的属性信息;从IP地址池中筛选出属于确定的所述IP分类的各个代理IP,所述IP地址池包括多个预先收集、归类、且互不相同的代理IP;从筛选出的所述各个代理IP中选取一个代理IP;采用选取出的代理IP访问所述目标网站,并执行本次数据爬取任务。2.根据权利要求1所述的采用代理IP爬取网站数据的方法,其特征在于,所述IP地址池中的各个代理IP通过以下步骤预先收集、归类:从提供代理IP的网站上爬取各个代理IP;采用爬取到的所述各个代理IP分别访问指定网站;记录访问指定网站时爬取到的所述各个代理IP的各属性项的属性值,所述属性项包括响应速度、过滤能力或隐匿属性;根据记录的属性值对爬取到的所述各个代理IP归类至预设的各个IP分类中。3.根据权利要求1所述的采用代理IP爬取网站数据的方法,其特征在于,还包括:在执行本次数据爬取任务时,每间隔预设时长从筛选出的所述各个代理IP中选取一个未被选取过的代理IP作为替换代理IP,然后采用所述替换代理IP重新访问所述目标网站,并继续执行本次数据爬取任务;或在执行本次数据爬取任务时,在每爬取预设数据量后从筛选出的所述各个代理IP中选取一个未被选取过的代理IP作为替换代理IP,然后采用所述替换代理IP重新访问所述目标网站,并继续执行本次数据爬取任务。4.根据权利要求3所述的采用代理IP爬取网站数据的方法,其特征在于,所述从筛选出的所述各个代理IP中选取一个代理IP包括:按照预设规则对筛选出的所述各个代理IP进行排序,组成代理IP列表;选取所述代理IP列表中排行第一的代理IP;所述从筛选出的所述各个代理IP中选取一个未被选取过的代理IP作为替换代理IP具体为:从所述代理IP列表中选取下一个代理IP作为替换代理IP。5.根据权利要求4所述的采用代理IP爬取网站数据的方法,其特征在于,所述按照预设规则对筛选出的所述各个代理IP进行排序,组成代理IP列表包括:按照确定的所述IP分类预先指定的代理IP的属性项对筛选出的所述各个代理IP进行排序,组成代理IP列表,所述属性项包括响应速度、过滤能力或隐匿属性;...
【专利技术属性】
技术研发人员:李晨光,王盼,
申请(专利权)人:深圳壹账通智能科技有限公司,
类型:发明
国别省市:广东,44
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。