网络地址调度方法、装置、计算机设备及计算机可读存储介质制造方法及图纸

技术编号:36523807 阅读:19 留言:0更新日期:2023-02-01 16:01
本申请公开了一种网络地址调度方法、装置、计算机设备及计算机可读存储介质,涉及大数据领域,搭建IP代理服务系统,进行网络地址的更新调度,为爬虫集群提供定制IP服务,从而提高爬虫集群的数据采集效率。所述方法适用于中央服务器包括:接收第一拨号服务器上传的网络地址,将网络地址与第一拨号服务器对应存储至目标数据库;响应于爬虫程序发送的地址获取请求,在目标数据库中,提取第一地址返回至爬虫程序;当检测到爬虫程序返回携带有第一地址的失效提示时,将失效提示发送至第一地址对应的第二拨号服务器,重新在目标数据库中提取第三地址返回至爬虫程序,并接收第二地址,将第二地址与第二拨号服务器对应存储至目标数据库。库。库。

【技术实现步骤摘要】
网络地址调度方法、装置、计算机设备及计算机可读存储介质


[0001]本申请涉及大数据领域,特别是涉及一种网络地址调度方法、装置、计算机设备及计算机可读存储介质。

技术介绍

[0002]随着大数据时代的到来,数据资源变的尤为重要。大部分互联网企业需要获取网络公开数据来补充公司内部的数据资源,进而为数据分析、数据算法模型的搭建提供数据支撑。进一步地,为提高数据采集集群的数据采集效率,需要海量高效的代理IP(网络地址)进行支撑。
[0003]目前,大部分互联网企业会采用购买代理服务商IP代理服务的方式,获取有效的网络地址来支持爬虫集群,但是代理IP的使用人群多,使得代理质量不稳定,经常会因为IP资源限制导致数据采集失败,从而影响网络数据的采集效率。因此,亟需一种网络地址调度方法,为爬虫集群提供定制IP服务,从而提高爬虫集群的数据采集效率。

技术实现思路

[0004]有鉴于此,本申请提供了一种网络地址调度方法、装置、计算机设备及计算机可读存储介质,主要目的在于解决目前代理IP的使用人群多,使得代理质量不稳定,经常会因为IP资源限制导致数据采集失败,从而影响网络数据的采集效率的问题。
[0005]依据本申请第一方面,提供了一种网络地址调度方法,该方法包括:
[0006]接收第一拨号服务器上传的网络地址,将所述网络地址与所述第一拨号服务器对应存储至目标数据库,所述网络地址是由所述第一拨号服务器成功执行拨号指令后获取到的;
[0007]响应于爬虫程序发送的地址获取请求,在所述目标数据库中,提取第一地址返回至所述爬虫程序,以使所述爬虫程序使用所述第一地址抓取网络数据;
[0008]当检测到所述爬虫程序返回携带有所述第一地址的失效提示时,将所述失效提示发送至所述第一地址对应的第二拨号服务器,以使所述第二拨号服务器重新执行所述拨号指令,得到第二地址并发送至所述中央服务器;
[0009]重新在所述目标数据库中提取第三地址返回至所述爬虫程序,并接收所述第二地址,将所述第二地址与所述第二拨号服务器对应存储至所述目标数据库。
[0010]可选地,所述接收第一拨号服务器上传的网络地址,将所述网络地址与所述第一拨号服务器对应存储至目标数据库之后,所述方法还包括:
[0011]读取所述目标数据库中存储的全部网络地址,对所述全部网络地址进行可用性检测,得到检测结果;
[0012]若所述检测结果显示地址不可用,则在所述目标数据库中删除所述检测结果对应的网络地址;
[0013]若所述检测结果显示地址可用,则在所述目标数据库中保留所述检测结果对应的
网络地址。
[0014]可选地,所述当检测到所述爬虫程序返回携带有所述第一地址的失效提示时,将所述失效提示发送至所述第一地址对应的第二拨号服务器,包括:
[0015]当检测到所述爬虫程序返回携带有所述第一地址的失效提示时,识别所述失效提示,在所述失效提示中读取所述第一地址对应的第二拨号服务器;
[0016]在所述目标数据库中查询所述第二拨号服务器对应的网络地址,将所述网络地址与所述第一地址进行比对,得到比对结果;
[0017]若所述比对结果指示所述网络地址与所述第一地址一致,则将所述失效提示发送至所述第二拨号服务器。
[0018]可选地,所述接收第一拨号服务器上传的网络地址,将所述网络地址与所述第一拨号服务器对应存储至目标数据库,包括:
[0019]在监听到所述第一拨号服务器发送拨号数据时,接收所述拨号数据,所述拨号数据包括加密参数、端口号和服务器标识;
[0020]对所述拨号数据进行解析,得到发送所述拨号数据的第一拨号服务器对应的网络地址,将所述网络地址存储至目标数据库。
[0021]可选地,所述响应于爬虫程序发送的地址获取请求,在所述目标数据库中,提取第一地址返回至所述爬虫程序,包括:
[0022]读取所述网络地址获取请求,确定网络地址提取方式,所述提取方式为随机提取方式、全部提取方式以及指定提取方式其中之一;
[0023]按照所述网络地址提取方式,在所述目标数据库中提取所述第一地址,并将所述第一地址和所述第一地址对应的服务器标识,打包返回至所述爬虫程序。
[0024]可选地,所述重新在所述目标数据库中提取第三地址返回至所述爬虫程序,并接收所述第二地址,将所述第二地址与所述第二拨号服务器对应存储至所述目标数据库,包括:
[0025]重新在所述目标数据库中,提取所述第三地址,将所述第三地址和所述第三地址对应的第三拨号服务器打包返回至所述爬虫程序,以使所述爬虫程序使用所述第三地址抓取网络数据;
[0026]当再次接收到所述第二拨号服务器上传网络地址时,读取所述网络地址,得到所述第二地址,将所述第二地址与所述第二拨号服务器对应存储至所述目标数据库。
[0027]可选地,所述方法还包括:
[0028]响应于所述第一拨号服务器按照预设周期上传网络地址,每当接收到所述第一拨号服务器上传网络地址时,在所述目标数据库中,查询所述第一拨号服务器对应的历史网络地址,采用所述网络地址替换所述历史网络地址。
[0029]依据本申请第二方面,提供了一种网络地址调度装置,该装置包括:
[0030]接收模块,用于接收第一拨号服务器上传的网络地址,将所述网络地址与所述第一拨号服务器对应存储至目标数据库,所述网络地址是由所述第一拨号服务器成功执行拨号指令后获取到的;
[0031]提取模块,用于响应于爬虫程序发送的地址获取请求,在所述目标数据库中,提取第一地址返回至所述爬虫程序,以使所述爬虫程序使用所述第一地址抓取网络数据;
[0032]发送模块,用于当检测到所述爬虫程序返回携带有所述第一地址的失效提示时,将所述失效提示发送至所述第一地址对应的第二拨号服务器,以使所述第二拨号服务器重新执行所述拨号指令,得到第二地址并发送至所述中央服务器;
[0033]第一替换模块,用于重新在所述目标数据库中提取第三地址返回至所述爬虫程序,并接收所述第二地址,将所述第二地址与所述第二拨号服务器对应存储至所述目标数据库。
[0034]可选地,所述装置还包括:
[0035]读取模块,用于读取所述目标数据库中存储的全部网络地址,对所述全部网络地址进行可用性检测,得到检测结果;
[0036]删除模块,用于若所述检测结果显示地址不可用,则在所述目标数据库中删除所述检测结果对应的网络地址;
[0037]存储模块,用于若所述检测结果显示地址可用,则在所述目标数据库中保留所述检测结果对应的网络地址。
[0038]可选地,所述发送模块,用于当检测到所述爬虫程序返回携带有所述第一地址的失效提示时,识别所述失效提示,在所述失效提示中读取所述第一地址对应的第二拨号服务器;在所述目标数据库中查询所述第二拨号服务器对应的网络地址,将所述网络地址与所述第一地址进行比对,得到比对结果;若所述比对结果指示所述网络地址与所述第一地本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种网络地址调度方法,其特征在于,所述方法适用于中央服务器,包括:接收第一拨号服务器上传的网络地址,将所述网络地址与所述第一拨号服务器对应存储至目标数据库,所述网络地址是由所述第一拨号服务器成功执行拨号指令后获取到的;响应于爬虫程序发送的地址获取请求,在所述目标数据库中,提取第一地址返回至所述爬虫程序,以使所述爬虫程序使用所述第一地址抓取网络数据;当检测到所述爬虫程序返回携带有所述第一地址的失效提示时,将所述失效提示发送至所述第一地址对应的第二拨号服务器,以使所述第二拨号服务器重新执行所述拨号指令,得到第二地址并发送至所述中央服务器;重新在所述目标数据库中提取第三地址返回至所述爬虫程序,并接收所述第二地址,将所述第二地址与所述第二拨号服务器对应存储至所述目标数据库。2.根据权利要求1所述的方法,其特征在于,所述接收第一拨号服务器上传的网络地址,将所述网络地址与所述第一拨号服务器对应存储至目标数据库之后,所述方法还包括:读取所述目标数据库中存储的全部网络地址,对所述全部网络地址进行可用性检测,得到检测结果;若所述检测结果显示地址不可用,则在所述目标数据库中删除所述检测结果对应的网络地址;若所述检测结果显示地址可用,则在所述目标数据库中保留所述检测结果对应的网络地址。3.根据权利要求1所述的方法,其特征在于,所述当检测到所述爬虫程序返回携带有所述第一地址的失效提示时,将所述失效提示发送至所述第一地址对应的第二拨号服务器,包括:当检测到所述爬虫程序返回携带有所述第一地址的失效提示时,识别所述失效提示,在所述失效提示中读取所述第一地址对应的第二拨号服务器;在所述目标数据库中查询所述第二拨号服务器对应的网络地址,将所述网络地址与所述第一地址进行比对,得到比对结果;若所述比对结果指示所述网络地址与所述第一地址一致,则将所述失效提示发送至所述第二拨号服务器。4.根据权利要求1所述的方法,其特征在于,所述接收第一拨号服务器上传的网络地址,将所述网络地址与所述第一拨号服务器对应存储至目标数据库,包括:在监听到所述第一拨号服务器发送拨号数据时,接收所述拨号数据,所述拨号数据包括加密参数、端口号和服务器标识;对所述拨号数据进行解析,得到发送所述拨号数据的第一拨号服务器对应的网络地址,将所述网络地址存储至目标数据库。5.根据权利要求1所述的方法,其特征在于,所述响应于爬虫程序发送的地址获取请求,在所述目标数据库中,提取第一地址返回至所述...

【专利技术属性】
技术研发人员:庞晓晨
申请(专利权)人:大箴杭州科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1