【技术实现步骤摘要】
本专利技术涉及网络通信技术,特别涉及互联网数据拉取方法和系统。
技术介绍
在网络通信中,为了获取互联网上的数据,需要借助于中转服务器,由中转服务器参与互联网数据拉取。参见图1,图1为现有数据拉取平台结构图。图1所示的数据拉取平台主要包括后台服务器和中转服务器。其中,后台服务器作为一个常驻服务器进程,其保存了包含所有中转服务器的列表,并在需要拉取互联网数据时,从列表中随机挑选一个中转服务器,向该中转服务器发起中转数据拉取请求,而中转服务器在收到后台服务器发送的请求后,将请求同时发送给互联网的Web服务器,同时接收Web服务器返回的互联网数据,并发送给后台服务器,由后台服务器将该返回的互联网数据提供给客户端,即实现了互联网数据拉取。由于中转服务器对于不同的网络资源网络质量可能不一样,比如访问某一网络的北京IDC和深圳IDC速度有很大差别,而上述的数据拉取平台中,后台服务器只是从中转服务器列表中随机挑选一个中转服务器,这不能保证该挑选的中转服务器的网络质量,甚至出现挑选的中转服务器不可用的情况,如此,会影响互联网数据的拉取速度和效率。
技术实现思路
本专利技术提供了互联网数据拉取方法和系统,以提高互联网数据的拉取速度和效率。本专利技术提供的技术方案包括:—种互联网数据拉取系统,包括:质量探测服务器、中转调度服务器、中转服务器和数据库;所述质量探测服务器,用于周期性地探测中转服务器列表中各个中转服务器的可用性和网络访问质量,并记录至所述数据库;所述数据库,用于存放中转服务器列表、以及所述质量探测服务器探测的各个中转服务器的可用性和网络访问质量;所述中转调度服务器,用 ...
【技术保护点】
一种互联网数据拉取系统,其特征在于,该系统包括:质量探测服务器、中转调度服务器、中转服务器和数据库;所述质量探测服务器,用于周期性地探测中转服务器列表中各个中转服务器的可用性和网络访问质量,并记录至所述数据库;所述数据库,用于存放中转服务器列表、以及所述质量探测服务器探测的各个中转服务器的可用性和网络访问质量;所述中转调度服务器,用于在需要执行数据拉取任务时,按照均衡调度中转服务器的原则调度出可用、且网络访问质量最佳的中转服务器执行该数据拉取任务;所述中转服务器,用于在所述中转调度服务器的调度下执行数据拉取任务。
【技术特征摘要】
1.一种互联网数据拉取系统,其特征在于,该系统包括:质量探测服务器、中转调度服务器、中转服务器和数据库; 所述质量探测服务器,用于周期性地探测中转服务器列表中各个中转服务器的可用性和网络访问质量,并记录至所述数据库; 所述数据库,用于存放中转服务器列表、以及所述质量探测服务器探测的各个中转服务器的可用性和网络访问质量; 所述中转调度服务器,用于在需要执行数据拉取任务时,按照均衡调度中转服务器的原则调度出可用、且网络访问质量最佳的中转服务器执行该数据拉取任务; 所述中转服务器,用于在所述中转调度服务器的调度下执行数据拉取任务。2.根据权利要求1所述的系统,其特征在于,所述系统进一步包括: 采集服务器,通过周期性地访问指定的中转服务器所在互联网网站采集中转服务器的数据信息,并记录至所述中转服务器列表。3.根据权利要求1所述的系统,其特征在于,所述中转调度服务器包括: 选择单元,用于针对需要执行的数据拉取任务,在当前所有中转服务器的拉取率均为设定默认值时,从当前所有中转服务器中选择出用于执行该数据拉取任务的可用、且网络访问质量最佳的中转服务器,否则,利用当前所有中转服务器的拉取率动态选择出用于执行该数据拉取任务的可用、且网络访问质量最佳的中转服务器; 计算单元,用于在所述选择单元选择的中转服务器每执行一次数据拉取任务时,将该中转服务器的拉取率减去第 一设定数值,将得到的结果作为该中转服务器的拉取率。4.根据权利要求3所述的系统,其特征在于,所述选择单元通过以下子单元实现利用当前所有中转服务器的拉取率动态选择出用于执行该数据拉取任务的可用、且网络访问质量最佳的中转服务器: 第一计算子单元,用于计算当前所有中转服务器的拉取率之和,得到第一结果,以及利用所述第一结果与设定的随机数相乘,得到第二结果; 遍历子单元,用于按顺序遍历当前所有中转服务器,将遍历到的第一个中转服务器作为当前中转服务器,将第二结果作为当前数值;以及在接收到所述判断子单元发送的触发时,继续遍历下一个中转服务器,将遍历到的中转服务器作为当前中转服务器,将所述第二计算子单元计算的当前拉取率作为当前数值; 第二计算子单元,用于将所述当前数值减去所述当前中转服务器的拉取率,得到当前拉取率; 判断子单元,用于判断当前拉取率是否小于等于第二设定数值,如果是,则确定当前中转服务器为用于执行所述数据拉取任务的可用、且网络访问质量最佳的中转服务器,否则,判断当前是否还有未被遍历的中转服务器,如果是,发送触发通知给所述遍历单元。5.根据权利要求3所述的系统,其特征在于,所述数据库进一步存放包含至少一个数据拉取任务的任务表; 所述中转调度服务器进一步包括:轮询单元,用于轮询所述数据库中的任务表,并在检测出所述任务表新增加数据拉取任务时,将该新增加的数据拉取任务加入至自身已建立的任务队列中,将任务队列中的数据拉取任务作为需要执行的数据拉取任务; 所述轮询单元与所述选择单元执行的操作异步。6.根据权利要求1至5任一所述的系统,其特征在于,所述数据库进一步存放用于对中转服务器拉取的数据进行解析的数据解析函数所在的动态链接库信息; 所述中转服务器在拉取数据后,在...
【专利技术属性】
技术研发人员:吴飞,蒋悦,
申请(专利权)人:腾讯科技深圳有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。