网站资源获取方法、系统、装置及计算机存储介质制造方法及图纸

技术编号:25921184 阅读:38 留言:0更新日期:2020-10-13 10:41
网站资源获取方法、系统、装置及计算机存储介质,该方法应用于网络资源获取系统;网络资源获取系统分别与内容分发网络的边缘节点和源站存在通信连接;该方法包括:从网络资源获取系统已存储的第一网络资源中查找边缘节点请求访问的目标网络资源;第一网络资源是网络资源获取系统主动从源站中爬取到的;获取一个或多个未查找到的目标网络资源作为待爬取的第二网络资源;从源站中爬取第二网络资源;将爬取到的第二网络资源存储至网络资源获取系统,从而可以无需访问源站,网络资源获取系统为边缘节点提供网络资源,使得源站异常时边缘节点或者客户端都可以获取到网络资源,还可以对漏爬的连接进行补爬。

【技术实现步骤摘要】
网站资源获取方法、系统、装置及计算机存储介质
本专利技术涉及互联网
,具体涉及一种网站资源的获取方法、系统、装置及计算机存储介质。
技术介绍
内容分发网络(ContentDeliveryNetwork,CDN)是构建在现有网络基础之上的智能虚拟网络,依靠部署在各地的边缘服务器,通过中心平台的负载均衡、内容分发、调度等功能子系统,使用户就近获取所需内容,降低网络拥塞,提高用户访问响应速度和命中率。CDN的关键技术主要有内容存储和分发技术。其中,内容存储可以包括将源站中的资源缓存至CDN中的边缘节点,以使边缘节点直接响应客户端发送的访问请求。目前,CDN一般采用被动回源的方式进行缓存。即,当边缘节点中没有符合客户端要求的资源的时候,会回到源站中获取。然而,在实践中发现,当源站与边缘节点之间的通信存在问题时,被动回源的方式容易失效,边缘节点和源站无法获取到网络资源。
技术实现思路
本申请实施例公开了一种网络资源获取方法、系统、装置及计算机存储介质,能够减少无法获取到网络资源的情况发生。本申请实施例第一方面公开一种网络资源获取方法,所述方法包括:所述方法应用于网络资源获取系统;所述网络资源获取系统分别与内容分发网络的边缘节点和内容分发网络的源站存在通信连接;所述方法包括:从所述网络资源获取系统已存储的第一网络资源中查找所述边缘节点请求访问的目标网络资源;所述第一网络资源是所述网络资源获取系统主动从所述源站中爬取到的;获取一个或多个未查找到的所述目标网络资源作为待爬取的第二网络资源;从所述源站中爬取所述第二网络资源;将爬取到的所述第二网络资源存储至所述网络资源获取系统。本申请实施例公开一种网络资源获取系统,所述网络资源获取系统分别与内容分发网络的边缘节点和内容分发网站的源站存在通信连接;所述网络资源获取系统包括:爬虫子系统、存储子系统和控制子系统;所述存储子系统,用于存储所述爬虫子系统从所述源站中爬取到的第一网络资源;以及,从已存储的所述第一网络资源中查找所述边缘节点请求访问的目标网络资源;所述控制子系统,用于获取一个或多个未查找到的所述目标网络资源作为待爬取的第二网络资源;所述爬取子系统,还用于从源站中爬取所述控制子系统确定出的所述第二网络资源;所述存储子系统,还用于存储所述爬取子系统从源站中爬取到的所述第二网络资源。本申请实施例公开一种网络资源获取装置,其特征在于,包括存储器及处理器,所述存储器中存储有计算机程序,所述计算机程序被所述处理器执行时,使得所述处理器实现本申请实施例公开的网络资源获取方法。本申请实施例公开一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时本申请实施例公开的网络资源获取方法。与现有技术相比,本申请实施例具有以下有益效果:在本申请实施例中,网络资源获取系统可以预先从内容分发网络的源站中爬取出第一网络资源并存储;当内容分发网络的边缘节点需要对源站进行访问时,可以直接从网络资源获取系统已存储的第一网络资源中查找边缘节点请求访问的目标网络资源,无需访问源站。因此,即使边缘节点和源站之间的通信存在异常,或者源站自身存在异常导致源站无法正常工作,也可以由网络资源获取系统为边缘节点提供网络资源,使得边缘节点可以将从网络资源获取系统中接收到的网络资源返回至客户端,从而可以减少客户端无法获取到网络资源的情况发生。进一步地,在本申请实施例中,若在网络资源获取系统已存储的第一网络资源中未查找到边缘节点请求访问的目标网络资源,也可以将一个或多个未查找到的目标网络资源作为待爬取的第二网络资源,重新在源站中对第二网络资源进行爬取,以弥补之前漏爬的网络资源,可以网络资源获取系统中存储的源站的镜像资源的完整性。附图说明为了更清楚地说明本申请实施例中的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本专利技术的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。图1是本申请实施例公开的一种网络架构示意图;图2是本申请实施例公开的一种网络资源获取方法的流程示意图;图3是本申请实施例公开的另一种网络资源获取方法的流程示意图;图4是本申请实施例公开的一种包括网络资源获取系统和内容分发网络的网络架构图;图5是本申请实施例公开的一种网络资源获取装置的结构示意图。具体实施方式下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅是本专利技术一部分实施例,而不是全部的实施例。基于本专利技术中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本专利技术保护的范围。需要说明的是,本申请实施例及附图中的术语“包括”和“具有”以及它们任何变形,意图在于覆盖不排他的包含。例如包含了一系列步骤或单元的过程、方法、系统、产品或设备没有限定于已列出的步骤或单元,而是可选地还包括没有列出的步骤或单元,或可选地还包括对于这些过程、方法、产品或设备固有的其它步骤或单元。为了更清楚地对本申请实施例公开的网络资源获取方法、系统、装置及计算机存储介质进行介绍,下面首先对本申请实施例公开的一种网络架构进行说明。请一并参阅图1,图1是本申请实施例公开的一种网络架构示意图。如图1所示,该网络可以包括CDN的边缘节点10、CDN的源站20、网络资源获取系统30。其中,网络资源获取系统30分别与边缘节点10和CDN的源站20存在通信连接。在本申请实施例中,网络资源获取系统30可以主动对源站进行爬取。其中,网络资源获取系统30可以获取爬取任务参数,爬取任务参数可以包括但不限于以下参数中的一种或者多种:源站的域名、源站入口的统一资源定位器(UniformResourceLocator,URL)、爬取的最大层数、爬取的速度参数。网络资源获取系统30可以按照获取到的爬取任务参数对源站进行爬取,该爬取任务参数可以由网络资源获取系统30的开发人员设置,也可以在满足预设的触发条件时自动生成,具体不做限定。上述的触发条件可以包括:定时触发。在获取到爬取任务参数之后,网络资源获取系统30可以根据自身的资源占用情况进行爬取任务的安排和调度。其中,网络资源获取系统30中可以包括爬虫中控节点和爬虫工作节点。爬虫中控节点可以将对源站的爬取拆分成一个或多个爬取任务,并将各个爬取任务发送至爬虫工作节点,以使爬虫工作节点执行爬取任务。爬虫中控节点可以掌握各个爬虫工作节点的设备信息和实时运行状态信息。爬虫工作节点的设备信息可以包括但不限于以下信息中的一种或者多种:中央处理器(CentralProcessingUnit,CPU)的核心数量、物理内存容量、磁盘大小。爬虫工作节点的实时运行状态信息可以包括但不限于以下信息中的一种或者多种:CPU利用率、内存利用率、当前正在进行的爬虫任务的任务数量、当前等待进行的爬虫任务的任务数量。爬虫中控节点可以爬虫中控节点可以根据上述各个爬虫工本文档来自技高网...

【技术保护点】
1.一种网络资源获取方法,其特征在于,所述方法应用于网络资源获取系统;所述网络资源获取系统分别与内容分发网络的边缘节点和内容分发网络的源站存在通信连接;所述方法包括:/n从所述网络资源获取系统已存储的第一网络资源中查找所述边缘节点请求访问的目标网络资源;所述第一网络资源是所述网络资源获取系统主动从所述源站中爬取到的;/n获取一个或多个未查找到的所述目标网络资源作为待爬取的第二网络资源;/n从所述源站中爬取所述第二网络资源;/n将爬取到的所述第二网络资源存储至所述网络资源获取系统。/n

【技术特征摘要】
1.一种网络资源获取方法,其特征在于,所述方法应用于网络资源获取系统;所述网络资源获取系统分别与内容分发网络的边缘节点和内容分发网络的源站存在通信连接;所述方法包括:
从所述网络资源获取系统已存储的第一网络资源中查找所述边缘节点请求访问的目标网络资源;所述第一网络资源是所述网络资源获取系统主动从所述源站中爬取到的;
获取一个或多个未查找到的所述目标网络资源作为待爬取的第二网络资源;
从所述源站中爬取所述第二网络资源;
将爬取到的所述第二网络资源存储至所述网络资源获取系统。


2.根据权利要求1所述的方法,其特征在于,所述获取一个或多个未查找到的所述目标网络资源作为待爬取的第二网络资源,包括:
获取一个或多个所述边缘节点的访问记录日志,其中,所述访问记录日志包括所述边缘节点每次向所述网络资源获取系统请求访问的目标网络资源的信息;
从获取到的一个或多个所述访问记录日志中识别出携带有缺失标记的目标网络资源作为待爬取的第二网络资源,所述缺失标记用于指示在所述第一网络资源中未查找到所述目标网络资源。


3.根据权利要求2所述的方法,其特征在于,所述获取一个或多个所述边缘节点的访问记录日志,包括:
按照预设的时间间隔定时获取所述边缘节点的访问记录日志;或者,
在所述边缘节点的访问记录日志的累计生成数量到达预设数量时,获取预设数量的所述边缘节点的访问记录日志。


4.根据权利要求2所述的方法,其特征在于,所述从获取到的一个或多个所述访问记录日志中识别出携带有缺失标记的目标网络资源作为待爬取的第二网络资源,包括:
对获取到的一个或多个所述访问记录日志中包括同一个所述目标网络资源的所述访问记录日志进行合并,以得到合并后的访问记录日志;
从所述合并后的访问记录日志中识别出携带有缺失标记的所述目标网络资源作为待爬取的第二网络资源。


5.根据权利要求1所述的方法,其特征在于,所述网络资源获取系统包括若干个爬虫工作节点;所述从所述源站中爬取所述第二网络资源,包括:
针对每一所述第二网络资源生成对应的爬取任务;
根据爬取任务生成针对各个所述爬虫工作节点的调度请求;调度请求用于请求爬虫工作节点执行爬取任务;
对相同的调度请求进行合并,以得到合并后的调度请求;其中,请求同一所述爬虫工作节点执行同一爬取任务的两个调度请求为...

【专利技术属性】
技术研发人员:陶波何闯赵士瑞欧怀谷王枭卿
申请(专利权)人:云盾智慧安全科技有限公司
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1