The invention discloses a web page data acquisition method, system and media for high concurrent e-commerce websites. The method comprises the following steps: when receiving a web page data request for the target web page, pre-allocating multiple servers to form at least two computing clusters; collecting web page data through the computing cluster; and detecting each computing cluster in the process of web page data acquisition. When it is detected that some computing clusters have high utilization of computing resources and others have low utilization of computing resources, the preset number of servers will be allocated from the computing cluster with low utilization of computing resources to the computing cluster with high utilization of computing resources. Thus, by avoiding the waste or insufficiency of computing resources caused by unreasonable allocation of computing resources, the optimal allocation of resources is realized, the utilization rate of computing resources is improved, and the efficiency of data acquisition is improved.
【技术实现步骤摘要】
高并发电商网站的网页数据采集方法、系统和介质
本专利技术涉及互联网
,尤其是涉及一种高并发电商网站的网页数据采集方法、系统和介质。
技术介绍
随着网络技术的发展,互联网成为大量信息的载体,如何有效地提取并利用这些信息则成为一个巨大的挑战。特别的,在电子商务网站中,包括的数据有文字、图片、数据库甚至音频和视频等多媒体资源,这些信息含量密集且具有一定结构的数据,不能很好地发现和获取。为了解决上述问题,定向抓取相关网页资源的程序应运而生,它根据既定的目标,有选择的访问互联网上的网页与相关的链接,获取所需要的信息。对既定目标有选择的获取信息需要消耗计算资源,不同的目标可能包括不同大小和复杂度的网页数据。当过多的计算资源配置到采集较小数据的任务中时,则会造成计算资源的浪费;当过少的计算资源配置到采集较大数据的任务中时,往往耗时较长,效率低下。因此,如何优化资源配置,提高数据采集效率,是当前亟需解决的技术问题。
技术实现思路
本专利技术实施例的主要目的在于提供一种高并发电商网站的网页数据采集方法、系统和介质,旨在优化资源配置,提高数据采集效率。为达以上目的,一方面提出一种高 ...
【技术保护点】
1.一种高并发电商网站的网页数据采集方法,其特征在于,包括:当接收到针对目标网页的网页数据请求时,预分配多个服务器组成至少两个计算集群;通过所述计算集群进行网页数据采集;在网页数据采集过程中,检测各个计算集群的计算资源利用率;当检测到有的计算集群的计算资源利用率高,有的计算集群的计算资源利用率低时,则从所述计算资源利用率低的计算集群中调配预设数量的服务器到所述计算资源利用率高的计算集群。
【技术特征摘要】
1.一种高并发电商网站的网页数据采集方法,其特征在于,包括:当接收到针对目标网页的网页数据请求时,预分配多个服务器组成至少两个计算集群;通过所述计算集群进行网页数据采集;在网页数据采集过程中,检测各个计算集群的计算资源利用率;当检测到有的计算集群的计算资源利用率高,有的计算集群的计算资源利用率低时,则从所述计算资源利用率低的计算集群中调配预设数量的服务器到所述计算资源利用率高的计算集群。2.根据权利要求1所述的高并发电商网站的网页数据采集方法,其特征在于,所述检测各个计算集群的计算资源利用率的步骤之后还包括:当检测到只有计算资源利用率高的计算集群,而没有计算资源利用率低的计算集群时,则向所述计算资源利用率高的计算集群中增加预设数量的服务器;当检测到只有计算资源利用率低的计算集群,而没有计算资源利用率高的计算集群时,则从所述计算资源利用率低的计算集群中移除预设数量的服务器。3.根据权利要求1所述的高并发电商网站的网页数据采集方法,其特征在于,所述检测各个计算集群的计算资源利用率包括:每隔预设时长检测一次各个计算集群的CPU和内存占用率;当所述计算集群的CPU和内存占用率大于或等于第一占用阈值且持续预设时间时,判定所述计算集群的计算资源利用率高;当所述计算集群的CPU和内存占用率小于或等于第二占用阈值且持续预设时间时,判定所述计算集群的计算资源利用率低;所述第一占用阈值大于所述第二占用阈值。4.根据权利要求1所述的高并发电商网站的网页数据采集方法,其特征在于,所述检测各个计算集群的计算资源利用率包括:每隔预设时长检测一次各个计算集群的CPU和内存占用率,并统计所述计算集群的CPU和内存占用率在预设时间内的平均值;当所述计算集群的CPU和内存占用率在预设时间内的平均值大于或等于第一占用阈值时,判定所述计算集群的计算资源利用率高;当所述计算集群的CPU和内存占用率在预设时间内的平均值小于或等于第二占...
【专利技术属性】
技术研发人员:翁文言,赵方,陈志毅,杨振宗,阳衡峰,夏冰,
申请(专利权)人:深圳店匠科技有限公司,
类型:发明
国别省市:广东,44
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。