高并发电商网站的网页数据采集方法、系统和介质技术方案

技术编号:21003922 阅读:30 留言:0更新日期:2019-04-30 21:29
本发明专利技术公开了一种高并发电商网站的网页数据采集方法、系统和介质,所述方法包括以下步骤:当接收到针对目标网页的网页数据请求时,预分配多个服务器组成至少两个计算集群;通过所述计算集群进行网页数据采集;在网页数据采集过程中,检测各个计算集群的计算资源利用率;当检测到有的计算集群的计算资源利用率高,有的计算集群的计算资源利用率低时,则从计算资源利用率低的计算集群中调配预设数量的服务器到计算资源利用率高的计算集群。从而通过避免了计算资源分配不合理造成的计算资源的浪费或不足,实现了资源的优化配置,提高了计算资源的利用率,进而提高了数据采集效率。

Web Page Data Acquisition Method, System and Media for High Concurrent E-Commerce Websites

The invention discloses a web page data acquisition method, system and media for high concurrent e-commerce websites. The method comprises the following steps: when receiving a web page data request for the target web page, pre-allocating multiple servers to form at least two computing clusters; collecting web page data through the computing cluster; and detecting each computing cluster in the process of web page data acquisition. When it is detected that some computing clusters have high utilization of computing resources and others have low utilization of computing resources, the preset number of servers will be allocated from the computing cluster with low utilization of computing resources to the computing cluster with high utilization of computing resources. Thus, by avoiding the waste or insufficiency of computing resources caused by unreasonable allocation of computing resources, the optimal allocation of resources is realized, the utilization rate of computing resources is improved, and the efficiency of data acquisition is improved.

【技术实现步骤摘要】
高并发电商网站的网页数据采集方法、系统和介质
本专利技术涉及互联网
,尤其是涉及一种高并发电商网站的网页数据采集方法、系统和介质。
技术介绍
随着网络技术的发展,互联网成为大量信息的载体,如何有效地提取并利用这些信息则成为一个巨大的挑战。特别的,在电子商务网站中,包括的数据有文字、图片、数据库甚至音频和视频等多媒体资源,这些信息含量密集且具有一定结构的数据,不能很好地发现和获取。为了解决上述问题,定向抓取相关网页资源的程序应运而生,它根据既定的目标,有选择的访问互联网上的网页与相关的链接,获取所需要的信息。对既定目标有选择的获取信息需要消耗计算资源,不同的目标可能包括不同大小和复杂度的网页数据。当过多的计算资源配置到采集较小数据的任务中时,则会造成计算资源的浪费;当过少的计算资源配置到采集较大数据的任务中时,往往耗时较长,效率低下。因此,如何优化资源配置,提高数据采集效率,是当前亟需解决的技术问题。
技术实现思路
本专利技术实施例的主要目的在于提供一种高并发电商网站的网页数据采集方法、系统和介质,旨在优化资源配置,提高数据采集效率。为达以上目的,一方面提出一种高并发电商网站的网页数本文档来自技高网...

【技术保护点】
1.一种高并发电商网站的网页数据采集方法,其特征在于,包括:当接收到针对目标网页的网页数据请求时,预分配多个服务器组成至少两个计算集群;通过所述计算集群进行网页数据采集;在网页数据采集过程中,检测各个计算集群的计算资源利用率;当检测到有的计算集群的计算资源利用率高,有的计算集群的计算资源利用率低时,则从所述计算资源利用率低的计算集群中调配预设数量的服务器到所述计算资源利用率高的计算集群。

【技术特征摘要】
1.一种高并发电商网站的网页数据采集方法,其特征在于,包括:当接收到针对目标网页的网页数据请求时,预分配多个服务器组成至少两个计算集群;通过所述计算集群进行网页数据采集;在网页数据采集过程中,检测各个计算集群的计算资源利用率;当检测到有的计算集群的计算资源利用率高,有的计算集群的计算资源利用率低时,则从所述计算资源利用率低的计算集群中调配预设数量的服务器到所述计算资源利用率高的计算集群。2.根据权利要求1所述的高并发电商网站的网页数据采集方法,其特征在于,所述检测各个计算集群的计算资源利用率的步骤之后还包括:当检测到只有计算资源利用率高的计算集群,而没有计算资源利用率低的计算集群时,则向所述计算资源利用率高的计算集群中增加预设数量的服务器;当检测到只有计算资源利用率低的计算集群,而没有计算资源利用率高的计算集群时,则从所述计算资源利用率低的计算集群中移除预设数量的服务器。3.根据权利要求1所述的高并发电商网站的网页数据采集方法,其特征在于,所述检测各个计算集群的计算资源利用率包括:每隔预设时长检测一次各个计算集群的CPU和内存占用率;当所述计算集群的CPU和内存占用率大于或等于第一占用阈值且持续预设时间时,判定所述计算集群的计算资源利用率高;当所述计算集群的CPU和内存占用率小于或等于第二占用阈值且持续预设时间时,判定所述计算集群的计算资源利用率低;所述第一占用阈值大于所述第二占用阈值。4.根据权利要求1所述的高并发电商网站的网页数据采集方法,其特征在于,所述检测各个计算集群的计算资源利用率包括:每隔预设时长检测一次各个计算集群的CPU和内存占用率,并统计所述计算集群的CPU和内存占用率在预设时间内的平均值;当所述计算集群的CPU和内存占用率在预设时间内的平均值大于或等于第一占用阈值时,判定所述计算集群的计算资源利用率高;当所述计算集群的CPU和内存占用率在预设时间内的平均值小于或等于第二占...

【专利技术属性】
技术研发人员:翁文言赵方陈志毅杨振宗阳衡峰夏冰
申请(专利权)人:深圳店匠科技有限公司
类型:发明
国别省市:广东,44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1