【技术实现步骤摘要】
一种网站数据的爬取方法、装置、电子设备及存储介质
本专利技术实施例涉及计算机技术,尤其涉及一种网站数据的爬取方法、装置、电子设备及存储介质。
技术介绍
垂直网站可以理解为某些特定的领域或某种特定的需求提供深度信息和相关服务的网站,例如司法类网站、教育类网站、财经类网站、娱乐类网站或购物类网站等。目前,垂直网站通常提供分页的结构化数据。现有爬取网站数据的方法通常为,利用本地主机上运行的scrapy爬虫架构或webmagic爬虫架构爬取网页数据。现有方法的不足之处至少包括,虽然scrapy爬虫架构和webmagic爬虫架构可实现多线程爬取,但其爬取效率仍有限。因此,亟需一种更加高效便捷的网站数据爬取方法。
技术实现思路
本专利技术实施例提供一种网站数据的爬取方法、装置、电子设备及存储介质,实现了高效便捷的网站数据爬取。第一方面,本专利技术实施例提供了一种网站数据的爬取方法,应用于终端集群中任一节点终端,包括:接收终端集群中主控终端发送的数据爬取指令,根据所述数据爬取指令启动数据 ...
【技术保护点】
1.一种网站数据的爬取方法,其特征在于,应用于终端集群中任一节点终端,包括:/n接收终端集群中主控终端发送的数据爬取指令,根据所述数据爬取指令启动数据爬取程序;/n通过所述数据爬取程序,循环从任务队列中读取处于未处理状态的爬取任务,根据当前读取的爬取任务爬取相应网站的页面数据,直至所述任务队列中处于未处理状态的爬取任务为空。/n
【技术特征摘要】 【专利技术属性】
1.一种网站数据的爬取方法,其特征在于,应用于终端集群中任一节点终端,包括:
接收终端集群中主控终端发送的数据爬取指令,根据所述数据爬取指令启动数据爬取程序;
通过所述数据爬取程序,循环从任务队列中读取处于未处理状态的爬取任务,根据当前读取的爬取任务爬取相应网站的页面数据,直至所述任务队列中处于未处理状态的爬取任务为空。
2.根据权利要求1所述的方法,其特征在于,所述根据当前读取的爬取任务爬取相应网站的页面数据,包括:
当根据当前读取的爬取任务爬取相应网站的页面数据失败时,进行爬取重试。
3.根据权利要求1所述的方法,其特征在于,所述根据当前读取的爬取任务爬取相应网站的页面数据,包括:
根据当前读取的爬取任务调用功能插件,基于所述功能插件爬取相应网站的页面数据。
4.根据权利要求1-3任一所述的方法,其特征在于,所述终端集群为基于Spark架构构建的分布式集群。
5.根据权利要求1-3任一所述的方法,其特征在于,所述任务队列为基于Elasticsearch架构构建的分布式关键字-数值队列,其中所述关键字唯一标识爬取任务,所述数值包括所述爬取任务的处理状态。
6.根据权利要求5所述的方法,其特征在于,所述任务队列的生成步骤,包括:
技术研发人员:何海生,张龙,
申请(专利权)人:软通动力信息技术有限公司,
类型:发明
国别省市:天津;12
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。