【技术实现步骤摘要】
内容爬取方法与装置以及分布式爬虫系统
本公开涉及互联网
,具体而言,涉及一种以水平架构设计的内容爬取方法与装置以及分布式爬虫系统。
技术介绍
随着电子商务的发展,诞生了越来越多的电商网站。网购用户在购买商品时,都希望以优惠的价格买到更好的商品,因此会在多个电商网站查询商品价格、优惠活动、用户评价等信息进行对比。因此,相关技术提供了电商爬虫系统,以及时汇总各个电商网站的商品信息,方便网购用户查询和对比。相关技术中,往往针对各电商网站的不同页面设计编写单独的电商爬虫模块,以爬取对应的电商网站的信息。每个电商爬虫模块均包括爬取所有信息(电商品类信息、商品详细信息等)的子模块,工作时,一个电商爬虫模块会调用这些子模块在一台机器上开启多个工作线程,分别爬取不同信息。这种基于单机多线程的垂直模式设计使得每个爬虫模块只能爬取一个电商的信息,且每个爬虫模块均包含功能不同的子模块,程序可扩展性差,不便于系统动态扩展,且更新部署过程复杂。此外,爬取并分析网页是一项十分消耗网络资源和CPU资源的任务,如果数据量庞大,光靠一台机器是远 ...
【技术保护点】
1.一种内容爬取方法,其特征在于,包括:/n根据多个待爬取网站的地址创建多个爬取进程;/n在所述爬取进程的爬取结果是网络地址时,根据所述网络地址的地址种类将所述网络地址写入与所述地址种类对应的多个地址队列之一;/n根据所述地址队列创建与所述地址种类对应的爬取进程,重复上一步,直至所述爬取结果是预设内容。/n
【技术特征摘要】
1.一种内容爬取方法,其特征在于,包括:
根据多个待爬取网站的地址创建多个爬取进程;
在所述爬取进程的爬取结果是网络地址时,根据所述网络地址的地址种类将所述网络地址写入与所述地址种类对应的多个地址队列之一;
根据所述地址队列创建与所述地址种类对应的爬取进程,重复上一步,直至所述爬取结果是预设内容。
2.如权利要求1所述的内容爬取方法,其特征在于,所述根据所述网络地址的地址种类将所述网络地址写入与所述地址种类对应的多个地址队列之一包括:
确定所述网络地址的地址种类,根据所述地址种类确定多个地址队列;
在所述多个地址队列中随机确定一个写入队列;
从所述写入队列开始,将一个爬取进程的多个网络地址爬取结果按序循环写入所述多个地址队列中。
3.如权利要求1所述的内容爬取方法,其特征在于,所述根据所述地址队列创建与所述地址种类对应的爬取进程包括:
确定所述地址队列的地址种类,根据所述地址种类确定爬取进程的内容;
为所述多个地址队列中的每一个地址队列创建多个爬取进程。
4.如权利要求1所述的内容爬取方法,其特征在于,还包括:将所述预设内容存储到数据库。
5.如权利要求1~4任一项所述的内容爬取方法,其特征在于,所述地址队列存储在Redis数据库中。
6.一种内容爬取装置,其特征在于,包括:
初始进程创建模块,设置为根据多个待爬取网站...
【专利技术属性】
技术研发人员:支海邦,李猛,喻海林,
申请(专利权)人:北京京东尚科信息技术有限公司,北京京东世纪贸易有限公司,
类型:发明
国别省市:北京;11
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。