分布式爬虫实现方法及系统技术方案

技术编号:15792117 阅读:161 留言:0更新日期:2017-07-09 23:23
本发明专利技术公开了一种分布式爬虫实现方法,所述方法包括如下步骤:服务器获取搜索的信息以及搜索的范围;服务器依据该搜索的范围将该搜索任务分配成多个搜索子任务;服务器将多个搜索子任务分配给分布式系统内的设备。本发明专利技术提供的技术方案具有效率高的优点。

【技术实现步骤摘要】
分布式爬虫实现方法及系统
本专利技术涉及数据处理领域,尤其涉及一种分布式爬虫实现方法及系统。
技术介绍
网络爬虫(又被称为网页蜘蛛,网络机器人,在FOAF社区中间,更经常的称为网页追逐者),是一种按照一定的规则,自动地抓取万维网信息的程序或者脚本。另外一些不常使用的名字还有蚂蚁、自动索引、模拟程序或者蠕虫。网络爬虫实际是一种网络信息抓取的应用程序,现有的网络爬虫抓取数据量大,导致数据搜索效率低。
技术实现思路
本申请提供一种分布式爬虫实现方法。其解决现有技术的技术方案效率低的缺点。一方面,提供一种分布式爬虫实现方法,所述方法包括如下步骤:分布式爬虫实现方法,所述方法包括如下步骤:服务器获取搜索的信息以及搜索的范围;服务器依据该搜索的范围将该搜索任务分配成多个搜索子任务;服务器将多个搜索子任务分配给分布式系统内的设备。可选的,所述方法还包括:服务器依据负载均衡的原则分配该多个搜索子任务。可选的,所述方法还包括:服务器按分布式系统内的设备的位置分配多个搜索子任务。第二方面,提供一种分布式爬虫实现系统,所述系统包括:获取单元,用于获取搜索的信息以及搜索的范围;处理单元,用于依据该搜索的范围将该搜索任务分配成多个搜索子任务;将多个搜索子任务分配给分布式系统内的设备。可选的,所述系统还包括:处理单元,用于服务器依据负载均衡的原则分配该多个搜索子任务。可选的,所述系统还包括:处理单元,用于按分布式系统内的设备的位置分配多个搜索子任务。第三方面,提供一种服务器,包括:处理器、无线收发器、存储器和总线,所述处理器、无线收发器、存储器通过总线连接,所述无线收发器,用于获取搜索的信息以及搜索的范围;所述处理器,用于依据该搜索的范围将该搜索任务分配成多个搜索子任务;将多个搜索子任务分配给分布式系统内的设备。可选的,所述处理器,用于服务器依据负载均衡的原则分配该多个搜索子任务。可选的,所述处理器,用于按分布式系统内的设备的位置分配多个搜索子任务。本专利技术提供的技术方案通过将搜索任务分解成多个搜索子任务,然后分布给分布式系统的多个设备来执行,从而提高了效率的优点。附图说明为了更清楚地说明本专利技术实施例的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本专利技术的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。图1为本专利技术第一较佳实施方式提供的一种分布式爬虫实现方法的流程图;图2为本专利技术第二较佳实施方式提供的一种分布式爬虫实现系统的结构图。图3为本专利技术第二较佳实施方式提供的一种服务器的硬件结构图。具体实施方式下面将结合本专利技术实施例中的附图,对本专利技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本专利技术一部分实施例,而不是全部的实施例。基于本专利技术中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本专利技术保护的范围。请参考图1,图1是本专利技术第一较佳实施方式提出的一种分布式爬虫实现方法,该方法如图1所示,包括如下步骤:步骤S101、服务器获取搜索的信息以及搜索的范围。步骤S102、服务器依据该搜索的范围将该搜索任务分配成多个搜索子任务。步骤S103、服务器将多个搜索子任务分配给分布式系统内的设备。本专利技术提供的技术方案通过将搜索任务分解成多个搜索子任务,然后分布给分布式系统的多个设备来执行,从而提高了效率的优点。可选的,服务器依据负载均衡的原则分配该多个搜索子任务。可选的,服务器按分布式系统内的设备的位置分配多个搜索子任务。请参考图2,图2是本专利技术第二较佳实施方式提出的一种分布式爬虫实现系统,该系统如图2所示,包括:获取单元201,用于获取搜索的信息以及搜索的范围;处理单元202,用于依据该搜索的范围将该搜索任务分配成多个搜索子任务;将多个搜索子任务分配给分布式系统内的设备。本专利技术提供的技术方案通过将搜索任务分解成多个搜索子任务,然后分布给分布式系统的多个设备来执行,从而提高了效率的优点。可选的,处理单元202,用于服务器依据负载均衡的原则分配该多个搜索子任务。可选的,处理单元202,用于按分布式系统内的设备的位置分配多个搜索子任务。参阅图3,图3为一种服务器30,包括:处理器301、无线收发器302、存储器303和总线304,无线收发器302用于与外部设备之间收发数据。处理器301的数量可以是一个或多个。本申请的一些实施例中,处理器301、存储器302和收发器303可通过总线304或其他方式连接。服务器30可以用于执行图1的步骤。关于本实施例涉及的术语的含义以及举例,可以参考图1对应的实施例。此处不再赘述。无线收发器302,用于获取搜索的信息以及搜索的范围。其中,存储器303中存储程序代码。处理器901用于调用存储器903中存储的程序代码,用于执行以下操作:处理器301,用于依据该搜索的范围将该搜索任务分配成多个搜索子任务;将多个搜索子任务分配给分布式系统内的设备。需要说明的是,这里的处理器301可以是一个处理元件,也可以是多个处理元件的统称。例如,该处理元件可以是中央处理器(CentralProcessingUnit,CPU),也可以是特定集成电路(ApplicationSpecificIntegratedCircuit,ASIC),或者是被配置成实施本申请实施例的一个或多个集成电路,例如:一个或多个微处理器(digitalsingnalprocessor,DSP),或,一个或者多个现场可编程门阵列(FieldProgrammableGateArray,FPGA)。存储器303可以是一个存储装置,也可以是多个存储元件的统称,且用于存储可执行程序代码或应用程序运行装置运行所需要参数、数据等。且存储器303可以包括随机存储器(RAM),也可以包括非易失性存储器(non-volatilememory),例如磁盘存储器,闪存(Flash)等。总线304可以是工业标准体系结构(IndustryStandardArchitecture,ISA)总线、外部设备互连(PeripheralComponent,PCI)总线或扩展工业标准体系结构(ExtendedIndustryStandardArchitecture,EISA)总线等。该总线可以分为地址总线、数据总线、控制总线等。为便于表示,图3中仅用一条粗线表示,但并不表示仅有一根总线或一种类型的总线。该终端还可以包括输入输出装置,连接于总线304,以通过总线与处理器301等其它部分连接。该输入输出装置可以为操作人员提供一输入界面,以便操作人员通过该输入界面选择布控项,还可以是其它接口,可通过该接口外接其它设备。需要说明的是,对于前述的各个方法实施例,为了简单描述,故将其都表述为一系列的动作组合,但是本领域技术人员应该知悉,本专利技术并不受所描述的动作顺序的限制,因为依据本专利技术,某一些步骤可以采用其他顺序或者同时进行。其次,本领域技术人员也应该知悉,说明书中所描述的实施例均属于优选实施例,所涉及的动作和模块并不一定是本专利技术所必须的。在上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详细描述的部分,可以参见其他实施例的相关描述。本领域普通技术人员可以理解本文档来自技高网...
分布式爬虫实现方法及系统

【技术保护点】
一种分布式爬虫实现方法,其特征在于,所述方法包括如下步骤:服务器获取搜索的信息以及搜索的范围;服务器依据该搜索的范围将该搜索任务分配成多个搜索子任务;服务器将多个搜索子任务分配给分布式系统内的设备。

【技术特征摘要】
1.一种分布式爬虫实现方法,其特征在于,所述方法包括如下步骤:服务器获取搜索的信息以及搜索的范围;服务器依据该搜索的范围将该搜索任务分配成多个搜索子任务;服务器将多个搜索子任务分配给分布式系统内的设备。2.根据权利要求1所述的方法,其特征在于,所述方法还包括:服务器依据负载均衡的原则分配该多个搜索子任务。3.根据权要求2所述的方法,其特征在于,所述方法还包括:服务器按分布式系统内的设备的位置分配多个搜索子任务。4.一种分布式爬虫实现系统,其特征在于,所述系统包括:获取单元,用于获取搜索的信息以及搜索的范围;处理单元,用于依据该搜索的范围将该搜索任务分配成多个搜索子任务;将多个搜索子任务分配给分布式系统内的设备。5.根据权利要求4所述的系统,其特征在于,所述系统...

【专利技术属性】
技术研发人员:马岩
申请(专利权)人:深圳市博信诺达经贸咨询有限公司
类型:发明
国别省市:广东,44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1