对网络数据进行关键词匹配的方法及装置制造方法及图纸

技术编号:13678231 阅读:86 留言:0更新日期:2016-09-08 05:16
本公开是关于一种对网络数据进行关键词匹配的方法及装置,属于网络技术领域。方法包括:将通过网络爬虫爬取到的网络数据添加入数据队列,获取用户设置的匹配关键词,通过至少一个匹配线程,将所述数据队列中的网络数据与所述匹配关键词进行匹配,当需要通过不同的匹配关键词对网络爬虫爬取到的数据进行匹配时,开发者用户只需要输入新的匹配关键词即可,不需要更改爬虫网络的代码,从而降低对匹配关键词进行调整的难度,降低开发成本。

【技术实现步骤摘要】

本公开涉及网络
,特别涉及一种对网络数据进行关键词匹配的方法及装置
技术介绍
面对互联网中海量的数据,很多企业用户需要使用网络爬虫来爬取网络数据,并从中获取到自己想要数据。相关技术中,开发者在开发网络爬虫时,在网络爬虫的代码中增加匹配部分代码,网络爬虫在爬取到网络数据后,可以通过运行该匹配部分代码,将爬取到的数据与匹配部分代码中的匹配关键词进行匹配,以从中提取出需要的数据。当开发者想要从爬取到的数据中提取不同的数据时,可以修改匹配部分代码中的匹配关键词。
技术实现思路
本公开实施例提供了一种对网络数据进行关键词匹配的方法及装置,技术方案如下:根据本公开实施例的第一方面,提供了一种对网络数据进行关键词匹配的方法。该方法包括:将通过网络爬虫爬取到的网络数据添加入数据队列;获取用户设置的匹配关键词;通过至少一个匹配线程,将所述数据队列中的网络数据与所述匹配关键词进行匹配。可选的,所述方法还包括:获取所述数据队列中待匹配的网络数据的数据量;根据所述网络数据的数据量确定目标线程数;通过新建或者关闭线程,将所述至少一个匹配线程的线程数调整为所述目
标线程数。可选的,所述根据所述网络数据的数据量确定目标线程数,包括:当所述网络数据的数据量不大于第一数据量阈值时,确定所述目标线程数为第一线程数;当所述网络数据的数据量不小于第二数据量阈值时,确定所述目标线程数为第二线程数;当所述网络数据的数据量处于所述第一数据量阈值和所述第二数据量阈值之间时,根据所述网络数据的数据量计算所述目标线程数。可选的,所述通过至少一个匹配线程,将所述数据队列中的网络数据与所述匹配关键词进行匹配,包括:将所述匹配关键词加载在内存中的指定位置;向所述至少一个匹配线程发送指示消息,所述指示消息用于指示所述至少一个匹配线程从所述指定位置读取所述匹配关键词。可选的,所述方法还包括:在将通过网络爬虫爬取到的网络数据添加入数据队列之前,接收爬虫服务器发送的所述网络数据。可选的,所述获取用户设置的匹配关键词,包括:接收所述爬虫服务器发送的所述匹配关键词,所述匹配关键词是用户在所述爬虫服务器中设置的关键词。根据本公开实施例的第二方面,提供了一种对网络数据进行关键词匹配的装置。该装置包括:添加模块,用于将通过网络爬虫爬取到的网络数据添加入数据队列;第一获取模块,用于获取用户设置的匹配关键词;匹配模块,用于通过至少一个匹配线程,将所述数据队列中的网络数据与所述匹配关键词进行匹配。可选的,所述装置还包括:第二获取模块,用于获取所述数据队列中待匹配的网络数据的数据量;确定模块,用于根据所述网络数据的数据量确定目标线程数;调整模块,用于通过新建或者关闭线程,将所述至少一个匹配线程的线程
数调整为所述目标线程数。可选的,所述确定模块,包括:第一确定子模块,用于当所述网络数据的数据量不大于第一数据量阈值时,确定所述目标线程数为第一线程数;第二确定子模块,用于当所述网络数据的数据量不小于第二数据量阈值时,确定所述目标线程数为第二线程数;计算子模块,用于当所述网络数据的数据量处于所述第一数据量阈值和所述第二数据量阈值之间时,根据所述网络数据的数据量计算所述目标线程数。可选的,所述匹配模块,包括:加载子模块,用于将所述匹配关键词加载在内存中的指定位置;发送子模块,用于向所述至少一个匹配线程发送指示消息,所述指示消息用于指示所述至少一个匹配线程从所述指定位置读取所述匹配关键词。可选的,所述装置还包括:接收模块,用于在将通过网络爬虫爬取到的网络数据添加入数据队列之前,接收爬虫服务器发送的所述网络数据。可选的,所述第一获取模块,用于接收所述爬虫服务器发送的所述匹配关键词,所述匹配关键词是用户在所述爬虫服务器中设置的关键词。根据本公开实施例的第三方面,提供了一种对网络数据进行关键词匹配的装置,所述装置包括:处理器;用于存储所述处理器的可执行指令的存储器;其中,所述处理器被配置为:将通过网络爬虫爬取到的网络数据添加入数据队列;获取用户设置的匹配关键词;通过至少一个匹配线程,将所述数据队列中的网络数据与所述匹配关键词进行匹配。本公开实施例提供的技术方案可以包括以下有益效果:将通过网络爬虫爬取到的网络数据添加入数据队列,获取用户设置的匹配
关键词,通过至少一个匹配线程,将该数据队列中的网络数据与匹配关键词进行匹配,当需要通过不同的匹配关键词对网络爬虫爬取到的数据进行匹配时,开发者用户只需要输入新的匹配关键词即可,不需要更改爬虫网络的代码,从而降低对匹配关键词进行调整的难度,降低开发成本。应当理解的是,以上的一般描述和后文的细节描述仅是示例性和解释性的,并不能限制本公开。附图说明此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本公开的实施例,并与说明书一起用于解释本公开的原理。图1是本公开各个实施例所示的对网络数据进行关键词匹配的方法所涉及的实施环境的示意图;图2是根据一示例性实施例示出的一种对网络数据进行关键词匹配的方法的流程图;图3是根据另一示例性实施例示出的一种对网络数据进行关键词匹配的方法的流程图;图4是根据又一示例性实施例示出的一种对网络数据进行关键词匹配的方法的流程图;图5是根据一示例性实施例示出的一种对网络数据进行关键词匹配的装置的框图;图6是根据另一示例性实施例示出的一种对网络数据进行关键词匹配的装置的框图;图7根据一示例性实施例示出的一种装置的框图。具体实施方式这里将详细地对示例性实施例进行说明,其示例表示在附图中。下面的描述涉及附图时,除非另有表示,不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本公开相一致的所有实施方式。相反,它们仅是与如所附权利要求书中所详述的、本公开的一些方面相一致的装置和方法的例子。图1是根据本公开所示出的对网络数据进行关键词匹配的方法所涉及的实施环境的示意图。该实施环境可以包括:爬虫服务器110和队列服务器120。爬虫服务器110可以是在网络中处理爬虫程序的服务器。爬虫程序利用爬虫服务器110的硬件资源而执行,爬虫程序可以从一个原始的URL(Uniform Resource Locator,统一资源定位符)地址开始爬取网络数据,并该网络数据中新的URL中的数据再次进行爬取,直到没有新的URL可供爬取,或者爬取到预定层级为止。之后,爬虫服务器110将获取到的网络数据传给队列服务器120。队列服务器120通过有线网络或者无线网络与爬虫服务器110相连,一台爬虫服务器可以对应若干台队列服务器120,队列服务器用于处理爬虫服务器110传来的数据以及指令。爬虫服务器110和队列服务器120在应用中可以是不同的层次和架构,也可以是相同的层次和架构。其中,爬虫服务器110和队列服务器120从应用层次而言可以是:入门级服务器、工作组级服务器、部门级服务器或企业级服务器;从架构上而言可以是:CISC(Complex Instruction Set Computing,复杂指令系统计算技术)架构服务器、RISC(Reduced Instruction Set Computing,精简指令系统计算技术)架构服务器或VLIW(Very Long Instruction Wor本文档来自技高网
...

【技术保护点】
一种对网络数据进行关键词匹配的方法,其特征在于,所述方法包括:将通过网络爬虫爬取到的网络数据添加入数据队列;获取用户设置的匹配关键词;通过至少一个匹配线程,将所述数据队列中的网络数据与所述匹配关键词进行匹配。

【技术特征摘要】
1.一种对网络数据进行关键词匹配的方法,其特征在于,所述方法包括:将通过网络爬虫爬取到的网络数据添加入数据队列;获取用户设置的匹配关键词;通过至少一个匹配线程,将所述数据队列中的网络数据与所述匹配关键词进行匹配。2.根据权利要求1所述的方法,其特征在于,所述方法还包括:获取所述数据队列中待匹配的网络数据的数据量;根据所述网络数据的数据量确定目标线程数;通过新建或者关闭线程,将所述至少一个匹配线程的线程数调整为所述目标线程数。3.根据权利要求2所述的方法,其特征在于,所述根据所述网络数据的数据量确定目标线程数,包括:当所述网络数据的数据量不大于第一数据量阈值时,确定所述目标线程数为第一线程数;当所述网络数据的数据量不小于第二数据量阈值时,确定所述目标线程数为第二线程数;当所述网络数据的数据量处于所述第一数据量阈值和所述第二数据量阈值之间时,根据所述网络数据的数据量计算所述目标线程数。4.根据权利要求1所述的方法,其特征在于,所述通过至少一个匹配线程,将所述数据队列中的网络数据与所述匹配关键词进行匹配,包括:将所述匹配关键词加载在内存中的指定位置;向所述至少一个匹配线程发送指示消息,所述指示消息用于指示所述至少一个匹配线程从所述指定位置读取所述匹配关键词。5.根据权利要求1所述的方法,其特征在于,所述方法还包括:在将通过网络爬虫爬取到的网络数据添加入数据队列之前,接收爬虫服务器发送的所述网络数据。6.根据权利要求5所述的方法,其特征在于,所述获取用户设置的匹配关键词,包括:接收所述爬虫服务器发送的所述匹配关键词,所述匹配关键词是用户在所述爬虫服务器中设置的关键词。7.一种对网络数据进行关键词匹配的装置,其特征在于,所述装置包括:添加模块,用于将通过网络爬虫爬取到的网络数据添加入数据队列;第一获取模块,用于获取用户设置的匹配关键词;匹配模块,用于通过至...

【专利技术属性】
技术研发人员:张旭华刘硕邹易兴
申请(专利权)人:北京小米移动软件有限公司
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1