信息爬取方法及装置制造方法及图纸

技术编号:17162151 阅读:16 留言:0更新日期:2018-02-01 20:25
本发明专利技术公开了一种信息爬取方法及装置。其中,该方法包括:爬取网站中的至少一种品类信息;当品类信息对应的品类页面被触发时,进入品类信息对应的品类页面;从品类页面中,爬取与品类信息关联的所有特性信息以及与每个特性信息关联的所有词根信息;将每个特性信息及其关联的词根信息存储于预设结果列表中的对应位置上,其中,一种品类信息关联至少一个品类页面,一种品类信息关联至少一个特性信息;一个特性信息关联至少一个词根信息。本发明专利技术解决了现有技术中所采用的爬虫方案将抓取下来的某一特定品类下所有特性和所有词根都分别集中于某一个单元格中造成信息杂乱的技术问题。

Information crawling method and device

【技术实现步骤摘要】
信息爬取方法及装置
本专利技术涉及互联网领域,具体而言,涉及一种信息爬取方法及装置。
技术介绍
网络爬虫是一项互联网中十分通用且普遍存在技术。许多公司、个人都会通过网络爬虫来批量地、大规模地爬取万维网上的信息。电商类网站中各品类(即商品类型,以下简称为品类)的特性和词根,对企业或广告商来说似乎都是非常重要的信息。对于企业来说,利用网络爬虫爬取电商类网站中各品类的特性和词根,可以迅速知晓网站上商品的信息分布,为网站改版或者更新信息提供重要的数据依据;而对广告商来说,全面了解品类的特性和词根,也会为定向投放广告带来指导性的意见。然而,现有的爬虫方案抓取下来的信息较为杂乱,某一特定品类下所有特性和所有词根都分别集中于某一个单元格中,不便于后续处理和异常观察,比如很难从一大堆字符串中分辨出某个特性下的所有词根,如表1所示:表1可见,表1的输出结果混乱,某一特定品类的“品牌”特性和“价格”特性全部集中在一个单元格里,这些特性对应的词根也全部集中在一个单元格里,这给后续的分词流程或查找流程造成了极大的困扰和不便。同时,难以确认特性和词根的数量,毕竟对于不同品类来说,特性和词根都是不同的。例如,当我们需要查询某一品类下所有特性和所有词根的数量时,需要通过肉眼去单元格中寻找。另外,当只需要特定特性的词根时,难以从一大堆字符串中去提取。针对上述问题,目前尚未提出有效的解决方案。
技术实现思路
本专利技术实施例提供了一种信息爬取方法及装置,以至少解决现有技术中所采用的爬虫方案将抓取下来的某一特定品类下所有特性和所有词根都分别集中于某一个单元格中造成信息杂乱的技术问题。根据本专利技术实施例的一个方面,提供了一种信息爬取方法,包括:爬取网站中的至少一种品类信息;当上述品类信息对应的品类页面被触发时,获取上述品类信息对应的品类页面;从上述品类页面中,爬取与上述品类信息关联的所有特性信息以及与每个上述特性信息关联的所有词根信息;将每个上述特性信息及其关联的词根信息存储于预设结果列表中的对应位置上,其中,一种品类信息关联至少一个品类页面,一种品类信息关联至少一个特性信息;一个特性信息关联至少一个词根信息。进一步地,爬取网站中的至少一种品类信息包括:获取上述品类信息的正则表达式;利用获取的品类信息的正则表达式,在上述网站的前端超文本标记语言HTML中逐次匹配上述品类信息所在位置的格式,其中,若格式匹配成功,则爬取上述品类信息。进一步地,当上述品类信息对应的品类页面被触发时,获取上述品类信息对应的品类页面包括:当上述品类信息对应的品类页面被触发时,获取上述品类信息的统一资源定位符URL;基于获取的URL获取上述品类信息关联的上述品类页面。进一步地,从上述品类页面中,爬取与上述品类信息关联的所有特性信息以及与每个上述特性信息关联的所有词根信息包括:获取与上述品类信息关联的每个特性信息及其关联的词根信息的正则表达式;利用获取的特性信息及其关联的词根信息的正则表达式,在上述品类页面的前端超文本标记语言HTML中逐条匹配特性信息及其关联的词根信息所在位置的格式,得到格式匹配结果;根据上述格式匹配结果,爬取与上述品类信息关联的所有特性信息以及与每个上述特性信息关联的所有词根信息。进一步地,在获取与上述品类信息关联的每个特性信息及其关联的词根信息的正则表达式之前,上述方法还包括:查看上述品类页面的前端代码,找出每个特性信息及每个词根信息在上述品类页面中的位置及分布规律;基于上述位置及分布规律,生成上述每个特性信息及其关联的词根信息的正则表达式。根据本专利技术实施例的另一方面,还提供了一种信息爬取装置,包括:第一爬取单元,用于爬取网站中的至少一种品类信息;获取单元,用于当上述品类信息对应的品类页面被触发时,获取上述品类信息对应的品类页面;第二爬取单元,用于从上述品类页面中,爬取与上述品类信息关联的所有特性信息以及与每个上述特性信息关联的所有词根信息;存储单元,用于将每个上述特性信息及其关联的词根信息存储于预设结果列表中的对应位置上,其中,一种品类信息关联至少一个品类页面,一种品类信息关联至少一个特性信息;一个特性信息关联至少一个词根信息。进一步地,上述第一爬取单元包括:第一获取模块,用于获取上述品类信息的正则表达式;第一匹配模块,用于利用获取的品类信息的正则表达式,在上述网站的前端超文本标记语言HTML中逐次匹配上述品类信息所在位置的格式,其中,若格式匹配成功,则爬取上述品类信息。进一步地,上述获取单元包括:第二获取模块,用于当上述品类信息对应的品类页面被触发时,获取上述品类信息的统一资源定位符URL;第三获取模块,用于基于获取的URL获取上述品类信息关联的上述品类页面。进一步地,上述第二爬取单元包括:第四获取模块,用于获取与上述品类信息关联的每个特性信息及其关联的词根信息的正则表达式;第二匹配模块,用于利用获取的特性信息及其关联的词根信息的正则表达式,在上述品类页面的前端超文本标记语言HTML中逐条匹配特性信息及其关联的词根信息所在位置的格式,得到格式匹配结果;爬取模块,用于根据上述格式匹配结果,爬取与上述品类信息关联的所有特性信息以及与每个上述特性信息关联的所有词根信息。进一步地,上述装置还包括:查找单元,用于在获取与上述品类信息关联的每个特性信息及其关联的词根信息的正则表达式之前,查看上述品类页面的前端代码,找出每个特性信息及每个词根信息在上述品类页面中的位置及分布规律;生成单元,用于基于上述位置及分布规律,生成上述每个特性信息及其关联的词根信息的正则表达式。在本专利技术实施例中,采用逐次匹配品类信息来按照所属关系逐条存储品类、特性与词根信息的方式,通过爬取网站中的至少一种品类信息;当品类信息对应的品类页面被触发时,获取品类信息对应的品类页面;从品类页面中,爬取与品类信息关联的所有特性信息以及与每个特性信息关联的所有词根信息;将每个特性信息及其关联的词根信息存储于预设结果列表中的对应位置上,其中,一种品类信息关联至少一个品类页面,一种品类信息关联至少一个特性信息,一个特性信息关联至少一个词根信息,达到了逐条爬取并存储爬取信息的目的,从而避免了爬取信息存储混乱的技术效果,进而解决现有技术中所采用的爬虫方案将抓取下来的某一特定品类下所有特性和所有词根都分别集中于某一个单元格中造成信息杂乱的技术问题。附图说明此处所说明的附图用来提供对本专利技术的进一步理解,构成本申请的一部分,本专利技术的示意性实施例及其说明用于解释本专利技术,并不构成对本专利技术的不当限定。在附图中:图1是根据本专利技术实施例的一种可选的信息爬取方法的流程图;图2是根据本专利技术实施例的一种可选的信息爬取/存储方案的流程图;图3是根据本专利技术实施例的一种可选的信息爬取装置的示意图。具体实施方式为了使本
的人员更好地理解本专利技术方案,下面将结合本专利技术实施例中的附图,对本专利技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本专利技术一部分的实施例,而不是全部的实施例。基于本专利技术中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本专利技术保护的范围。需要说明的是,本专利技术的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的本文档来自技高网
...
信息爬取方法及装置

【技术保护点】
一种信息爬取方法,其特征在于,包括:爬取网站中的至少一种品类信息;当所述品类信息对应的品类页面被触发时,获取所述品类信息对应的品类页面;从所述品类页面中,爬取与所述品类信息关联的所有特性信息,以及与每个所述特性信息关联的所有词根信息;将每个所述特性信息及其关联的词根信息存储于预设结果列表中的对应位置上,其中,一种品类信息关联至少一个品类页面,一种品类信息关联至少一个特性信息,一个特性信息关联至少一个词根信息。

【技术特征摘要】
1.一种信息爬取方法,其特征在于,包括:爬取网站中的至少一种品类信息;当所述品类信息对应的品类页面被触发时,获取所述品类信息对应的品类页面;从所述品类页面中,爬取与所述品类信息关联的所有特性信息,以及与每个所述特性信息关联的所有词根信息;将每个所述特性信息及其关联的词根信息存储于预设结果列表中的对应位置上,其中,一种品类信息关联至少一个品类页面,一种品类信息关联至少一个特性信息,一个特性信息关联至少一个词根信息。2.根据权利要求1所述的方法,其特征在于,爬取网站中的至少一种品类信息包括:获取所述品类信息的正则表达式;利用获取的品类信息的正则表达式,在所述网站的前端超文本标记语言HTML中逐次匹配所述品类信息所在位置的格式,其中,若格式匹配成功,则爬取所述品类信息。3.根据权利要求1所述的方法,其特征在于,当所述品类信息对应的品类页面被触发时,获取所述品类信息对应的品类页面包括:当所述品类信息对应的品类页面被触发时,获取所述品类信息的统一资源定位符URL;基于获取的URL获取所述品类信息关联的所述品类页面。4.根据权利要求1所述的方法,其特征在于,从所述品类页面中,爬取与所述品类信息关联的所有特性信息,以及与每个所述特性信息关联的所有词根信息包括:获取与所述品类信息关联的每个特性信息及其关联的词根信息的正则表达式;利用获取的特性信息及其关联的词根信息的正则表达式,在所述品类页面的前端超文本标记语言HTML中逐条匹配特性信息及其关联的词根信息所在位置的格式,得到格式匹配结果;根据所述格式匹配结果,爬取与所述品类信息关联的所有特性信息以及与每个所述特性信息关联的所有词根信息。5.根据权利要求4所述的方法,其特征在于,在获取与所述品类信息关联的每个特性信息及其关联的词根信息的正则表达式之前,所述方法还包括:查看所述品类页面的前端代码,找出每个特性信息及每个词根信息在所述品类页面中的位置及分布规律;基于所述位置及分布规律,生成所述每个特性信息及其关联的词根信息的正则表达式。6.一种信息爬取装置,其特征在于...

【专利技术属性】
技术研发人员:王宇航
申请(专利权)人:北京国双科技有限公司
类型:发明
国别省市:北京,11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1