信息爬取方法及装置制造方法及图纸

技术编号：17162151 阅读：16 留言：0更新日期：2018-02-01 20:25

本发明专利技术公开了一种信息爬取方法及装置。其中，该方法包括：爬取网站中的至少一种品类信息；当品类信息对应的品类页面被触发时，进入品类信息对应的品类页面；从品类页面中，爬取与品类信息关联的所有特性信息以及与每个特性信息关联的所有词根信息；将每个特性信息及其关联的词根信息存储于预设结果列表中的对应位置上，其中，一种品类信息关联至少一个品类页面，一种品类信息关联至少一个特性信息；一个特性信息关联至少一个词根信息。本发明专利技术解决了现有技术中所采用的爬虫方案将抓取下来的某一特定品类下所有特性和所有词根都分别集中于某一个单元格中造成信息杂乱的技术问题。

Information crawling method and device

全部详细技术资料下载

【技术实现步骤摘要】
信息爬取方法及装置
本专利技术涉及互联网领域，具体而言，涉及一种信息爬取方法及装置。
技术介绍
网络爬虫是一项互联网中十分通用且普遍存在技术。许多公司、个人都会通过网络爬虫来批量地、大规模地爬取万维网上的信息。电商类网站中各品类(即商品类型，以下简称为品类)的特性和词根，对企业或广告商来说似乎都是非常重要的信息。对于企业来说，利用网络爬虫爬取电商类网站中各品类的特性和词根，可以迅速知晓网站上商品的信息分布，为网站改版或者更新信息提供重要的数据依据；而对广告商来说，全面了解品类的特性和词根，也会为定向投放广告带来指导性的意见。然而，现有的爬虫方案抓取下来的信息较为杂乱，某一特定品类下所有特性和所有词根都分别集中于某一个单元格中，不便于后续处理和异常观察，比如很难从一大堆字符串中分辨出某个特性下的所有词根，如表1所示：表1可见，表1的输出结果混乱，某一特定品类的“品牌”特性和“价格”特性全部集中在一个单元格里，这些特性对应的词根也全部集中在一个单元格里，这给后续的分词流程或查找流程造成了极大的困扰和不便。同时，难以确认特性和词根的数量，毕竟对于不同品类来说，特性和词根都是不同的。例如，当我们需要查询某一品类下所有特性和所有词根的数量时，需要通过肉眼去单元格中寻找。另外，当只需要特定特性的词根时，难以从一大堆字符串中去提取。针对上述问题，目前尚未提出有效的解决方案。
技术实现思路
本专利技术实施例提供了一种信息爬取方法及装置，以至少解决现有技术中所采用的爬虫方案将抓取下来的某一特定品类下所有特性和所有词根都分别集中于某一个单元格中造成信息杂乱的技术问题。根据本专利技...

【技术保护点】
一种信息爬取方法，其特征在于，包括：爬取网站中的至少一种品类信息；当所述品类信息对应的品类页面被触发时，获取所述品类信息对应的品类页面；从所述品类页面中，爬取与所述品类信息关联的所有特性信息，以及与每个所述特性信息关联的所有词根信息；将每个所述特性信息及其关联的词根信息存储于预设结果列表中的对应位置上，其中，一种品类信息关联至少一个品类页面，一种品类信息关联至少一个特性信息，一个特性信息关联至少一个词根信息。

【技术特征摘要】
1.一种信息爬取方法，其特征在于，包括：爬取网站中的至少一种品类信息；当所述品类信息对应的品类页面被触发时，获取所述品类信息对应的品类页面；从所述品类页面中，爬取与所述品类信息关联的所有特性信息，以及与每个所述特性信息关联的所有词根信息；将每个所述特性信息及其关联的词根信息存储于预设结果列表中的对应位置上，其中，一种品类信息关联至少一个品类页面，一种品类信息关联至少一个特性信息，一个特性信息关联至少一个词根信息。2.根据权利要求1所述的方法，其特征在于，爬取网站中的至少一种品类信息包括：获取所述品类信息的正则表达式；利用获取的品类信息的正则表达式，在所述网站的前端超文本标记语言HTML中逐次匹配所述品类信息所在位置的格式，其中，若格式匹配成功，则爬取所述品类信息。3.根据权利要求1所述的方法，其特征在于，当所述品类信息对应的品类页面被触发时，获取所述品类信息对应的品类页面包括：当所述品类信息对应的品类页面被触发时，获取所述品类信息的统一资源定位符URL；基于获取的URL获取所述品类信息关联的所述品类页面。4.根据权利要求1所述的方法，其特征在于，从所述品类页面中，爬取与所述品类信息关联的所有特性信息，以及与每个所述特性信息关联的所有词根信息包括：获取与所述品类信息关联的每个特性信息及其关联的词根信息的正则表达式；利用获取的特性信息及其关联的词根信息的正则表达式，在所述品类页面的前端超文本标记语言HTML中逐条匹配特性信息及其关联的词根信息所在位置的格式，得到格式匹配结果；根据所述格式匹配结果，爬取与所述品类信息关联的所有特性信息以及与每个所述特性信息关联的所有词根信息。5.根据权利要求4所述的方法，其特征在于，在获取与所述品类信息关联的每个特性信息及其关联的词根信息的正则表达式之前，所述方法还包括：查看所述品类页面的前端代码，找出每个特性信息及每个词根信息在所述品类页面中的位置及分布规律；基于所述位置及分布规律，生成所述每个特性信息及其关联的词根信息的正则表达式。6.一种信息爬取装置，其特征在于...

【专利技术属性】
技术研发人员：王宇航，
申请(专利权)人：北京国双科技有限公司，
类型：发明
国别省市：北京,11

全部详细技术资料下载我是这个专利的主人