基于网页数据抓取的垂直智能爬虫数据收集方法技术

技术编号：11022889 阅读：102 留言：0更新日期：2015-02-11 12:00

本发明专利技术涉及一种基于网页数据抓取的垂直智能爬虫数据收集方法，其特点是：首先，通过启停入口配置模块，将爬虫初始入口地址配置到启动模块中。之后，爬虫控制系统按照设定的抓取规则和抓取流程，进行深度优先算法开始遍历抓取网页。最终，爬虫通过规则配置系统的规则序列对，对页面数据进行解析提取，对提取出的二维结构数据进行存储。由此，能够满足爬虫通用性要求，在具体业务逻辑上增加解析规则配置，抓取网页深度，抓取线程，数据库配置或索引配置，就可以开启智能化抓取采集信息。能够有效构成智能垂直爬虫框架，同时，能够实现数据自动归档，分类入库，可采用分布式键值对数据库存储的方式。

全部详细技术资料下载

【技术实现步骤摘要】
【专利摘要】本专利技术涉及一种，其特点是：首先，通过启停入口配置模块，将爬虫初始入口地址配置到启动模块中。之后，爬虫控制系统按照设定的抓取规则和抓取流程，进行深度优先算法开始遍历抓取网页。最终，爬虫通过规则配置系统的规则序列对，对页面数据进行解析提取，对提取出的二维结构数据进行存储。由此，能够满足爬虫通用性要求，在具体业务逻辑上增加解析规则配置，抓取网页深度，抓取线程，数据库配置或索引配置，就可以开启智能化抓取采集信息。能够有效构成智能垂直爬虫框架，同时，能够实现数据自动归档，分类入库，可采用分布式键值对数据库存储的方式。【专利说明】
本专利技术涉及一种数据收集方法，尤其涉及一种。
技术介绍
爬虫，又称为蜘蛛，它不是昆虫的名称，而是人们为了形象描述计算机程序在网络不断通过定制的入口网址去提取网页的链接，并根据这些链接再度抓取提取更深的其它未知的链接，以此下去,将这样的程序抓取形为形容成类似爬虫似的动作,称之为爬虫,爬虫是一种自动获取网页内容的程序，是搜索引擎的重要组成部分。关于垂直爬虫，垂直搜索的核心技术实际上就是智能爬虫的技术，是如何将定向或者非定向的网页抓取下来并进行分析后得到格式化数据的技术。主要用来精确的提取规则的二维表数据，可以方便建立索引查询，数据分类，后期数据处理。但是，以往传统垂直抓取程序，需要将解析，以及抓取逻辑强耦合到整个模块中，不便于后期的维护和功能扩展，维护成本高，且效率较氏，无框架伸缩性。
技术实现思路
本专利技术的目的就是为了解决现有技术中存在的上述问题，提供一种。本专利技术的目的通过...

【技术保护点】
基于网页数据抓取的垂直智能爬虫数据收集方法，其特征在于包括以下步骤：步骤①，通过启停入口配置模块，将爬虫初始入口地址配置到启动模块中；步骤②，爬虫控制系统按照设定的抓取规则和抓取流程，进行深度优先算法开始遍历抓取网页；步骤③，爬虫通过规则配置系统的规则序列对，对页面数据进行解析提取，对提取出的二维结构数据进行存储。

【技术特征摘要】

【专利技术属性】
技术研发人员：王专，张海龙，马和平，郭凤林，王晓钟，庞绍进，王祚德，靳彩娟，
申请(专利权)人：同程网络科技股份有限公司，
类型：发明
国别省市：江苏;32

全部详细技术资料下载我是这个专利的主人