网页信息的获取系统技术方案

技术编号：8453103 阅读：317 留言：0更新日期：2013-03-21 17:37

本发明专利技术公开了一种网页信息的获取系统，其包括网页信息的获取装置及站点服务器，其中，所述网页信息的获取装置包括：网页抓取器，适于从站点服务器处抓取网页；页面信息解析器，适于根据预先设定的页面抽取规则，从所述网页的指定位置抽取指定页面信息；动作处理器，适于将所述指定页面信息进行结构化存储。根据本发明专利技术提供的网页信息的获取系统，在从站点服务器处抓取到网页之后，并不是直接存储整个网页的信息，而是根据页面抽取规则从网页的指定位置抽取指定页面信息，将该指定页面信息进行结构化存储。其中页面抽取规则可根据用户的需求而定制，通过对网页的信息做解析，满足了定制化抽取网页信息的需求。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及计算机网络
，具体涉及一种网页信息的获取系统。
技术介绍
网络爬虫(又被称为网页蜘蛛、网络机器人，在一些社区中，更经常的被称为网页追逐者)是一种自动获取网页内容的程序或脚本，它是搜索引擎的重要组成部分，搜索引擎的优化在很大程度上就是针对网络爬虫而做出的优化。网络爬虫一般分为传统爬虫和聚焦爬虫。传统爬虫从一个或若干初始网页的URL(Uniform/Universal Resource Locator,统一资源定位符)开始，获得初始网页的URL ;在抓取网页的过程中，不断从当前页面上抽取新的网页的URL放入队列，直到满足系统的一定停止条件。聚焦爬虫的工作流程较为复杂，需要根据一定的网页分析算法过滤与主题无关的链接，保留有用的链接并将其放入等待抓取的URL队列；然后，根据一定的搜索策略从队列中选择下一步要抓取的网页的URL，重复上述过程，直到达到系统的某一条件时停止。另外，所有被爬虫抓取的网页将会被系统存储，进行一定的分析和过滤，并建立索引，以便之后的查询和检索。上述两种网络爬虫都是获取整个网页的信息，然后直接存储。这类爬虫不会对网页的信息做解析，无法满足定制化抽取网页信息的需求。
技术实现思路
鉴于上述问题，提出了本专利技术以便提供一种克服上述问题或者至少部分地解决上述问题的网页信息的获取系统。根据本专利技术，提供了一种网页信息的获取系统，其包括网页信息的获取装置和站点服务器，其中，所述网页信息的获取装置包括网页抓取器,适于从站点服务器处抓取网页；页面信息解析器，适于根据预先设定的页面抽取规则，从所述网页的指定位置抽取指定页面信息；动作处理器...

【技术保护点】
一种网页信息的获取系统，包括：网页信息的获取装置及站点服务器，其中，所述网页信息的获取装置包括：网页抓取器，适于从站点服务器处抓取网页；页面信息解析器，适于根据预先设定的页面抽取规则，从所述网页的指定位置抽取指定页面信息；动作处理器，适于将所述指定页面信息进行结构化存储。

【技术特征摘要】

【专利技术属性】
技术研发人员：徐锐波，路轶，
申请(专利权)人：北京奇虎科技有限公司，奇智软件北京有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人