一种房屋信息采集服务系统技术方案

技术编号:10971080 阅读:81 留言:0更新日期:2015-01-30 00:50
本发明专利技术公开了一种房屋信息采集服务系统,包括:网站爬虫组件,用于针对一个网站的抓取工作,针对网站的页面元素与特点进行专门的解析,完成数据抽取后,映射到对应的数据实体当中,再交给网站爬虫服务模块进行数据的保存;监控服务模块,用于监控网站爬虫服务模块的工作情况,及各个网站爬虫组件的工作情况,及时发现网站爬虫组件是否工作正常,抓取的数据是否正确;管理服务模块,用于整个网站爬虫服务的管理与配置;部署服务模块,用于升级了网站爬虫组件后部署升级网站爬虫组件;调度服务模块,用于调度网站爬虫服务里面的网站爬虫组件如何工作、什么时候工作、什么时候停止。以解决对抓取目标的描述或定义、对网页或数据的分析与过滤、对URL的搜索策略的问题。

【技术实现步骤摘要】
一种房屋信息采集服务系统
本专利技术涉及数据网络
,尤其涉及一种房屋信息采集服务系统。
技术介绍
网络爬虫是一个自动提取网页的程序,为搜索引擎从万维网上下载网页,是搜索引擎的重要组成。传统爬虫从一个或若干初始网页的URL (Uniform Resoure Locator,统一资源定位器)开始,获得初始网页上的URL,在抓取网页的过程中,不断从当前页面上抽取新的URL放入队列,直到满足系统的一定停止条件。其中,聚焦爬虫的工作流程较为复杂,需要根据一定的网页分析算法过滤与主题无关的链接,保留有用的链接并将其放入等待抓取的URL队列。然后,根据一定的搜索策略从队列中选择下一步要抓取的网页URL,并重复上述过程,直到达到系统的某一条件时停止。另外,所有被爬虫抓取的网页将会被系统存贮,进行一定的分析、过滤,并建立索引,以便之后的查询和检索;对于聚焦爬虫来说,这一过程所得到的分析结果还可能对以后的抓取过程给出反馈和指导。 目前系统所需要的房产信息网络爬虫是一种聚焦爬虫,它只关注有房产信息的页面,相对于通用网络爬虫,聚焦爬虫还需要解决三个主要问题:1、对抓取目标的描述或定义;2、对网页或数据的分析与过滤;3、对URL的搜索策略。
技术实现思路
为了解决
技术介绍
中存在的技术问题,本专利技术提出了一种房屋信息采集服务系统,以解决对抓取目标的描述或定义、对网页或数据的分析与过滤、对URL的搜索策略的问题。 本专利技术提出的一种房屋信息采集服务系统,包括: 网站爬虫组件,用于针对一个网站的抓取工作,针对网站的页面元素与特点进行专门的解析,完成数据抽取后,映射到对应的数据实体当中,再交给网站爬虫服务模块进行数据的保存; 监控服务模块,用于监控网站爬虫服务模块的工作情况,及各个网站爬虫组件的工作情况,及时发现网站爬虫组件是否工作正常,抓取的数据是否正确; 管理服务模块,用于整个网站爬虫服务的管理与配置; 部署服务模块,用于升级了网站爬虫组件后部署升级网站爬虫组件; 调度服务模块,用于调度网站爬虫服务里面的网站爬虫组件如何工作、什么时候工作、什么时候停止。 优选地,所述网站爬虫组件,还用于在抓取的网站它的页面元素与认证模式等发生变化时,进行相应的升级改造。 优选地,所述管理服务模块用于对服务的启动与停止,网站爬虫组件的生命周期管理。 优选地,所述网站爬虫组件基于多线程。 优选地,所述所述网站爬虫组件具体工作流程包括: 向服务器发送自己设定好请求; 通过http将Web服务器上站点的网页代码提取出来; 根据一定的正则表达式提取出所需要的信息; 广度优先搜索从网页中某个链接出发,访问该链接网页上的所有链接,访问完成后,再通过递归算法实现下一层的访问。 本专利技术中,基于目标网页特征的爬虫所抓取、存储并索引的对象一般为网站或网页;根据种子样本获取方式可分为:预先给定的初始抓取种子样本;预先给定的网页分类目录和与分类目录对应的种子样本;通过用户行为确定的抓取目标样例,分为:用户浏览过程中显示标注的抓取样本;通过用户日志挖掘得到访问模式及相关样本。其中,网页特征可以是网页的内容特征,也可以是网页的链接结构特征等。以解决对抓取目标的描述或定义、对网页或数据的分析与过滤、对URL的搜索策略的问题。 【附图说明】 图1为本专利技术实施例提出的一种房屋信息采集服务系统结构图; 图2为本专利技术中网站爬虫组件的具体工作流程图。 【具体实施方式】 如图1所示,本专利技术实施例提出了一种房屋信息采集服务系统,包括: 网站爬虫组件10,用于针对一个网站的抓取工作,针对网站的页面元素与特点进行专门的解析,完成数据抽取后,映射到对应的数据实体当中,再交给网站爬虫服务模块进行数据的保存。网站爬虫组件是网站爬虫服务当中的最容易变动的部分,如果抓取的网站它的页面元素与认证模式等发生变化,那么对应的网站爬虫组件就要进行相应的升级改造,以保证抓取内容的准确性。 监控服务模块20,用于监控网站爬虫服务模块的工作情况,及各个网站爬虫组件的工作情况,及时发现网站爬虫组件是否工作正常,抓取的数据是否正确,以便运维与开发人员及时进行网站掉组件的升级。 管理服务模块30,用于整个网站爬虫服务的管理与配置,如相关参数的设置,服务的启动与停止,网站爬虫组件的生命周期管理等。 部署服务模块40,用于提升网站爬虫组件的部署方便性,开发人员升级了网站爬虫组件后可以通过部署服务模块40方便地部署升级网站爬虫组件。由于网站爬虫组件都是针对专门的网站而定制的,如网站发生变化,那么对应的网站爬虫组件也必须得发生相应的升级,以保证抓取到准确的数据。 调度服务模块50,用于调度网站爬虫服务里面的网站爬虫组件如何工作,什么时候工作,什么时候停止等。 其中,网站爬虫组件基于多线程,具体工作流程如图2所示,包括:向服务器发送自己设定好请求;通过http将Web服务器上站点的网页代码提取出来;根据一定的正则表达式提取出所需要的信息;广度优先搜索从网页中某个链接出发,访问该链接网页上的所有链接,访问完成后,再通过递归算法实现下一层的访问。 以上所述,仅为本专利技术较佳的【具体实施方式】,但本专利技术的保护范围并不局限于此,任何熟悉本
的技术人员在本专利技术揭露的技术范围内,根据本专利技术的技术方案及其专利技术构思加以等同替换或改变,都应涵盖在本专利技术的保护范围之内。本文档来自技高网
...

【技术保护点】
一种房屋信息采集服务系统,其特征在于,包括:网站爬虫组件,用于针对一个网站的抓取工作,针对网站的页面元素与特点进行专门的解析,完成数据抽取后,映射到对应的数据实体当中,再交给网站爬虫服务模块进行数据的保存;监控服务模块,用于监控网站爬虫服务模块的工作情况,及各个网站爬虫组件的工作情况,及时发现网站爬虫组件是否工作正常,抓取的数据是否正确;管理服务模块,用于整个网站爬虫服务的管理与配置;部署服务模块,用于升级了网站爬虫组件后部署升级网站爬虫组件;调度服务模块,用于调度网站爬虫服务里面的网站爬虫组件如何工作、什么时候工作、什么时候停止。

【技术特征摘要】
1.一种房屋信息采集服务系统,其特征在于,包括: 网站爬虫组件,用于针对一个网站的抓取工作,针对网站的页面元素与特点进行专门的解析,完成数据抽取后,映射到对应的数据实体当中,再交给网站爬虫服务模块进行数据的保存; 监控服务模块,用于监控网站爬虫服务模块的工作情况,及各个网站爬虫组件的工作情况,及时发现网站爬虫组件是否工作正常,抓取的数据是否正确; 管理服务模块,用于整个网站爬虫服务的管理与配置; 部署服务模块,用于升级了网站爬虫组件后部署升级网站爬虫组件; 调度服务模块,用于调度网站爬虫服务里面的网站爬虫组件如何工作、什么时候工作、什么时候停止。2.根据权利要求1所述的房屋信息采集服务系统,其特征在于,所述网站爬...

【专利技术属性】
技术研发人员:贾岩
申请(专利权)人:安徽华贞信息科技有限公司
类型:发明
国别省市:安徽;34

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1