【技术实现步骤摘要】
一种房屋信息采集服务系统
本专利技术涉及数据网络
,尤其涉及一种房屋信息采集服务系统。
技术介绍
网络爬虫是一个自动提取网页的程序,为搜索引擎从万维网上下载网页,是搜索引擎的重要组成。传统爬虫从一个或若干初始网页的URL (Uniform Resoure Locator,统一资源定位器)开始,获得初始网页上的URL,在抓取网页的过程中,不断从当前页面上抽取新的URL放入队列,直到满足系统的一定停止条件。其中,聚焦爬虫的工作流程较为复杂,需要根据一定的网页分析算法过滤与主题无关的链接,保留有用的链接并将其放入等待抓取的URL队列。然后,根据一定的搜索策略从队列中选择下一步要抓取的网页URL,并重复上述过程,直到达到系统的某一条件时停止。另外,所有被爬虫抓取的网页将会被系统存贮,进行一定的分析、过滤,并建立索引,以便之后的查询和检索;对于聚焦爬虫来说,这一过程所得到的分析结果还可能对以后的抓取过程给出反馈和指导。 目前系统所需要的房产信息网络爬虫是一种聚焦爬虫,它只关注有房产信息的页面,相对于通用网络爬虫,聚焦爬虫还需要解决三个主要问题:1、对抓取目标的描述或定义;2、对网页或数据的分析与过滤;3、对URL的搜索策略。
技术实现思路
为了解决
技术介绍
中存在的技术问题,本专利技术提出了一种房屋信息采集服务系统,以解决对抓取目标的描述或定义、对网页或数据的分析与过滤、对URL的搜索策略的问题。 本专利技术提出的一种房屋信息采集服务系统,包括: 网站爬虫组件,用于针对一个网站的抓取工作,针对网站的页面元素与特点进行 ...
【技术保护点】
一种房屋信息采集服务系统,其特征在于,包括:网站爬虫组件,用于针对一个网站的抓取工作,针对网站的页面元素与特点进行专门的解析,完成数据抽取后,映射到对应的数据实体当中,再交给网站爬虫服务模块进行数据的保存;监控服务模块,用于监控网站爬虫服务模块的工作情况,及各个网站爬虫组件的工作情况,及时发现网站爬虫组件是否工作正常,抓取的数据是否正确;管理服务模块,用于整个网站爬虫服务的管理与配置;部署服务模块,用于升级了网站爬虫组件后部署升级网站爬虫组件;调度服务模块,用于调度网站爬虫服务里面的网站爬虫组件如何工作、什么时候工作、什么时候停止。
【技术特征摘要】
1.一种房屋信息采集服务系统,其特征在于,包括: 网站爬虫组件,用于针对一个网站的抓取工作,针对网站的页面元素与特点进行专门的解析,完成数据抽取后,映射到对应的数据实体当中,再交给网站爬虫服务模块进行数据的保存; 监控服务模块,用于监控网站爬虫服务模块的工作情况,及各个网站爬虫组件的工作情况,及时发现网站爬虫组件是否工作正常,抓取的数据是否正确; 管理服务模块,用于整个网站爬虫服务的管理与配置; 部署服务模块,用于升级了网站爬虫组件后部署升级网站爬虫组件; 调度服务模块,用于调度网站爬虫服务里面的网站爬虫组件如何工作、什么时候工作、什么时候停止。2.根据权利要求1所述的房屋信息采集服务系统,其特征在于,所述网站爬...
【专利技术属性】
技术研发人员:贾岩,
申请(专利权)人:安徽华贞信息科技有限公司,
类型:发明
国别省市:安徽;34
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。