获取房价的方法、装置、计算机设备和存储介质制造方法及图纸

技术编号:20389787 阅读:17 留言:0更新日期:2019-02-20 02:49
本发明专利技术提出的获取房价的方法、装置、计算机设备和存储介质,其中方法包括:获取第一房产网站的第一CSS样式;根据所述第一CSS样式配置第一爬取规则;根据所述第一爬取规则爬取所述第一房产网站的页面数据,并通过所述页面数据获得房价数据,本方法通过获取房产网站的CSS样式来配置爬取规则,从而实现爬取需要的房价数据,操作简单,适用面宽,且这样爬取的效率高,能够实时将得到房价数据存储到数据库中,以便统一清洗处理。

【技术实现步骤摘要】
获取房价的方法、装置、计算机设备和存储介质
本专利技术涉及到数据处理的
,特别是涉及到一种获取房价的方法、装置、计算机设备和存储介质。
技术介绍
房价数据是一种与地理位置密切相关的数据,且与不同的网站休戚相关,如目前主流的房产网站房天下、安居客等网站上的房价数据庞大,而做房价评估参考时需要获得这些房价数据,市面上需要获取房价数据时,一般都是通过开发一些Python、Java程序,进行互联网数据爬取,从而得到房价数据,但是开发工作量大,这样的程序一般只适用于部分程序员,使用面窄且单机爬取效率低,也不能实时进行收集统一处理。
技术实现思路
本专利技术的主要目的为提供一种操作简单且效率高的获取房价的方法、装置、计算机设备和存储介质。本专利技术提出一种获取房价的方法,包括:获取第一房产网站的第一CSS样式;根据所述第一CSS样式配置第一爬取规则;根据所述第一爬取规则爬取所述第一房产网站的页面数据,并通过所述页面数据获得房价数据。进一步地,所述根据所述第一爬取规则爬取所述第一房产网站的页面数据的步骤之后,包括:判断根据所述第一爬取规则是否爬取到第二房产网站的页面数据;若否,则获取第二房产网站的第二CSS样式,并根据所述第二CSS样式配置第二爬取规则,根据所述第二爬取规则爬取所述第二房产网站的页面数据。进一步地,所述根据所述第一CSS样式配置第一爬取规则的步骤之后,包括:向爬虫服务器发送所述第一爬取规则,所述第一爬取规则被所述爬虫服务器存储于爬虫元数据表。进一步地,所述根据所述第一爬取规则爬取所述房产网站的页面数据的步骤,包括:接收所述爬虫服务器根据所述第一爬取规则生成的爬取指令;根据所述爬取指令爬取所述房产网站的页面数据。进一步地,所述接收所述爬虫服务器根据所述第一爬取规则生成的爬取指令的步骤,包括:接收所述爬虫服务器按照指定频率根据所述第一爬取规则生成的所述爬取指令。进一步地,所述通过所述页面数据获得房价数据的步骤,包括:在所述页面数据获取满足预设条件的需求数据,所述预设条件为用户根据使用需求而预设的参数条件;将所述需求数据进行清洗处理得到所述房价数据。进一步地,所述将所述需求数据进行清洗处理得到所述房价数据的步骤之后,包括:根据所述房价数据按照预设规则计算城市均价以及城市内的小区房产均价,其中所述城市均价为每个城市的房产平均价格,所述小区房产均价为所述城市的小区内房产平均价格。本专利技术还提供一种获取房价的装置,包括:获取模块,用于获取第一房产网站的第一CSS样式;配置模块,用于根据所述第一CSS样式配置第一爬取规则;爬取模块,用于根据所述第一爬取规则爬取所述第一房产网站的页面数据,并通过所述页面数据获得房价数据。本专利技术还提供一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,所述处理器执行所述计算机程序时实现上述方法的步骤。本专利技术还提供了一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现上述方法的步骤。本专利技术的有益效果为:通过获取房产网站的CSS样式来配置爬取规则,从而实现爬取需要的房价数据,操作简单,适用面宽,且这样爬取的效率高,能够实时将得到房价数据存储到数据库中,以便统一清洗处理。附图说明图1为本专利技术一实施例中获取房价的方法的步骤示意图;图2为本专利技术一实施例中获取房价的装置的结构示意框图;图3为本专利技术另一实施例中获取房价的装置的结构示意框图;图4为本专利技术一实施例的计算机设备的结构示意框图。本专利技术目的的实现、功能特点及优点将结合实施例,参照附图做进一步说明。具体实施方式应当理解,此处所描述的具体实施例仅仅用以解释本专利技术,并不用于限定本专利技术。参照图1,本实施例中的获取房价的方法,包括:步骤S1:获取第一房产网站的第一CSS样式;步骤S2:根据所述第一CSS样式配置第一爬取规则;步骤S3:根据所述第一爬取规则爬取所述第一房产网站的页面数据,并通过所述页面数据获得房价数据。在步骤S1中,客户端可获得第一房产网站的第一CSS样式,已知的是,现有的房产网站可以包括多个不同的房产网站,如现有房天下网站或安居客网站。CSS(CascadingStyleSheets)又称层叠样式表,能够对网页中元素位置的排版进行像素级精确控制,几乎支持所有的字体字号样式,拥有对网页对象和模型样式编辑的能力,本实施例中的CSS样式即为网站的模型样式,可以理解的是,每个网站的同类型页面都采用相同的CSS样式,而不同房产网站之间可能采用相同的CSS样式,或不同的CSS样式,故而可以先获取房产网站中其中一个房产网站的CSS样式,为了便于区别,该房产网站名为第一房产网站,对应的CSS样式为第一CSS样式。在配置第一爬取规则之前先查看第一房产网站的第一CSS样式,从而获得第一CSS样式,具体地,可以利用谷歌、火狐浏览器自带的开发工具查看房产网站的CSS样式。客户端爬取网站的页面数据需按一定的规则,才可进行爬取。具体的说,网络爬虫基本都是基于页面结构实现数据获取的,先通过获取网页文档,将网页文档解析成DOM树的规则,文档中的所有元素都用树的节点来表示,根据DOM树构建爬取规则,实现数据爬取,由于网页信息源的异构性,为了不损失抽取精度,需要针对每个网站都构造相应的爬取规则,该规则可自定义配置,本实施例中,客户端根据第一CSS样式来配置第一爬取规则,如根据上述第一房产网站的第一CSS样式,设定针对采用上述第一CSS样式的第一房产网站页面的第一爬取规则,进而根据第一爬取规则爬取页面数据,其中页面数据包括房产名称、房产地址、房产价格等数据,最后可从上述页面数据中获得需要的房价数据。在一个实施例中,上述根据所述第一爬取规则爬取所述第一房产网站的页面数据的步骤之后,包括:步骤S4:判断根据所述第一爬取规则是否爬取到第二房产网站的页面数据;步骤S5:若否,则获取第二房产网站的第二CSS样式,并根据所述第二CSS样式配置第二爬取规则,根据所述第二爬取规则爬取所述第二房产网站的页面数据。本实施例中,由于不同的网站的CSS样式基本不相同,同一个网站的不同类型的页面的CSS样式也有可能不同,故而当通过第一CSS样式配置第一爬取规则,并爬取到需要数据时,通过该第一爬取规则并不一定能爬取其他房产网站的数据,所以根据第一爬取规则爬取第一房产网站的页面数据之后,根据第一爬取规则去尝试爬取第二房产网站的页面数据,从而判断根据第一爬取规则是否爬取到第二房产网站的页面数据,如果爬取不到数据,则可以根据实际情况,查看没有爬取到的第二房产网站的第二CSS样式,从而根据该第二CSS样式配置第二爬取规则,然后根据第二爬取规则再次爬取第二房产网站,得到第二房产网站的页面数据,如此重复上述步骤多次,可分别得到第三爬取规则、第四爬取规则等,然后分别根据这些爬取规则去爬取房产网站,即可得到大量的房价数据。在一个实施例中,上述步骤S2,包括:步骤S20:向爬虫服务器发送所述第一爬取规则,所述第一爬取规则被所述爬虫服务器存储于爬虫元数据表。本步骤中,客户端可通过可视化配置第一爬取规则,并在配置完成第一爬取规则之后,将该第一爬取规则发送至爬虫服务器,爬虫服务器将该第一爬取规则存储于爬虫元数据表,爬虫元数据表可用于存储数据、调度数据或按照存储数据的内容执行相关的命令本文档来自技高网...

【技术保护点】
1.一种获取房价的方法,其特征在于,包括:获取第一房产网站的第一CSS样式;根据所述第一CSS样式配置第一爬取规则;根据所述第一爬取规则爬取所述第一房产网站的页面数据,并通过所述页面数据获得房价数据。

【技术特征摘要】
1.一种获取房价的方法,其特征在于,包括:获取第一房产网站的第一CSS样式;根据所述第一CSS样式配置第一爬取规则;根据所述第一爬取规则爬取所述第一房产网站的页面数据,并通过所述页面数据获得房价数据。2.根据权利要求1所述的获取房价的方法,其特征在于,所述根据所述第一爬取规则爬取所述第一房产网站的页面数据的步骤之后,包括:判断根据所述第一爬取规则是否爬取到第二房产网站的页面数据;若否,则获取第二房产网站的第二CSS样式,并根据所述第二CSS样式配置第二爬取规则,根据所述第二爬取规则爬取所述第二房产网站的页面数据。3.根据权利要求1所述的获取房价的方法,其特征在于,所述根据所述第一CSS样式配置第一爬取规则的步骤之后,包括:向爬虫服务器发送所述第一爬取规则,所述第一爬取规则被所述爬虫服务器存储于爬虫元数据表。4.根据权利要求3所述的获取房价的方法,其特征在于,所述根据所述第一爬取规则爬取所述第一房产网站的页面数据的步骤,包括:接收所述爬虫服务器根据所述第一爬取规则生成的爬取指令;根据所述爬取指令爬取所述第一房产网站的页面数据。5.根据权利要求4所述的获取房价的方法,其特征在于,所述接收所述爬虫服务器根据所述第一爬取规则生成的爬取指令的步骤,包括:接收所述爬虫服务器按照指...

【专利技术属性】
技术研发人员:王先锋
申请(专利权)人:中国平安人寿保险股份有限公司
类型:发明
国别省市:广东,44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1