房价预测方法及计算机可读存储介质技术

技术编号:24290180 阅读:13 留言:0更新日期:2020-05-26 20:17
本发明专利技术公开一种房价预测方法及存储介质,通过获取房屋相关数据,所述房屋相关数据至少包括:房屋属性数据、原始房价数据、空间环境数据;对所述房屋相关数据进行特征提取与过滤,得到有效的房屋建成环境特征信息;基于所述特征信息,采用Stacking技术融合多种分类模型,构建Stacking房价预测模型。本发明专利技术引入了地理社会环境信息刻画房价诱因,利用Stacking集成学习技术构建房价预测模型,有力提升了房价的预测精度。

House price prediction method and computer readable storage medium

【技术实现步骤摘要】
房价预测方法及计算机可读存储介质
本专利技术涉及房价预测
,尤其涉及一种房价预测方法及计算机可读存储介质。
技术介绍
房价作为多指标影响因子,受到很多条件的影响,现有的房价预测模型多属于单一算法预测,预测精度并不理想,如人工神经网络,当数据量不够庞大时预测效果得不到保证,而简单的集成模型如随机森林,当噪音较大时会出现过拟合现象。事实上,大量的与房屋相关的属性数据,比如房屋面积、房间数量和建筑年份以及房屋周围的环境信息已经积累起来。如果对这些数据进行适当的分析,这些数据可能是寻找具有高投资价值的房地产的丰富情报来源。而现有的房价预测模型无法综合考虑上述因素,因此,房价预测数据不够准确。
技术实现思路
本专利技术提出了一种房价预测方法及计算机可读存储介质,以提升房价预测模型的预测精度,提升房价预测数据的准确性。为实现上述目的,本专利技术提供一种房价预测方法,包括以下步骤:获取房屋相关数据,所述房屋相关数据至少包括:房屋属性数据、原始房价数据、空间环境数据;对所述房屋相关数据进行特征提取,得到有效的房屋建成环境特征信息;基于所述特征信息,采用Stacking技术融合多种分类模型,构建Stacking房价预测模型。其中,所述对所述房屋相关数据进行特征提取,得到有效的房屋建成环境特征信息的步骤之前还包括:对所述房屋相关数据进行预处理。其中,所述对所述房屋相关数据进行特征提取,得到有效的房屋建成环境特征信息的步骤之后还包括:对所述有效的房屋建成环境特征信息进行清洗、过滤。其中,所述对所述有效的房屋建成环境特征信息进行清洗、过滤的步骤包括:对于所述有效的房屋建成环境特征信息中非数值数据进行数值化处理,舍弃特征缺失量达到预设条件的数据,剔除特征数据中的重复值、异常值和极端值;通过皮尔森相关系数过滤掉所述有效的房屋建成环境特征信息中相关性满足预设强度条件的特征。其中,所述对所述有效的房屋建成环境特征信息进行清洗、过滤的步骤中还包括:综合多种分类模型对所述有效的房屋建成环境特征信息进行特征重要性分析,基于分析结果得到的特征重要度,从所述有效的房屋建成环境特征信息中剔除掉与房价关系达不到预设关联条件的特征。其中,所述综合多种分类模型对所述有效的房屋建成环境特征信息进行特征重要性分析,基于分析结果得到的特征重要度,从所述有效的房屋建成环境特征信息中剔除掉与房价关系达不到预设关联条件的特征的步骤包括:利用多种分类模型分别计算所述有效的房屋建成环境特征信息中各特征的特征重要度,得到不同分类模型的多个特征重要度,其中,特征重要度与房价关系关联;对所述不同分类模型的多个特征重要度取平均值,得到各特征的最终特征重要度;基于各特征的最终特征重要度,按照特征重要性筛选出特征重要性较高的特征,将特征重要性较低的特征舍弃。其中,所述对所述房屋相关数据进行特征提取,得到有效的房屋建成环境特征信息的步骤包括:从所述房屋相关数据中提取房屋属性特征、原始房价特征及空间环境特征;其中:从所述房屋相关数据中提取空间环境特征的步骤包括:对预设的地区进行网格划分,得到若干个网格区域;将空间环境数据投射到每个网格区域中,所述空间环境数据包括:空间地理数据、犯罪数据,所述空间地理数据包括:POIS、铁路网、交通站点、房屋建筑;提取每个网格区域的空间环境特征,所述空间环境特征包括:POIS空间影响力、距铁路网的距离、铁路密度、道路网密度、距交通站点的距离、房屋建筑密度、犯罪强调。其中,所述基于所述特征信息,采用Stacking技术融合多种分类模型,构建Stacking房价预测模型的步骤包括:将所述有效的房屋建成环境特征信息随机分为训练样本数据和测试样本数据;将所述训练样本数据随机拆分成四组,分别输入至预设的四个基础分类器中进行第一层训练,得到训练后的四个基础分类模型,所述四个基础分类模型包括:随机森林回归模型、自适应增强算法回归模型、极度随机树回归模型、梯度提升回归模型;选取四个测试样本数据分别输入至所述四个基础分类模型进行测试,得到四个测试结果;将所述四个测试结果作为训练数据输入至SVM模型进行第二层训练,经过多次轮回,完成所有模型训练,得到Stacking房价预测模型。其中,所述房价预测方法还包括:通过实验对所述Stacking房价预测模型进行评价;基于评价结果对所述Stacking房价预测模型的预测结果进行可视化分析。本专利技术还提出一种存储介质,所述存储介质上存储有计算机程序,所述计算机程序被处理器调用时执行如上所述的房价预测方法的步骤。本专利技术的有益效果是:本专利技术提出一种房价预测方法及计算机可读存储介质,通过获取房屋相关数据,所述房屋相关数据至少包括:房屋属性数据、原始房价数据、空间环境数据;对所述房屋相关数据进行特征提取,得到有效的房屋建成环境特征信息;基于所述特征信息,采用Stacking技术融合多种分类模型,构建Stacking房价预测模型。该Stacking房价预测模型基于Stacking集成学习技术实现,结合犯罪数据、兴趣点(POIs)数据、地理数据进行时空分析,利用Stacking集成学习技术构建房价预测模型,对房价进行时空分析,研究影响房价的因素,极大提升了房价预测模型的预测精度,提升了房价预测数据的准确性。附图说明图1是本专利技术房价预测方法的流程示意图;图2是本专利技术涉及的基于Stacking技术房价时空预测技术框架示意图;图3是本专利技术涉及的房价原始特征数据量示意图;图4是处理后的特征属性数据示意图;图5是部分特征间的相关性矩阵示意图;图6是通过随机森林模型计算出的部分特征重要度示意图;图7是通过ExtraTrees模型计算出的部分特征重要度示意图;图8是通过AdaBoost模型计算出的部分特征重要度示意图;图9是通过XGBoost模型计算出的部分特征重要度示意图;图10是各模型计算出的部分特征重要度的均值示意图;图11是区域划分举例示意图;图12-16是各类型POIs的空间影响力分布示意图;图17是建筑密度空间分布图;图18是路网密度空间分布图;图19是与交通站点的距离空间分布图;图20是与铁路线的距离空间分布图;图21是洛杉矶区域示意图;图22是洛杉矶犯罪强度分布图;图23是基础分类器模型相关性示意图;图24是Stacking房价预测模型示意图;图25是2017年10月房价预测空间分布示意图。本专利技术目的的实现、功能特点及优点将结合实施例,参照附图做进一步说明。具体实施方式应当理解,此处所描述的具体实施例仅仅用以解释本专利技术,并不用于限定本专利技术。本专利技术考虑到:房价作为多指标影响因子,受到很多条件的影响,本文档来自技高网...

【技术保护点】
1.一种房价预测方法,其特征在于,包括以下步骤:/n获取房屋相关数据,所述房屋相关数据至少包括:房屋属性数据、原始房价数据、空间环境数据;/n对所述房屋相关数据进行特征提取,得到有效的房屋建成环境特征信息;/n基于所述特征信息,采用Stacking技术融合多种分类模型,构建Stacking房价预测模型。/n

【技术特征摘要】
1.一种房价预测方法,其特征在于,包括以下步骤:
获取房屋相关数据,所述房屋相关数据至少包括:房屋属性数据、原始房价数据、空间环境数据;
对所述房屋相关数据进行特征提取,得到有效的房屋建成环境特征信息;
基于所述特征信息,采用Stacking技术融合多种分类模型,构建Stacking房价预测模型。


2.根据权利要求1所述的房价预测方法,其特征在于,所述对所述房屋相关数据进行特征提取,得到有效的房屋建成环境特征信息的步骤之前还包括:
对所述房屋相关数据进行预处理。


3.根据权利要求2所述的房价预测方法,其特征在于,所述对所述房屋相关数据进行特征提取,得到有效的房屋建成环境特征信息的步骤之后还包括:
对所述有效的房屋建成环境特征信息进行清洗、过滤。


4.根据权利要求3所述的房价预测方法,其特征在于,所述对所述有效的房屋建成环境特征信息进行清洗、过滤的步骤包括:
对于所述有效的房屋建成环境特征信息中非数值数据进行数值化处理,舍弃特征缺失量达到预设条件的数据,剔除特征数据中的重复值、异常值和极端值;
通过皮尔森相关系数过滤掉所述有效的房屋建成环境特征信息中相关性满足预设强度条件的特征。


5.根据权利要求4所述的房价预测方法,其特征在于,所述对所述有效的房屋建成环境特征信息进行清洗、过滤的步骤中还包括:
综合多种分类模型对所述有效的房屋建成环境特征信息进行特征重要性分析,基于分析结果得到的特征重要度,从所述有效的房屋建成环境特征信息中剔除掉与房价关系达不到预设关联条件的特征。


6.根据权利要求5所述的房价预测方法,其特征在于,所述综合多种分类模型对所述有效的房屋建成环境特征信息进行特征重要性分析,基于分析结果得到的特征重要度,从所述有效的房屋建成环境特征信息中剔除掉与房价关系达不到预设关联条件的特征的步骤包括:
利用多种分类模型分别计算所述有效的房屋建成环境特征信息中各特征的特征重要度,得到不同分类模型的多个特征重要度,其中,特征重要度与房价关系关联;
对所述不同分类模型的多个特征重要度取平均值,得到各特征的最...

【专利技术属性】
技术研发人员:段炼覃子涵
申请(专利权)人:广西鑫朗通信技术有限公司
类型:发明
国别省市:广西;45

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1