一种基于梯度提升回归的房价区间预测方法及系统技术方案

技术编号:27657776 阅读:35 留言:0更新日期:2021-03-12 14:22
本发明专利技术提供了一种基于梯度提升回归的房价区间预测方法及系统,获取二手房产交易数据,获得数据特征;分析数据特征,统计并提取合理数据,利用合理数据获得数据特征的分布和/或相关性;对得到的数据特征以及分析结果进行特征处理,得到新数据集;建立梯度提升回归模型,利用得到的所述新数据集训练模型,得到预测模型;利用得到的预测模型,输入待预测数据进行预测,得到房价区间。本发明专利技术针对房价受宏观政策影响大、不确定性大的特点,可以帮助消费者更加理性的出资,为有住房刚性需求的人们提供更加可靠的价格参照,也为政府宏观调控房价和管理房地产行业提供数据依据和决策辅助,具有计算代价小、区间宽度小和区间可靠性强等优点。

【技术实现步骤摘要】
一种基于梯度提升回归的房价区间预测方法及系统
本专利技术涉及数据处理
,尤其涉及一种基于梯度提升回归的房价区间预测方法。
技术介绍
在过去的若干年里,房地产行业是我国经济增长的重要动力来源之一,伴随着房地产行业的迅速发展,近几年来购房热度逐渐飙升。住房关系人民的生活之本,而房价是房地产市场健康稳定发展的重要指标,同时也是整个社会所重点关注的热门话题,关乎整个国民经济和人民生活的幸福感。目前,在房价预测与分析相关的问题的研究方法主要有以下方法:(1)基于传统逻辑回归方法预测,选择相关系数较高的特征,简单进行缺失值和热独码处理,利用最小二乘法,对数据进行拟合,得到预测的房价值;(2)基于集成学习的方法,使用多个模型得到多个预测结果,在其中选取可能性最大的一种,最终得到预测的房价值。相比预测房价值,预测房价的有效可靠的区间,包含了房价受宏观政策影响大、不确定性大的特点,不仅可以帮助房地产开发商进行投资决策,帮助消费者更加理性的出资,为有住房刚性需求的人们提供更加可靠的价格参照;也可以帮助政府相关部门更好地对房地产市场进行精确的调控,保持房地产市场的平稳有序,控制炒房等现象的发生。现有的房价区间预测方法有分位数回归森林、模糊粒化混合神经网络等,但是这些方法均具有计算代价高,模型结构复杂等缺点。目前没有发现同本专利技术类似技术的说明或报道,也尚未收集到国内外类似的资料。
技术实现思路
本专利技术针对现有技术中存在的上述不足,提供了一种基于梯度提升回归的房价区间预测方法及系统。<br>本专利技术是通过以下技术方案实现的。根据本专利技术的一个方面,提供了一种基于梯度提升回归的房价区间预测方法,包括:S1,获取二手房产交易数据,所述二手房产交易数据包括二手房产交易数据特征,所述特征包括数据型特征和类别型特征;S2,分析所述交易数据特征,统计并提取合理数据,利用合理数据获得数据特征的分布和/或相关性;S3,对S1中得到的特征以及S2中所得到的分析结果进行特征处理,得到新数据集;S4,建立梯度提升回归模型,利用得到的所述新数据集训练模型,得到预测模型;所述预测模型的上分位数损失函数对应输出区间上限,下分位数损失函数对应输出区间下限;S5,利用得到的预测模型,输入待预测数据进行预测,得到房价区间。优选地,所述S1中,利用网络爬虫技术获取二手房产交易数据,其中,所述二手房产交易数据包括如下任意一项或多项数据特征:地区、街道、小区、建筑面积、建筑年代、户型、有无电梯、楼层、梯户比例、装修情况、挂牌时间、成交时间、房屋单价以及成交价格,其中,所述建筑面积、建筑年代、楼层、梯户比例、挂牌时间、成交时间、房屋单价以及成交价格属于数据型特征;地区、街道、小区、户型、有无电梯以及装修情况属于类别型特征。优选地,所述S2中,针对所述S1得到二手房产交易数据,分析二手房产交易数据特征,包括:S21,统计二手房产交易数据中的重复数据和缺失数据,得到合理数据;S22,对于合理数据中的单特征分析,通过条形图或直方图进行分析,得到单个特征的分布情况;对于合理数据中的多特征分析,通过散点图、条形图或直方图进行分析,得到各特征之间的相关性。优选地,所述S3中,针对所述S1中得到的二手房产交易数据特征和所述S2中得到的分析结果,对数据特征进行如下任意一项或任意多项的处理:-对所述缺失数据补全,包括:使用各数据型特征的平均值填充其缺失值;提出各类别型特征缺失值所在的一行,补充其缺失值;-针对已有特征派生出新的特征:合并类别型特征中的地区特征,计算该套房屋所在的经纬度,派生出新的特征;-对已有类别型特征进行独热编码:-对所有特征进行归一化;-求得各特征间的相关系数,将相关系数绝对值低于设定值的特征删除。优选地,所述S4,包括:S41,设S3中得到的新数据集为:D={(x1,y),(x2,y),...,(xm,y)},xi∈Rd;其中,xi代表第i个特征,d代表特征个数,y代表训练数据的预测结果;S42,建立以决策树为基模型的梯度提升树,将每颗决策树作为预测的基模型,利用损失函数的负梯度在当前模型的值作为梯度提升树算法中残差的近似值,拟合一棵回归树模型,利用新数据集对回归树模型进行训练,提高模型的健壮型,得到预测模型;其中,每棵决策树的损失函数为分位数回归损失函数,减少异常点对损失函数的影响。优选地,所述S5,包括:将待预测数据输入得到的预测模型,得到上分位数值和下分位数值,从而得到预测的房价区间。根据本专利技术的另一个方面,提供了一种基于梯度提升回归的房价区间预测系统,包括:数据获取模块,获取二手房产交易数据,所述二手房产交易数据包括二手房产交易数据特征,所述特征包括数据型特征和类别型特征;数据分析模块,分析所述交易数据特征,统计并提取缺失数据;数据处理模块,对数据获取模块中得到的特征以及数据预处理模块中得到的缺失数据进行特征处理,得到新数据集;房价区间预测模块,建立梯度提升回归模型,利用得到的所述新数据集训练模型,得到预测模型;所述预测模型的上分位数损失函数对应输出区间上限,下分位数损失函数对应输出区间下限;利用得到的预测模型,输入待预测数据进行预测,得到房价区间。优选地,所述数据获取模块利用网络爬虫技术获取二手房产交易数据,其中,所述二手房产交易数据包括如下任意一项或多项数据特征:地区、街道、小区、建筑面积、建筑年代、户型、有无电梯、楼层、梯户比例、装修情况、挂牌时间、成交时间、房屋单价以及成交价格,其中,所述建筑面积、建筑年代、楼层、梯户比例、挂牌时间、成交时间、房屋单价以及成交价格属于数据型特征;地区、街道、小区、户型、有无电梯以及装修情况属于类别型特征。优选地,所述数据分析模块统计二手房产交易数据中的重复数据和缺失数据,得到合理数据;对于合理数据中的单特征分析,通过条形图或直方图进行分析,得到单个特征的分布情况;对于合理数据中的多特征分析,通过散点图、条形图或直方图进行分析,得到各特征之间的相关性。优选地,所述数据处理模块对数据特征进行如下任意一项或任意多项处理:-对所述缺失数据补全,包括:使用各数据型特征的平均值填充其缺失值;提出各类别型特征缺失值所在的一行,补充其缺失值;-针对已有特征派生出新的特征:合并类别型特征中的地区特征,计算该套房屋所在的经纬度,派生出新的特征;-对已有类别型特征进行独热编码:-对所有特征进行归一化;-求得各特征间的相关系数,将相关系数绝对值低于0.1的特征删除。优选地,所述房价区间预测模块,以决策树为基模型的梯度提升回归模型,将每颗决策树作为预测的基模型,利用损失函数的负梯度在当前模型的值作为梯度提升树算法中残差的近似值,拟合一棵回归树模型,即为梯度提升回归模型,利用所述数据处理模块中得到的新数据集对梯度提升回本文档来自技高网...

【技术保护点】
1.一种基于梯度提升回归的房价区间预测方法,其特征在于,包括:/nS1,获取二手房产交易数据,所述二手房产交易数据包括二手房产交易数据特征,所述特征包括数据型特征和类别型特征;/nS2,分析所述交易数据特征,统计并提取合理数据,利用合理数据获得数据特征的分布和/或相关性;/nS3,对S1中得到的特征以及S2中所得到的分析结果进行特征处理,得到新数据集;/nS4,建立梯度提升回归模型,利用得到的所述新数据集训练模型,得到预测模型;所述预测模型的上分位数损失函数对应输出区间上限,下分位数损失函数对应输出区间下限;/nS5,利用得到的预测模型,输入待预测数据进行预测,得到房价区间。/n

【技术特征摘要】
1.一种基于梯度提升回归的房价区间预测方法,其特征在于,包括:
S1,获取二手房产交易数据,所述二手房产交易数据包括二手房产交易数据特征,所述特征包括数据型特征和类别型特征;
S2,分析所述交易数据特征,统计并提取合理数据,利用合理数据获得数据特征的分布和/或相关性;
S3,对S1中得到的特征以及S2中所得到的分析结果进行特征处理,得到新数据集;
S4,建立梯度提升回归模型,利用得到的所述新数据集训练模型,得到预测模型;所述预测模型的上分位数损失函数对应输出区间上限,下分位数损失函数对应输出区间下限;
S5,利用得到的预测模型,输入待预测数据进行预测,得到房价区间。


2.根据权利要求1所述的基于梯度提升回归的房价区间预测方法,其特征在于,所述S1中,利用网络爬虫技术获取二手房产交易数据,其中,所述二手房产交易数据包括如下任意一项或多项数据特征:地区、街道、小区、建筑面积、建筑年代、户型、有无电梯、楼层、梯户比例、装修情况、挂牌时间、成交时间、房屋单价以及成交价格,其中,所述建筑面积、建筑年代、楼层、梯户比例、挂牌时间、成交时间、房屋单价以及成交价格属于数据型特征;地区、街道、小区、户型、有无电梯以及装修情况属于类别型特征。


3.根据权利要求1所述的基于梯度提升回归的房价区间预测方法,其特征在于,所述S2中,针对所述S1得到二手房产交易数据,分析二手房产交易数据特征,包括:
S21,统计二手房产交易数据中的重复数据和缺失数据,得到合理数据;
S22,对于合理数据中的单特征分析,通过条形图或直方图进行分析,得到单个特征的分布情况;对于合理数据中的多特征分析,通过散点图、条形图或直方图进行分析,得到各特征之间的相关性。


4.根据权利要求1所述的基于梯度提升回归的房价区间预测方法,其特征在于,所述S3中,针对所述S1中得到的二手房产交易数据特征和所述S2中得到的分析结果,对数据特征进行如下任意一项或任意多项的处理:
-对所述缺失数据补全,包括:
使用各数据型特征的平均值填充其缺失值;
提出各类别型特征缺失值所在的一行,补充其缺失值;
-针对已有特征派生出新的特征:
合并类别型特征中的地区特征,计算该套房屋所在的经纬度,派生出新的特征;
-对已有类别型特征进行独热编码:
-对所有特征进行归一化;
-求得各特征间的相关系数,将相关系数绝对值低于设定值的特征删除。


5.根据权利要求1所述的基于梯度提升回归的房价区间预测方法,其特征在于,所述S4,包括:
S41,设S3中得到的新数据集为:D={(x1,y),(x2,y),...,(xm,y)},xi∈Rd;其中,xi代表第i个特征,d代表特征个数,y代表训练数据的预测结果;
S42,建立以决策树为基模型的梯度提升树,将每颗决策树作为预测的基模型,利用损失函数的负梯度在当前模型的值作为梯度提升树算法中残差的近似值,拟合一棵回归树模型,即为梯度提升回归模型,利用新数据集对梯度提升回归模型进行训练,提高模型的健壮型,得到预测模型;
其中,每棵决策树的损失函数为分位数回归损失函数,减少异常点对损失函数的影响。


6.根据权利要求1所述的基于梯度提升回归的房价区间预测方法,其特征在于,所述S5,包括:

【专利技术属性】
技术研发人员:段建钢黄志为张健全
申请(专利权)人:上海旻浦科技有限公司
类型:发明
国别省市:上海;31

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1