一种基于xgboost的房源成交预估方法及预估平台技术

技术编号:18399898 阅读:25 留言:0更新日期:2018-07-08 20:00
本发明专利技术实施例提供一种基于xgboost的房源成交预估方法及预估平台。其中,所述方法包括:获取房源数据,根据所述房源数据得到房源的特征数据,一套房源同一日的所述特征数据构成一个样本;对每个所述样本添加标签,所述标签为预设时间内的房源成交概率;对具有所述标签的样本集利用xgboost进行监督学习,得到预测模型;将预测房源的所述特征数据输入到所述预测模型,根据所述预测模型的预测值得到所述预测房源在所述预设时间内的房源成交概率。本发明专利技术实施例通过将xgboost运用到实际的房屋在售成交预估场景中,能够提供可靠的个体及整体房屋的成交前景;成交预估可实现无人值守自动化运行,减少了人力资源浪费。

【技术实现步骤摘要】
一种基于xgboost的房源成交预估方法及预估平台
本专利技术实施例涉及机器学习
,具体为一种基于xgboost的房源成交预估方法及预估平台。
技术介绍
房屋在挂牌销售期间,获取热点房源信息,有利于经纪人进行更高效的房源跟踪和销售,促进房源交易的成功。热点房源为成交概率较大、受关注度较高的房源。对于热点房源的判断,一种方式是经纪人根据自己对房源和市场形式等的了解来进行判断,从而进行更高效的房源跟踪和销售;这种纯线下的人工作业不仅效率低,而且没有全局概念,容易受主观因素影响,判断误差较大。另一种方式是简单的通过线上的关注、浏览量等来自动评判房屋的受欢迎或者销售难易程度,但是这种方法所依赖的数据属于具有较大起伏变化的格式化数据,判断误差较大。目前还没有很成熟的对细粒度的房屋销售前景进行预测与评级的系统,即无法有效地对每套房源进行短期交易前景的预测,因此亟需一种能对每套房屋在未来一段时间的成交概率进行较为准确预估的方法和平台。
技术实现思路
为解决现有技术中无法实现可靠的房屋成交概率智能化预估的问题,本专利技术实施例提供一种基于xgboost的房源成交预估方法及预估平台。第一方面,本专利技术实施例提供一种基于xgboost的房源成交预估方法,所述方法包括:获取房源数据,根据所述房源数据得到房源的特征数据,一套房源同一日的所述特征数据构成一个样本;对每个所述样本添加标签,所述标签为预设时间内的房源成交概率;对具有所述标签的样本集利用xgboost进行监督学习,得到预测模型;将预测房源的所述特征数据输入到所述预测模型,根据所述预测模型的预测值得到所述预测房源在所述预设时间内的房源成交概率。第二方面,本专利技术实施例提供一种基于xgboost的房源成交预估平台,所述预估平台包括:样本生成模块,具体用于获取房源数据,根据所述房源数据得到房源的特征数据,一套房源同一日的所述特征数据构成一个样本;标签添加模块,具体用于对每个所述样本添加标签,所述标签为预设时间内的房源成交概率;机器学习模块,具体用于对具有所述标签的样本集利用xgboost进行监督学习,得到预测模型;预测模块,具体用于将预测房源的所述特征数据输入到所述预测模型,根据所述预测模型的预测值得到所述预测房源在所述预设时间内的房源成交概率。第三方面,本专利技术实施例提供一种电子设备,包括存储器和处理器,所述处理器和所述存储器通过总线完成相互间的通信;所述存储器存储有可被所述处理器执行的程序指令,所述处理器调用所述程序指令能够执行如下方法:获取房源数据,根据所述房源数据得到房源的特征数据,一套房源同一日的所述特征数据构成一个样本;对每个所述样本添加标签,所述标签为预设时间内的房源成交概率;对具有所述标签的样本集利用xgboost进行监督学习,得到预测模型;将预测房源的所述特征数据输入到所述预测模型,根据所述预测模型的预测值得到所述预测房源在所述预设时间内的房源成交概率。第四方面,本专利技术实施例提供一种计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现如下方法:获取房源数据,根据所述房源数据得到房源的特征数据,一套房源同一日的所述特征数据构成一个样本;对每个所述样本添加标签,所述标签为预设时间内的房源成交概率;对具有所述标签的样本集利用xgboost进行监督学习,得到预测模型;将预测房源的所述特征数据输入到所述预测模型,根据所述预测模型的预测值得到所述预测房源在所述预设时间内的房源成交概率。本专利技术实施例通过将xgboost运用到实际的房屋在售成交预估场景中,能够提供可靠的个体及整体房屋的成交前景;成交预估可实现无人值守自动化运行,减少了人力资源浪费。附图说明为了更清楚地说明本专利技术实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍,显而易见地,下面描述中的附图是本专利技术的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。图1为本专利技术实施例提供的基于xgboost的房源成交预估方法流程图;图2为本专利技术实施例提供的基于xgboost的房源成交预估方法的基础特征分布图;图3为本专利技术实施例提供的基于xgboost的房源成交预估平台结构示意图;图4为本专利技术实施例提供的电子设备的结构示意图。具体实施方式为使本专利技术实施例的目的、技术方案和优点更加清楚,下面将结合本专利技术实施例中的附图,对本专利技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本专利技术一部分实施例,而不是全部的实施例。基于本专利技术中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本专利技术保护的范围。图1为本专利技术实施例提供的基于xgboost的房源成交预估方法流程图。如图1所示,所述方法包括:步骤101、获取房源数据,根据所述房源数据得到房源的特征数据,一套房源同一日的所述特征数据构成一个样本;首先通过sparksql从数据仓库获取房源数据,所述房源数据为与所述房源有关的原始记录数据,如经纪人相关信息、客户相关信息、互动信息等。为得到机器学习的训练样本,则根据所述房源数据进行统计得到房源的特征数据,所述房源的特征数据可以用来生成样本。比如,所述房源的特征数据可为经纪人带看过的不同店铺数,则根据与经纪人带看店铺有关的原始数据进行统计得到经纪人带看过的不同店铺数,即得到所述房源的这一个特征数据。所述房源的特征数据可同时被存储在单机硬盘或者分布式的hdfs(hadoop分布式文件系统)上。为达到更好的预测效果,所述房源的特征数据可以为多个。由一套房源同一日的所述特征数据构成一个样本。步骤102、对每个所述样本添加标签,所述标签为预设时间内的房源成交概率;所述预设时间为所述样本的样本日(指样本的数据是哪一天的数据)后的一段时间,如所述预设时间可以为样本日后14天内,则所述标签为样本日后14天内的房源成交概率。这也表明,如果所述预设时间为样本日后14天内,则要想获得所述标签,所述至少要挂牌14天以上。样本的日期与预测日越接近,预测的精度越高。各套房源的所述特征数据可以构成百万级别的样本集。对每个所述样本添加标签,如果预测14天内的房源成交概率,则所述标签为所述房源在样本日后14天内的房源实际成交情况,如果成交,则所述标签设置为1;如未成交,则所述标签设置为0。步骤103、对具有所述标签的样本集利用xgboost进行监督学习,得到预测模型;xgboost是一种基于决策树结构的boost模型,与GBDT类似,但由于对目标函数进行了二阶泰勒展开并加入了正则化项,使得模型具有较强的泛化能力,可以规避过拟合的风险,抗干扰能力强。对具有所述标签的样本集利用xgboost进行监督学习,输入为样本及标签,所述样本为所述特征数据,所述标签为所述预设时间内的房源成交概率,输出为所述预设时间内的房源成交概率。如所述标签为样本日后14天内的房源成交概率,为已知值,所述输出也为样本日后14天内的房源成交概率,为预测值。根据xgboos算法的实现原理,当输出与标签值满足一定精度要求的时候,得到所述预测模型。步骤104、将预测房源的所述特征数据输入到所述预测模型,根据所述预测模型的预测值得到所述预测房源在所述预设时本文档来自技高网...

【技术保护点】
1.一种基于xgboost的房源成交预估方法,其特征在于,包括:获取房源数据,根据所述房源数据得到房源的特征数据,一套房源同一日的所述特征数据构成一个样本;对每个所述样本添加标签,所述标签为预设时间内的房源成交概率;对具有所述标签的样本集利用xgboost进行监督学习,得到预测模型;将预测房源的所述特征数据输入到所述预测模型,根据所述预测模型的预测值得到所述预测房源在所述预设时间内的房源成交概率。

【技术特征摘要】
1.一种基于xgboost的房源成交预估方法,其特征在于,包括:获取房源数据,根据所述房源数据得到房源的特征数据,一套房源同一日的所述特征数据构成一个样本;对每个所述样本添加标签,所述标签为预设时间内的房源成交概率;对具有所述标签的样本集利用xgboost进行监督学习,得到预测模型;将预测房源的所述特征数据输入到所述预测模型,根据所述预测模型的预测值得到所述预测房源在所述预设时间内的房源成交概率。2.根据权利要求1所述的方法,其特征在于,根据所述房源数据得到房源的特征数据具体包括:对所述房源数据进行统计获取房源的基础特征数据;对所述房源数据进行统计获取房源的统计特征数据;根据所述房源的基础特征数据和所述房源的统计特征数据得到所述房源的特征数据。3.根据权利要求2所述的方法,其特征在于,所述获取房源的基础特征数据具体包括:获取经纪人特征数据,所述经纪人特征数据包括经纪人带看特征数据、经纪人跟进特征数据和维护人特征数据;获取房屋特征数据,所述房屋特征数据包括房屋物理属性数据、房源物理属性数据、三证核验特征数据和翻录特征数据;获取客源特征数据,所述客源特征数据包括客源电话特征数据、线上特征数据和意向金特征数据;获取业主特征数据,所述业主特征数据包括业主线上特征数据和调价特征数据;获取市场特征数据,所述市场特征数据包括供需比特征数据和成交周期特征数据;获取价格特征数据,所述价格特征数据包括小区均价特征数据和价格排名特征数据。4.根据权利要求2所述的方法,其特征在于,所述对所述房源数据进行统计获取房源的统计特征数据,具体包括:根据所述房源数据统计预设特征的最大值、最小值、众数值、平均值和标准差值,从而得到所述房源的统计特征数据。5.根据权利要求1所述的方法,其特征在于,所述根据所述预测模型的预测值得到所述预测房源在所述预设时间内的房源成交概率具体包括:根据所述预测模型获取预设天数前...

【专利技术属性】
技术研发人员:于东海宋鑫刘文王煜杰蔡白银
申请(专利权)人:链家网北京科技有限公司
类型:发明
国别省市:北京,11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1