一种基于随机森林的房屋合租推荐方法技术

技术编号:24890525 阅读:23 留言:0更新日期:2020-07-14 18:17
本发明专利技术公开了一种基于随机森林的房屋合租推荐方法,与原始的寻找合租的方法相比将会更加省心,便捷,可以简单地获得最大可能满意的合租方案,而无需盲目地在线上、线下的信息海洋中随机寻找,相比起现有平台简单的个性化推荐方法,我们的预测模型基于历史数据形成,而不是主观粗暴地赋予参数,向用户给出不足够个性化的结果。同时我们的预测模型侧重于把合租方案作为一个有机的整体,综合考虑全面的、各方的因素,而并非只是着重于一小部分因素产生过拟合的结果。由于预测模型是“随机”和“森林”的,误差均匀分散到各个决策树上,最终获得的结果要更加精准。

【技术实现步骤摘要】
一种基于随机森林的房屋合租推荐方法
本专利技术公开了一种基于随机森林的房屋合租推荐方法。
技术介绍
本专利技术公开了一种基于随机森林的房屋合租推荐方法。
技术实现思路
本专利技术的专利技术目的在于提供一种为合租各方科学、便捷、快速地提供决策依据的一种基于随机森林的房屋合租推荐方法。本专利技术解决上述技术问题所采取的技术方案如下:本专利技术一种基于随机森林的房屋合租推荐方法,把合租方案作为一个整体,综合各方包括房东及租客的各特征变量进行评估,以获得各方更乐意参与其中的合租方案,而非孤立地只考虑某一方评估,而建议用户作出“一厢情愿”的决策。基于随机森林的方法训练预测模型,可以将误差均匀分散到各个决策树上,降低过拟合的影响,从而提高模型预测精度。由于合租人数不同的方案之间直接对比评估分值会有失偏颇,我们将所有合租案例样本按照总入住人数C进行分类,C值相同的样本才会分到同一类别中,在C值相同的情况下不同的合租方案才能通过相应的预测模型对比优劣。使用袋外数据OOB对特征变量进行重要性评价,使模型在实践过程中重视较为重要的信息,在尽量合理的取舍下协助用户做出更好的决定。对原始数据集中离散型变量进行标准化处理,公式如下:其中x是标准化处理后的数值,Xr是原始数值,Xmax、Xmin分别表示数据集中该属性的最大、最小值。构造一个可以表征拟合程度的指标,对模型总体回归的预测效果进行检验。在示例中我们选择了拟合优度R2:根据模型预测的整体满意度对所有合租方案进行降序排列,然后取排序靠前的若干方案推荐给用户。通过用户对合租方案的选择形成反馈,对合租方案评价模型进行持续优化。若用户选择某候选方案,则该用户在此方案中的满意度S记为1,若用户对此候选方案进行否决,则该用户在此方案中的满意度S则记为-1。一个获得所有合租房满意度数据的合租方案本身会录入到合租方案样本库中,并基于新的样本库数据不定期重新训练合租方案评价模型本专利技术的其它特征和优点将在随后的说明书中阐述,并且,部分地从说明书中变得显而易见,或者通过实施本专利技术而了解。本专利技术的目的和其他优点可通过在所写的说明书、权利要求书中所特别指出的内容来实现和获得。具体实施方式以下将结合实施例来详细说明本专利技术的实施方式,借此对本专利技术如何应用技术手段来解决技术问题,并达成技术效果的实现过程能充分理解并据以实施。需要说明的是,只要不构成冲突,本专利技术中的各个实施例以及各实施例中的各个特征可以相互结合,所形成的技术方案均在本专利技术的保护范围之内。该算法的主要步骤分4步:S1.构建合租案例样本的结构化的数据集:我们通过访谈大量合租案例样本中房东及租客的方法,提取出影响合租方案的特征变量。对房东产生影响的变量主要为:租金,租期,押金,交付方式,租客职业,租客性别,租客年龄,租客籍贯,等等;对租客产生影响的变量主要为:租金,租期,押金,交付方式,小区,位置,交通,户型,家具,室友人数,室友职业,室友性别,室友年龄,室友籍贯,室友收入,室友性格,室友爱好,等等。该数据集中的变量中有部分是连续型变量,则可简单取其实际数值。而离散型变量需要先对数据进行标准化处理;针对离散型变量使用数值{1,2,3,…}表示,之后按照下式对每个变量的数值进行归一化处理,将数据统一映射到[0,1]上。其中x是标准化处理后的数值,Xr是原始数值,Xmax、Xmin分别表示数据集中该属性的最大、最小值:用户在使用我们的系统时,首先需要按照自己实际情况填写个人资料及租房需求。从用户填写的资料里面我们可以提取相关数据,并据此获得此用户各变量的值。同时我们对每个合租案例样本中各方的满意度S进行记录,满意则S值记为1,不满意则S值记为-1。我们将一个合租案例中各方的S值之和定义为整体满意度,记为Y。我们将所有合租案例样本按照总入住人数C进行分类,C值相同的样本才会分到同一类别中。S2.通过基于随机森林的方法,构建合租方案中整体满意度预测模型:我们把通过访谈获得的合租案例样本,整合、去重、存储,结构化形成合租案例样本集,以样本数据集与随机森林算法为依据,建立合租方案中预测整体满意度Y的模型,并对此初始模型进行优化,进而获得成熟的合租方案评估模型。以C值相同的样本集作为一个类别,每一个类别分别训练一个模型。利用Bootstrap抽样从原始合租方案样本数据集中抽取B个样本集,且每个样本的样本容量与原始合租方案样本数据集相同,然后对B个样本集分别建立B棵决策树,得到B个结果,最后,对这B个结果取平均值得到最终的预测模型。随机森林是B棵决策树{T1(X),...,TB(X)}的集合,其中,X={x1,...,xp}是合租方案的P维特征向量,集合将会产生B个结果{Φ1=T1(X),...,ΦB=TB(X)},其中Φb,b=1,...,B为第b棵树对合租方案整体满意度的预测值。在回归问题中,Φ是所有树预测的平均值。给定一系列数据进行训练,D={(X1,Y1),...,(Xn,Yn)},Xi,i=1,...,n,指合租方案中的特征向量,而Yi指合租方案样本的实际满意度。随机森林回归算法实现流程为:原始样本含量为n,应用bootstrap有放回地随机抽取B个样本集,并由此构建B棵树,每次bootstrap抽样未抽到的样本组成了B个袋外数据,作为随机森林的测试样本;设原始数据的变量个数为P,则在每一棵树回归的每个阶段随机抽取了mtry个变量,作为备选分支变量,其中mtry远小于P,然后在其中根据分枝优度准则选取最优分枝。在随机森林回归中,参数mtry=P/3,在这方法中,mtry是唯一的调整参数。决策树可以最大化地生长,无需剪枝;重复上面的步骤,直到B棵树全部建好。完成以上步骤之后,随机森林的训练集就建好了。最后,把测试集的自变量输入到建立好的预测模型中,得到预估的合租方案整体满意度,并以实际的合租方案满意度进行对比,用来检测随机森林的模型效果。使用袋外数据OOB对特征变量进行重要性评价。随机森林的一个重要特征是,若对一个特征变量加入噪声值后,其预测精度显著降低,则表明该特征变量比较重要,具体的计算可描述为:先用OOB数据测试已生成的随机森林的性能,得到一个OOB准确率;然后在OOB数据中人为地给某特征变量加入噪声值,再用加入噪声后的OOB数据测试随机森林的性能,得到一个新的OOB准确率;原始OOB准确率与加入噪声后的OOB准确率之差,作为相应特征变量的重要性度量值。我们利用这个方法对特征变量进行重要性排列,使模型在实践过程中重视较为重要的信息,在尽量合理的取舍下协助用户做出更好的决定。模型总体回归的预测效果检验。我们需要对模型的预测结果进行以衡量所建立模型的好坏。在这里,我们使用拟合优度检验R2检验,拟合优度检验是检验回归结果对样本值的拟合程度,即检验被解释变量与所有解释变量之间的相关程度。检验的方法是构造一个可以表本文档来自技高网...

【技术保护点】
1.一种基于随机森林的房屋合租推荐方法,其特征在于,包括以下步骤:/nS1:收集大量的房屋合租案列样本,提取房租合租案列中的数据,所述数据包括影响房东及租客合租的变量、对合租案列的整体满意度和总入住人数;/nS2:对采集的数据进行标准化处理;/nS3:根据标准化处理后的数据基于随机森林算法,构建合租方案中整体满意度预测模型;/nS4:获取用户待合租数据,用户包括房东及租客,对用户的待合租数据进行标准化处理;/nS5:将用户的标准化处理后的待合租数据通过整体满意度预测模型进行计算预测,根据模型预测的整体满意度对所有合租方案进行降序排列,取排序靠前的若干方案,形成推荐结果;/nS6:通过用户对合租方案的选择和评价形成反馈,对整体满意度预测模型模型进行持续优化。/n

【技术特征摘要】
1.一种基于随机森林的房屋合租推荐方法,其特征在于,包括以下步骤:
S1:收集大量的房屋合租案列样本,提取房租合租案列中的数据,所述数据包括影响房东及租客合租的变量、对合租案列的整体满意度和总入住人数;
S2:对采集的数据进行标准化处理;
S3:根据标准化处理后的数据基于随机森林算法,构建合租方案中整体满意度预测模型;
S4:获取用户待合租数据,用户包括房东及租客,对用户的待合租数据进行标准化处理;
S5:将用户的标准化处理后的待合租数据通过整体满意度预测模型进行计算预测,根据模型预测的整体满意度对所有合租方案进行降序排列,取排序靠前的若干方案,形成推荐结果;
S6:通过用户对合租方案的选择和评价形成反馈,对整体满意度预测模型模型进行持续优化。


2.根据权利要求1所述基于随机森林的房屋合租推荐方法,其特征在于,在S2中,具体包括如下子步骤:
S21:提取出影响合租方案的特征变量,对于连续型变量则可简单取其实际数值,对于离散型变量使用数值{1,2,3,…}表示,按照公式



进行标准化处理,其中x是标准化处理后的数值,Xr是原始数值,Xmax、Xmin...

【专利技术属性】
技术研发人员:谭毅彬马柳安林冰
申请(专利权)人:深圳市海豚居科技有限公司
类型:发明
国别省市:广东;44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1