一种基于FFM算法的房屋租金预测方法技术

技术编号:20449613 阅读:22 留言:0更新日期:2019-02-27 03:23
本发明专利技术公开了一种基于FFM算法的房屋租金预测方法,采用FFM算法对大量房屋出租信息进行数据清洗、特征提取、数据转换、特征建模,使用构建的模型对房租租金进行预测并找出异常租金数据。本发明专利技术不仅可以通过对数据进行清洗、特征提取、建模来实现对房屋租金的预测,还能够很好的检测到异常的房屋租金信息。本发明专利技术所提出的基于FFM算法的房租预测方法能很好的应对房屋数据稀疏的情况,能够自动学习特征之间的隐藏联系,是对房租预测的一种十分有效的方法。

【技术实现步骤摘要】
一种基于FFM算法的房屋租金预测方法
本专利技术涉及机器学习、大数据、数据分析领域,尤其涉及房屋租赁中的一种基于FFM算法的房屋租金预测方法。
技术介绍
随着科技的迅猛发展,互联网给人们带来了各种各样的便捷服务,例如房屋租赁公司可以为客户在线提供服务,这为人们提供了一个更加便利的租房方式,但是与此同时也给人们带来了一定的安全隐患。例如,在线房屋租赁公司接收出租户的房屋信息,发布在租赁网站上,但是可能由于审核不严谨或者出租户提供虚假或者虚高的价格信息而给租客带来损失。随着大数据与人工智能的迅速发展,可以结合机器学习与数据分析来解决上述问题。通过租赁网站获取大量房屋信息,对这些数据进行清洗、去噪、缺失值填充等一系列数据分析处理。接着利用清洗后的数据对提取相关的特征,可以发现数据之间隐藏的信息。最后利用机器学习相关算法对数据进行建模。通过该模型不仅可以对房屋租金进行预测,还可以通过对比模型的预测房租与真实房租判断该房租是否异常,由此可大幅度减小租户在租房时所承担的风险。FFM(Field-awareFactorizationMachine)场感知分解机最初的概念来自于Yu-ChinJuan与其比赛队员,借鉴了MichaelJahrer的论文中field概念,提出的FM的升级版模型。虽然FFM主要用于点击率预测,但是由于FFM能够很好的处理稀疏的数据且能学习稀疏数据之间的联系,所以很适合房租预测任务。
技术实现思路
本专利技术提供了一种基于FFM算法的房屋租金预测方法,能有效的对房屋租金进行预测,并且对异常租金值进行检测,实现大幅度的减小租户在租房时所承担的风险。本专利技术采用以下技术方案:一种基于FFM算法的房屋租金预测方法,包括以下几个步骤:Q1、对房屋数据清洗,即在房屋数据中,对缺失值进行处理;对城市与省份无法对应的记录进行修正;将租金值低于200与租金值高于5000的数据去除;将租金值为“面议”的数据去除;将房屋面积高于200的数据去除;将楼层值不详的数据去除;Q2、对清洗后的房屋数据进行特征提取,所述特征包括:房屋结构;房屋楼层高度;房屋总楼层;房屋朝向;房屋面积;房屋所在省市;房屋所在地区;房屋所在小区;房屋所提供的家具;房屋出租类型;房屋租金支付方式;所提供的房屋图片数量;所述提取包括:对房屋楼层高度、房屋朝向、房屋所在地区、房屋所在省市、房屋出租类型、房屋租金支付方式进行one-hot编码,对房屋所提供的家具进行n-hot编码;选择房屋所在省市、房屋所在小区、房屋所在地区、房屋朝向、房屋所在楼层高度的特征作为排序特征,依据特征值排序;Q3、将数据转换为FFM算法需要的格式,将Q2中所述特征的值转换成“field_id:feat_id:value”格式,field_id代表特征所属field的编号,feat_id是特征编号,value是特征的值;Q4、对提取出来的特征构建租金预测模型,公式为:|yreal-ypred|/yreal>0.45其中yreal代表真实租金,ypred代表预测租金;Q5、对房屋租金进行预测;Q6、通过对比预测租金值与真实租金值找出异常租金数据。本专利技术的技术效果:本专利技术不仅可以通过对数据进行清洗、特征提取、建模来实现对房屋租金的预测,还能够很好的检测到异常的房屋租金信息。本专利技术所提出的基于FFM算法的房租预测方法能很好的应对房屋数据稀疏的情况,能够自动学习特征之间的隐藏联系,是对房租预测的一种十分有效的方法。附图说明图1为基于FFM算法的房租预测方法流程图。图2为FFM算法指定数据格式。具体实施方式下面将结合本专利技术的附图和实施例,对本专利技术的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本专利技术一部分实施例,而不是全部的实施例。基于本专利技术中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本专利技术保护的范围。根据图1所示,一种基于FFM算法的房屋租金预测方法,包括以下几个步骤:Q1、对房屋数据清洗,即在房屋数据中,对缺失值进行处理;对城市与省份无法对应的记录进行修正;将租金值低于200与租金值高于5000的数据去除;将租金值为“面议”的数据去除;将房屋面积高于200的数据去除;将楼层值不详的数据去除;如表1为原始数据,表2为经过数据清洗之后的数据。表1、原始数据roomhalltoiletrent_moneyprovincecitytowardarealevelfloor311850山东莱芜南北95高层6111450四川资阳南40高层81018000云南昆明东35中层32311900江苏沛县南94高层6321550四川资阳南100高层6311900四川资阳西南100中层7321800四川资阳东西103中层6211面议四川资阳南90高层71111000湖南湘潭南北50中层192211600广西贵港南83低层301111000山东淄博西43中层6321100四川资阳南北97高层63222600广东中山南114高层321111300四川重庆北48中层252211690广西北海南90中层28221面议四川资阳南80高层225511000安徽马鞍山南400地下18表2、经过数据清洗之后的数据roomhalltoiletent_moneprovincecitytowardarealevelfloor311850山东省莱芜市南北95高层6111450四川省资阳市南40高层8311900江苏省沛县南94高层6321550四川省资阳市南100高层6311900四川省资阳市西南100中层7321800四川省资阳市东西103中层61111000湖南省湘潭市南北50中层192211600广西壮族自治区贵港市南83低层301111000山东省淄博市西43中层63222600广东省中山市南114高层321111300重庆市重庆市北48中层252211690广西省北海市南90中层285511000安徽省马鞍山市南400地下18Q2、对清洗后的房屋数据进行特征提取,所述特征包括:房屋结构;房屋楼层高度;房屋总楼层;房屋朝向;房屋面积;房屋所在省市;房屋所在地区;房屋所在小区;房屋所提供的家具;房屋出租类型;房屋租金支付方式;所提供的房屋图片数量;所述提取包括:对房屋楼层高度、房屋朝向、房屋所在地区、房屋所在省市、房屋出租类型、房屋租金支付方式进行one-hot编码如表3所示:表3、one-hot编码toward南北南西南东西南北北西南北1000000南0100000南0100000南0100000西南0010000东西0000000南北0001000南0100100西0000001南0100000北0000010南0100000南0100000对房屋所提供的家具进行n-hot编码见表4;表4、n-hot编码facility床衣柜冰箱洗衣机空调热水器电视阳台沙发无000000000床.衣柜.冰箱.洗衣机.空调.热水器111111000床.衣柜.电视.空调.热水器.阳台110001010床.衣柜.沙发.热水器.阳台110001011床.衣柜.沙发.冰箱.空调.热水器.阳台111011011床.衣柜.沙发.电视.冰箱.洗衣机.空调111110101床.衣柜.沙发.电视本文档来自技高网...

【技术保护点】
1.一种基于FFM算法的房屋租金预测方法,其特征在于:包括以下几个步骤:Q1、对房屋数据清洗,即在房屋数据中,对缺失值进行处理;对城市与省份无法对应的记录进行修正;将租金值低于200与租金值高于5000的数据去除;将租金值为“面议”的数据去除;将房屋面积高于200的数据去除;将楼层值不详的数据去除;Q2、对清洗后的房屋数据进行特征提取,所述特征包括:房屋结构;房屋楼层高度;房屋总楼层;房屋朝向;房屋面积;房屋所在省市;房屋所在地区;房屋所在小区;房屋所提供的家具;房屋出租类型;房屋租金支付方式;所提供的房屋图片数量;所述提取包括:对房屋楼层高度、房屋朝向、房屋所在地区、房屋所在省市、房屋出租类型、房屋租金支付方式进行one‑hot编码,对房屋所提供的家具进行n‑hot编码;选择房屋所在省市、房屋所在小区、房屋所在地区、房屋朝向、房屋所在楼层高度的特征作为排序特征,依据特征值排序;Q3、将数据转换为FFM算法需要的格式,将Q2中所述特征的值转换成“field_id:feat_id:value”格式,field_id代表特征所属field的编号,feat_id是特征编号,value是特征的值;Q4、对提取出来的特征构建租金预测模型,公式为:|yreal‑ypred|/yreal>0.45其中yreal代表真实租金,ypred代表预测租金;Q5、对房屋租金进行预测;Q6、通过对比预测租金值与真实租金值找出异常租金数据。...

【技术特征摘要】
1.一种基于FFM算法的房屋租金预测方法,其特征在于:包括以下几个步骤:Q1、对房屋数据清洗,即在房屋数据中,对缺失值进行处理;对城市与省份无法对应的记录进行修正;将租金值低于200与租金值高于5000的数据去除;将租金值为“面议”的数据去除;将房屋面积高于200的数据去除;将楼层值不详的数据去除;Q2、对清洗后的房屋数据进行特征提取,所述特征包括:房屋结构;房屋楼层高度;房屋总楼层;房屋朝向;房屋面积;房屋所在省市;房屋所在地区;房屋所在小区;房屋所提供的家具;房屋出租类型;房屋租金支付方式;所提供的房屋图片数量;所述提取包括:对房屋楼层高度、房屋朝向、房屋所在地区、房屋所在省市、房屋出租类型、房屋租金支付方式进行one-hot编码,对房屋所提供的家具进行n-hot编码;选择房屋所在省市、房屋所在...

【专利技术属性】
技术研发人员:李智星舒海东胡峰
申请(专利权)人:智庭北京智能科技有限公司
类型:发明
国别省市:北京,11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1