一种房产评估数据生成方法和装置制造方法及图纸

技术编号:19023412 阅读:37 留言:0更新日期:2018-09-26 19:04
本申请实施例提供了一种房产评估数据生成方法和装置,所述方法包括:获取地理区域内的用户数据和地理区域影响因子;从地理区域内的用户数据和地理区域影响因子中提取原始特征数据;从原始特征数据中选取目标特征数据;采用目标特征数据,生成随机森林模型;根据随机森林模型,生成地理区域的房产评估数据。本申请实施例中,根据电子商务平台的用户数据和从整个互联网的网页数据中爬取的可影响房产价值的数据,建立随机森林模型,根据随机森林模型中的决策树模型,生成房产评估数据。电子商务平台可以据此提供一种具有参考意义的房产评估数据,方便买方评估房产升值潜力,并给出支撑策略和规则,解决目前缺乏针对房产价值评估方式的问题。

【技术实现步骤摘要】
一种房产评估数据生成方法和装置
本申请涉及数据处理术领域,特别是涉及一种房产评估数据生成方法和一种房产评估数据生成装置。
技术介绍
随着电子商务平台的发展,房产导购类目运营越来越成为电子商务平台的一个发力点。目前,电子商务平台的房产导购类目运营,更多是通过活动推广(包括消费打折,团购打折等)来促进带看率和销量。但在这些活动推广中,电子商务平台无法给出针对房产价值的核心参考指标和升值分析策略,更多地是用户根据自身经验和相关评论来推测房产的价值,这些推测存在着片面性、局部性。总之,目前的电子商务平台中缺乏针对房产价值评估方式。
技术实现思路
鉴于上述问题,提出了本申请实施例以便提供一种克服上述问题或者至少部分地解决上述问题的一种房产评估数据生成方法和相应的一种房产评估数据生成装置。为了解决上述问题,本申请实施例公开了一种房产评估数据生成方法,包括:获取地理区域内的用户数据和地理区域影响因子;从所述地理区域内的用户数据和地理区域影响因子中提取原始特征数据;从所述原始特征数据中选取目标特征数据;采用所述目标特征数据,生成随机森林模型;根据所述随机森林模型,生成所述地理区域的房产评估数据。优选的,所述从所述原始特征数据中选取目标特征数据的步骤包括:对所述原始特征数据进行预处理;针对经过预处理的原始特征数据计算重要度参数;根据所述重要度参数选取目标特征数据。优选的,所述随机森林模型包括多个决策树模型,所述根据所述随机森林模型,生成所述地理区域的房产评估数据的步骤包括:确定所述随机森林模型的决策树模型中的各个节点路径;根据所述各个节点路径,生成所述地理区域的房产评估数据。优选的,所述随机森林模型包括多个决策树模型,所述根据所述随机森林模型,生成所述地理区域的房产评估数据的步骤包括:统计所述随机森林模型的决策树模型的各类叶子节点的数目;计算同一类叶子节点的数目,与同一决策树模型中所有叶子节点的数目的比值;根据所述比值,生成所述地理区域的房产评估数据。优选的,所述从所述地理区域内的用户数据和地理区域影响因子中提取原始特征数据的步骤包括:对所述地理区域内的用户数据和地理区域影响因子进行数据清洗;针对清洗后的数据提取原始特征数据。优选的,所述对所述地理区域内的用户数据和地理区域影响因子进行数据清洗的步骤包括:检测所述地理区域内的用户数据和地理区域影响因子是否存在异常数据;若存在异常数据,则根据异常数据的取值,对所述异常数据进行调整或舍弃所述异常数据。优选的,所述对所述地理区域内的用户数据和地理区域影响因子进行数据清洗的步骤还包括:检测所述地理区域内的用户数据和地理区域影响因子是否存在缺失数据;若存在缺失数据,则对所述缺失数据进行估算处理;根据估算处理结果对所述缺失数据进行补全,或对所述缺失数据进行舍去处理。优选的,所述原始特征数据包括类别型特征数据,所述针对清洗后的数据提取原始特征数据的步骤包括:从所述清洗后的数据中选取描述性数据;从所述描述性数据中抽取类别型特征数据。优选的,所述原始特征数据还包括词袋模型特征数据,所述针对清洗后的数据提取原始特征数据的步骤还包括:从所述描述性数据中抽取词袋模型特征数据。优选的,所述原始特征数据还包括数值型特征数据,所述针对清洗后的数据提取原始特征数据的步骤还包括:从所述清洗后的数据中选取数值型数据;从数值型数据中抽取数值型特征数据。优选的,所述针对清洗后的数据提取原始特征数据的步骤还包括:对所述数值型特征数据进行归一化处理。优选的,所述对所述原始特征数据进行预处理的步骤包括:检测所述原始特征数据是否存在缺失特征数据;若存在,则对所述缺失特征数据进行补全或舍去所述缺失特征数据。优选的,所述对所述原始特征数据进行预处理的步骤还包括:检测所述原始特征数据是否存在异常特征数据;若存在,则对所述异常特征数据进行调整或舍去所述异常特征数据。优选的,所述对所述原始特征进行预处理的步骤还包括:从原始特征数据中选取特征数据进行融合。优选的,所述从原始特征数据中选取特征数据进行融合的步骤包括:计算两个特征数据之间的关联系数矩阵;根据关联系数矩阵,对有关联关系的特征数据进行加权求和处理。优选的,所述重要度参数包括信息熵,所述针对经过预处理的原始特征数据计算重要度参数的步骤包括:针对经过预处理的原始特征数据计算信息熵。优选的,所述根据所述重要度参数选取目标特征数据的步骤包括:将信息熵大于预设信息熵阈值的经过预处理的原始特征数据,作为目标特征数据。优选的,所述重要度参数包括距离度量;所述针对经过预处理的原始特征数据计算重要度参数的步骤包括:两两计算任意两个经过预处理的原始特征数据之间的距离度量。优选的,所述根据所述重要度参数选取目标特征数据的步骤包括:将两个经过预处理的原始特征数据之间的距离度量,与预设距离度量阈值进行比较;根据比较结果,将相应的两个经过预处理的原始特征数据作为目标特征数据。优选的,所述重要度参数包括离散分布图的判断度量,所述针对经过预处理的原始特征数据计算重要度参数的步骤包括:针对所有经过预处理的原始特征数据,生成对应的离散分布图;计算各个离散分布图的判断度量。优选的,所述根据所述重要度参数选取目标特征数据的步骤包括:计算所有离散分布图的判断度量的平均值,得到平均判断度量;计算各个离散分布图的判断度量,与所述平均判断度量的比值;当某个处理后特征的判断度量,与所述平均判断度量的比值大于预设比例阈值时,将该经过预处理的原始特征数据作为目标特征数据。本申请实施例还公开了一种房产评估数据生成装置,包括:数据获取模块,用于获取地理区域内的用户数据和地理区域影响因子;原始特征数据提取模块,用于从所述地理区域内的用户数据和地理区域影响因子中提取原始特征数据;目标特征数据选取模块,用于从所述原始特征数据中选取目标特征数据;随机森林模型生成模块,用于采用所述目标特征数据,生成随机森林模型;房产评估数据生成模块,用于根据所述随机森林模型,生成所述地理区域的房产评估数据。优选的,所述目标特征数据选取模块包括:预处理子模块,用于对所述原始特征数据进行预处理;重要度参数计算子模块,用于针对经过预处理的原始特征数据计算重要度参数;目标特征选取子模块,用于根据所述重要度参数选取目标特征数据。优选的,所述随机森林模型包括多个决策树模型,所述房产评估数据生成模块包括:节点路径确定子模块,用于确定所述随机森林模型的决策树模型中的各个节点路径;节点路径评估子模块,用于根据所述各个节点路径,生成所述地理区域的房产评估数据。优选的,所述随机森林模型包括多个决策树模型,所述房产评估数据生成模块包括:叶子几点数目统计子模块,用于统计所述随机森林模型的决策树模型的各类叶子节点的数目;叶子节点比值计算子模块,用于计算同一类叶子节点的数目,与同一决策树模型中所有叶子节点的数目的比值;叶子节点比值评估子模块,用于根据所述比值,生成所述地理区域的房产评估数据。本申请实施例还公开了一种房产评估数据生成方法,包括:接收交互界面提交的处理请求;根据所述处理请求,获取地理区域内的用户数据和地理区域影响因子;从所述地理区域内的用户数据和地理区域影响因子中提取原始特征数据;从所述原始特征数据中选取目标特征数据;采用所述目标特征数据,生成随机森林模型;根本文档来自技高网...

【技术保护点】
1.一种房产评估数据生成方法,其特征在于,包括:获取地理区域内的用户数据和地理区域影响因子;从所述地理区域内的用户数据和地理区域影响因子中提取原始特征数据;从所述原始特征数据中选取目标特征数据;采用所述目标特征数据,生成随机森林模型;根据所述随机森林模型,生成所述地理区域的房产评估数据。

【技术特征摘要】
1.一种房产评估数据生成方法,其特征在于,包括:获取地理区域内的用户数据和地理区域影响因子;从所述地理区域内的用户数据和地理区域影响因子中提取原始特征数据;从所述原始特征数据中选取目标特征数据;采用所述目标特征数据,生成随机森林模型;根据所述随机森林模型,生成所述地理区域的房产评估数据。2.根据权利要求1所述的方法,其特征在于,所述从所述原始特征数据中选取目标特征数据的步骤包括:对所述原始特征数据进行预处理;针对经过预处理的原始特征数据计算重要度参数;根据所述重要度参数选取目标特征数据。3.根据权利要求1所述的方法,其特征在于,所述随机森林模型包括多个决策树模型,所述根据所述随机森林模型,生成所述地理区域的房产评估数据的步骤包括:确定所述随机森林模型的决策树模型中的各个节点路径;根据所述各个节点路径,生成所述地理区域的房产评估数据。4.根据权利要求1所述的方法,其特征在于,所述随机森林模型包括多个决策树模型,所述根据所述随机森林模型,生成所述地理区域的房产评估数据的步骤包括:统计所述随机森林模型的决策树模型的各类叶子节点的数目;计算同一类叶子节点的数目,与同一决策树模型中所有叶子节点的数目的比值;根据所述比值,生成所述地理区域的房产评估数据。5.根据权利要求1所述的方法,其特征在于,所述从所述地理区域内的用户数据和地理区域影响因子中提取原始特征数据的步骤包括:对所述地理区域内的用户数据和地理区域影响因子进行数据清洗;针对清洗后的数据提取原始特征数据。6.根据权利要求5所述的方法,其特征在于,所述对所述地理区域内的用户数据和地理区域影响因子进行数据清洗的步骤包括:检测所述地理区域内的用户数据和地理区域影响因子是否存在异常数据;若存在异常数据,则根据异常数据的取值,对所述异常数据进行调整或舍弃所述异常数据。7.根据权利要求6所述的方法,其特征在于,所述对所述地理区域内的用户数据和地理区域影响因子进行数据清洗的步骤还包括:检测所述地理区域内的用户数据和地理区域影响因子是否存在缺失数据;若存在缺失数据,则对所述缺失数据进行估算处理;根据估算处理结果对所述缺失数据进行补全,或对所述缺失数据进行舍去处理。8.根据权利要求5所述的方法,其特征在于,所述原始特征数据包括类别型特征数据,所述针对清洗后的数据提取原始特征数据的步骤包括:从所述清洗后的数据中选取描述性数据;从所述描述性数据中抽取类别型特征数据。9.根据权利要求8所述的方法,其特征在于,所述原始特征数据还包括词袋模型特征数据,所述针对清洗后的数据提取原始特征数据的步骤还包括:从所述描述性数据中抽取词袋模型特征数据。10.根据权利要求9所述的方法,其特征在于,所述原始特征数据还包括数值型特征数据,所述针对清洗后的数据提取原始特征数据的步骤还包括:从所述清洗后的数据中选取数值型数据;从数值型数据中抽取数值型特征数据。11.根据权利要求10所述的方法,其特征在于,所述针对清洗后的数据提取原始特征数据的步骤还包括:对所述数值型特征数据进行归一化处理。12.根据权利要求2所述的方法,其特征在于,所述对所述原始特征数据进行预处理的步骤包括:检测所述原始特征数据是否存在缺失特征数据;若存在,则对所述缺失特征数据进行补全或舍去所述缺失特征数据。13.根据权利要求12所述的方法,其特征在于,所述对所述原始特征数据进行预处理的步骤还包括:检测所述原始特征数据是否存在异常特征数据;若存在,则对所述异常特征数据进行调整或舍去所述异常特征数据。14.根据权利要求13所述的方法,其特征在于,所述对所述原始特征进行预处理的步骤还包括:从原始特征数据中选取特征数据进行融合。15.根据权利要求13所述的方法,其特征在于,所述从原始特征数据中选取特征数据进行融合的步骤包括:计算两个特征数据之间的关联系数矩阵;根据关联系数矩阵,对有关联关系的特征数据进行加权求和处理。16.根据权利要求2或12或13或14或15所述的方法,其特征在于,所述重要度参数包括信息熵,所述针对经过预处理的原始特征数据计算重要度参数的步骤包括:针对经过预处理的原始特征数据计算信息熵。17.根据权利要求16所述的方法,其特征在于,所述根据所述重要度参数选取目标特征数据的步骤包括:将信息熵大于预设信息熵阈值的经过预处理的原始特征数据,作为目标特征数据。18.根据权利要求2或12或13或14或15所述的方法,其特征在于,所述重要度参数包括距离度量;所述针对经过预处理的原始特征数据计算重要度参数的步骤包括:两两计算任意两个经过预处理的原始特征数据之间的距离度量。19.根据权利要求18所述的方法,其特征在于,所述根据所述重要度参数选取目标特征数据的步骤包括:将两个经过预处理的原始特征数据之间的距离度量,与预设距离度量阈值进行比较;根据...

【专利技术属性】
技术研发人员:张亚楠叶舟王瑜杨洋苏飞
申请(专利权)人:阿里巴巴集团控股有限公司
类型:发明
国别省市:开曼群岛,KY

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1