【技术实现步骤摘要】
一种问题房源识别方法和系统
本专利技术涉及计算机
,更具体地,涉及一种问题房源识别方法和系统。
技术介绍
目前,房产交易在生活中越来越频繁。据统计,二手房的交易量已经占据了房产交易的半壁江山。随着互联网技术的发展,出现了越来越多的基于互联网的二手房交易平台。二手房交易平台如何保证房源的真实性,一直是二手交易平台的业界难题。现有的对房源的真实性的管理,基本上都是通过客服人员进行人工回访,与业主进行电话沟通,核实房源的相关信息,确认房源基础信息的真实性。人工回访对人力成本消耗比较大,且只能对新增房源进行抽检,不能覆盖包括新增房源和库存房源的全量房源的监管。据统计,库存房源达房源总量的90%,而库存房源中的问题房源达举报的问题房源量的87%,库存房源为问题房源的高发区。
技术实现思路
为克服人工判断问题房源存在的耗费人力成本大的不足,本专利技术提供一种问题房源识别方法和系统。根据本专利技术的一个方面,提供一种问题房源识别方法,包括:S1、获取房源的特征,所述特征包括房源的基础信息的特征、与经纪行为有关的特征及与业主行为有关的特征;S2、将房源的所述特征的值输入训练好的 ...
【技术保护点】
一种问题房源识别方法,其特征在于,包括:S1、获取房源的特征,所述特征包括房源的基础信息的特征、与经纪行为有关的特征及与业主行为有关的特征;S2、将房源的所述特征的值输入训练好的迭代决策树模型,识别信息维护不当的房源,将所述信息维护不当的房源确定为问题房源。
【技术特征摘要】
1.一种问题房源识别方法,其特征在于,包括:S1、获取房源的特征,所述特征包括房源的基础信息的特征、与经纪行为有关的特征及与业主行为有关的特征;S2、将房源的所述特征的值输入训练好的迭代决策树模型,识别信息维护不当的房源,将所述信息维护不当的房源确定为问题房源。2.根据权利要求1所述的方法,其特征在于,所述训练好的迭代决策树模型通过以下步骤获取:根据一定数量的已知属性的房源,构建训练样本集;所述已知属性的房源包括真房源和信息维护不当的房源;根据所述训练样本集,确定使分类误差最小的切分变量和切分点,生成决策树;所述切分变量为房源的一个特征或多个特征的组合;所述切分点用于根据所述切分变量的值区分真房源和信息维护不当的房源;训练多棵决策树,每棵决策树基于上一棵决策树的分类误差进行训练,修正所述切分变量和划分点,使得每棵决策树的输出值与上一棵决策树的分类误差的差值最小,获得包括多棵决策树的所述迭代决策树模型。3.根据权利要求1或2所述的方法,其特征在于,所述房源的基础信息的特征至少包括:所述房源的房产证是否完备、业主身份证是否完备、委托协议书是否完备、契税发票是否完备、业主是否为贵宾、联系电话、录入面积、在楼盘数据库中的面积、挂牌价格和所在小区的房屋平均价格;所述与经纪行为有关的特征至少包括:经纪人带客户看房源的次数和/或时间、经纪人与业主通话的次数和/或时间、经纪人对房源进行文字描述的次数和/或时间、经纪人对房源进行实地查看的次数和/或时间,以及经纪人拿到钥匙的时间;所述与业主行为有关的特征至少包括:业主对房源的评论的次数和/或时间、业主通知经纪人需要发布的消息的次数和/或时间、业主曝光房源的次数和/或时间、业主调整挂牌价格的次数和/或时间,以及业主行为使用的终端类型。4.根据权利要求2所述的方法,其特征在于,所述根据一定数量的已知属性的房源,构建训练样本集的具体步骤包括:对所述一定数量的已知属性的房源进行采样,得到所述训练样本集。5.根据权利要求4所述的方法,其特征在于,所述通过每棵所述决策树修正上一棵所述决策树中的切分变量和划分点,获得包括多棵所述决策树的所述迭代决策树模型之后还包括:利用所述迭代决策树模型对预估房源集中...
【专利技术属性】
技术研发人员:刘宇,钱大伟,李君阳,
申请(专利权)人:链家网北京科技有限公司,
类型:发明
国别省市:北京,11
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。