一种基于快递数据预测城市房屋需求的方法技术

技术编号:20120318 阅读:34 留言:0更新日期:2019-01-16 12:31
本发明专利技术提供了一种基于快递数据预测城市房屋需求的方法,涉及城市多源数据挖掘与分析领域,通过分析快递数据体现出来的信息估算小区常驻人口在一定时间范围的流入流出情况,结合其他数据源衡量小区对于人们的吸引力,在已知上一时间段的相关信息的情况下,预测下一时间段小区房屋的需求变化。本发明专利技术通过快递数据表现出的用户的快递行为规律,以及分析快递行为特征与用户离开现居住的小区的关联关系,估算小区整体常驻人口流动的可能性,进而结合小区对用户的吸引力和已知该事件段的小区房屋需求变化,训练回归模型,估算下一时间段的小区房屋需求。

A Method of Predicting Urban Housing Demand Based on Express Data

The invention provides a method for predicting urban housing demand based on express data, involving the field of urban multi-source data mining and analysis, estimating the inflow and outflow of resident population in a certain period of time by analyzing the information reflected in express data, measuring the attractiveness of residential area to people with other data sources, and the situation of relevant information in a known period of time. Next, forecast the housing demand change in the next period. The invention estimates the possibility of resident population flow in the whole community by analyzing the relationship between the characteristics of express delivery behavior and the user leaving the residential area, and then trains regression model to estimate the residential area housing in the next period according to the attraction of the residential area to the user and the change of the residential housing demand in the known event section by analyzing the law of the user's express delivery behavior and the relationship between the characteristics of express delivery behavior and the user leaving the residential area. Demand.

【技术实现步骤摘要】
一种基于快递数据预测城市房屋需求的方法
本专利技术涉及城市多源数据挖掘与分析领域,尤其是一种预测城市房屋需求的方法。
技术介绍
随着经济的发展和人民生活水平的提高,购买房屋成为社会生活的基本需要,预测住宅小区房屋的需求,有助于市场管理调控,同时有利于城市的规划建设。与此同时,随着快递服务行业的发展和网络购物的普及,越来越多的用户选择使用快递进行物品的传送,由此产生的快递数据包含丰富的信息(如:收发快递时间,收发快递地址,物品名称、重量等)可以体现出个人的快递行为以及购买偏好。同时,将处于同一区域的个人快递数据汇聚到一起,可以从一定程度上反映该区域人群的行为特征(如:小区常驻人口的整体快递频率,小区常驻人口流入流出情况等)。反映小区房屋需求变化的一个重要方面就是小区中常驻人口的流动情况。目前已有大量工作对一定范围内人群的移动情况进行分析和估计,通常利用区域内人群的通话记录或者出行记录(如:行车轨迹、乘车记录等)对人群的日常移动路线或者出行模式进行分析挖掘,然而常驻人口的流动情况是一个经过长期才能观察到的现象,已有方法面向的是短时间内人群的移动情况,因此已有方法中利用人群日常移动模式分析小区常驻人口流动情况并不适合。而且,现有方法中,未有提出利用小区住户快递数据分析和估计小区常驻人口的流动情况的方法。除了分析人口流动情况,为了预测小区房屋的需求,还需要考虑影响人们选择购买或出售小区房屋的因素。有一些已有工作考虑多种因素对房价进行估算,专利CN107169847A提出了一种动态调整短租房房价的系统,结合房源数据、房东信息、住户需求信息以及成交历史信息提取特征,之后通过人工智能模型进行房价估算。专利CN103578057A提出了一种基于人工神经网络统计学模型的房地产价值估算方法,考虑了小区物业属性、环境因素等采用数据挖掘和机器学习的方法,挑选对于房产价格影响最大的因子。而对于人们选择是否购买小区房屋,房价只是其中一个因素,还需要考虑周边环境。在已有方法中,未有提出结合小区常驻人口流动情况和小区本身对住户的吸引力两个方面对小区房屋需求进行预测的方法。由于大量个人数据的汇集和分析能够反映出群体的特征,通过城市快递数据挖掘小区常驻人口的流动情况,在公众安全、城市治安管理等应用场景有重要意义。除此之外,将人口流动情况结合小区的吸引力估计小区未来一段时间的房屋需求变化,在商业领域、城市规划、房价管控等应用场景同样具有意义。
技术实现思路
为了克服现有技术的不足,针对现有人群移动性和房价预测方法不能够根据小区常驻人口流动性预测小区房屋的需求的局限性,本专利技术提出了一种基于快递数据结合小区相关多源数据进行城市小区房屋需求的预测方法,其主要通过分析快递数据体现出来的信息估算小区常驻人口在一定时间范围的流入流出情况,结合其他数据源(小区信息、周边兴趣点信息等)衡量小区对于人们的吸引力,在已知上一时间段的相关信息的情况下,预测下一时间段小区房屋的需求变化,从而将多源数据关联起来,其在公众安全、城市治安管理以及商业领域、城市规划、房价管控等应用场景具有重要意义。本专利技术解决其技术问题所采用的技术方案包括以下步骤:步骤1:根据每一条快递数据的发件地址和收件地址,按照小区分类,划分出同属于同一小区的用户数据;先通过在线地图提供的接口获取快递数据中各个地址对应的经纬度,利用DBSCAN聚类算法将各个地址根据经纬度之间的距离进行聚类,聚出的所有类簇中除了小区类簇之外还包含有其他类簇,再根据类簇中地址包含的与小区相关的关键词筛选出各个小区对应的类簇,得到筛选后包含小区类簇的数据;步骤2:针对步骤1中筛选出的含有小区类簇的用户数据,将用户数据中“用户电话”字段来唯一识别用户,将小区中相同用户的历史快递数据按照用户电话信息聚合归类,提取每个用户的个人快递行为特征,个人快递行为特征包括:用户的快递频次、用户两次快递的平均时间间隔、用户快递的物品种类、用户快递的物品重量、用户快递交互双方地址之间的物理距离,进而构建同一个小区内每个用户快递行为特征的矩阵Rtm,矩阵Rtm的每一行代表一个用户,每一列代表一种快递行为特征;步骤3:步骤2中得到的矩阵Rtm会有部分缺失,利用正则化奇异值分解(RSVD,RegularizedSingularValueDecomposition)方法将矩阵Rtm中的空缺值补全,补全方法的步骤如下:步骤2.1:首先将同一行政区中的各个小区的快递行为特征矩阵合并到同一个矩阵中,之后将矩阵进行分解,表示为公式(1):其中,U表示用户的数量,F表示快递行为特征的数量,K表示所分解出的矩阵的阶数,本专利技术K取为40;此外,d表示各个行政区(district),t表示时间窗口,则表示在时间窗t的范围内,位于行政区d中的所有小区的快递行为特征矩阵,且该矩阵为U×F维,与表示分解得到的两个矩阵,维度分别为U×K和K×F;步骤2.2:由分解得到的矩阵与计算原矩阵中的空缺值,表示为公式(2):其中,puk表示矩阵的第u行数据,qkf表示矩阵的第f列数据,bu为一个偏置量,表示小区本身的特征,由puk和qkf进行内积运算得到,表示矩阵的第u行第f列位置的值,分解得到的矩阵与通过梯度下降法学习得到,当公式(3)达到最小值时,即确定了与其中最后三项为惩罚因子,参数λ取0.01,通过梯度下降法,不断更新与当中的值,最终得到使得公式(3)达到最小值的矩阵,即最接近原矩阵的分解矩阵,并根据原矩阵当中的空缺值的位置将对应的与的行和列进行内积计算得到补全值;步骤4:根据步骤3中补全的特征,计算每个用户在快递时间、快递物品类型、快递物品重量结合交互方距离三个方面离开小区的流动可能性,每个用户的流动可能性,即离开小区的可能性,详细步骤如下:首先建立用户快递行为特征与用户流动性之间的关系模型,分别定义快递行为产生的时间,用户快递的物品类型,用户快递物品的重量和距离与用户离开小区的可能性的关系,快递行为的时间与用户离开小区的可能性的关系表示为:其中,表示在时间窗t中第m个小区的第n个用户在快递行为的时间方面估算出的离开该小区的可能性,ts和te表示时间窗的开始和结束时间,tf和tl表示在时间窗内第一次快递行为以及最后一次快递行为发生的时间,公式(4)表示在时间窗内,最近有过快递行为的用户在一段时间内离开该小区的可能性,时间窗口的大小根据用户两次快递间隔的分布确定;用户快递的物品类型与用户离开小区的可能性的关系表示为:其中,表示在时间窗t中第m个小区的第n个用户在快递物品类型的方面估算出的离开该小区的可能性,Int表示第n个用户快递的物品的类型,ωI表示该物品类型在反映用户离开小区的可能性方面的权重,所述的物品类型使用电子商务平台对于商品的17种分类;针对用户快递物品的重量和距离与用户离开小区的可能性的关系表示为公式(6)其中,表示在时间窗t中第m个小区的第n个用户在快递物品重量和运送距离的方面估算出的离开小区的可能性,wnt表示快递物品的重量,disnt表示快递运送的距离;每个用户的流动可能性用向量表示为:则同一个小区当中所有用户的流动可能性构建矩阵为:对矩阵的每一列取平均运算得到第m个小区关于上述三个方面的小区整体人口流动可能性,用向量表示为:将城市中所有通过快递地本文档来自技高网
...

【技术保护点】
1.一种基于快递数据预测城市房屋需求的方法,其特征在于包括下述步骤:步骤1:根据每一条快递数据的发件地址和收件地址,按照小区分类,划分出同属于同一小区的用户数据;先通过在线地图提供的接口获取快递数据中各个地址对应的经纬度,利用DBSCAN聚类算法将各个地址根据经纬度之间的距离进行聚类,聚出的所有类簇中除了小区类簇之外还包含有其他类簇,再根据类簇中地址包含的与小区相关的关键词筛选出各个小区对应的类簇,得到筛选后包含小区类簇的数据;步骤2:针对步骤1中筛选出的含有小区类簇的用户数据,将用户数据中“用户电话”字段来唯一识别用户,将小区中相同用户的历史快递数据按照用户电话信息聚合归类,提取每个用户的个人快递行为特征,个人快递行为特征包括:用户的快递频次、用户两次快递的平均时间间隔、用户快递的物品种类、用户快递的物品重量、用户快递交互双方地址之间的物理距离,进而构建同一个小区内每个用户快递行为特征的矩阵

【技术特征摘要】
1.一种基于快递数据预测城市房屋需求的方法,其特征在于包括下述步骤:步骤1:根据每一条快递数据的发件地址和收件地址,按照小区分类,划分出同属于同一小区的用户数据;先通过在线地图提供的接口获取快递数据中各个地址对应的经纬度,利用DBSCAN聚类算法将各个地址根据经纬度之间的距离进行聚类,聚出的所有类簇中除了小区类簇之外还包含有其他类簇,再根据类簇中地址包含的与小区相关的关键词筛选出各个小区对应的类簇,得到筛选后包含小区类簇的数据;步骤2:针对步骤1中筛选出的含有小区类簇的用户数据,将用户数据中“用户电话”字段来唯一识别用户,将小区中相同用户的历史快递数据按照用户电话信息聚合归类,提取每个用户的个人快递行为特征,个人快递行为特征包括:用户的快递频次、用户两次快递的平均时间间隔、用户快递的物品种类、用户快递的物品重量、用户快递交互双方地址之间的物理距离,进而构建同一个小区内每个用户快递行为特征的矩阵矩阵的每一行代表一个用户,每一列代表一种快递行为特征;步骤3:步骤2中得到的矩阵会有部分缺失,利用正则化奇异值分解方法将矩阵中的空缺值补全,补全方法的步骤如下:步骤2.1:首先将同一行政区中的各个小区的快递行为特征矩阵合并到同一个矩阵中,之后将矩阵进行分解,表示为公式(1):其中,U表示用户的数量,F表示快递行为特征的数量,K表示所分解出的矩阵的阶数,本发明K取为40;此外,d表示各个行政区,t表示时间窗口,则表示在时间窗t的范围内,位于行政区d中的所有小区的快递行为特征矩阵,且该矩阵为U×F维,与表示分解得到的两个矩阵,维度分别为U×K和K×F;步骤2.2:由分解得到的矩阵与计算原矩阵中的空缺值,表示为公式(2):其中,puk表示矩阵的第u行数据,qkf表示矩阵的第f列数据,bu为一个偏置量,表示小区本身的特征,由puk和qkf进行内积运算得到,表示矩阵的第u行第f列位置的值,分解得到的矩阵与通过梯度下降法学习得到,当公式(3)达到最小值时,即确定了与其中最后三项为惩罚因子,参数λ取0.01,通过梯度下降法,不断更新与当中的值,最终得到使得公式(3)达到最小值的矩阵,即最接近原矩阵的分解矩阵,并根据原矩阵当中的空缺值的位置将对应的与的行和列进行内积计算得到补全值;步骤4:根据步骤3中补全的特征,计算每个用户在快递时间、快递物品类型、快递物品重量结合交互方距离三个方面离开小区的流动可能性,每个用户的流动可能性,即离开小区的可能性,详细步骤如下:建立用户快递行为特征与用户流动性之间的关系模型,分别定义快递行为产生的时间,用户快递的物品类型,用户快递物品的重量和距离与用户离开小区的可能性的关系,快递行为的时间与用户离开小区的可能性的关系表示为:其中,表示在时间窗t中第m个小区的第n个用户在快递行为的时间方面估算出的离开该小区的可能性,ts和te表示时间窗的开始和结束时间,tf和tl表示在时间窗内第一次快递行为以及最后一次快递行为发生的时间,公式(4)表示在时间窗内,最近有过快递行为的用户在一段时间内离开该小区的可能性,时间窗口的大小根据用户两次快递间隔的分布确定;用户快递的物品类型与用户离开小区的可能性的关系表示为:其中,表示在时间窗t中第m个小区的第n个用户在快递物品类型的方面估算出的离开该小区的可能性,Int表示第n个用户快递的物品的类型,ωI表示该物品类型在反映用户离开小区的可能性方面的权重,所述的物品类型使用电...

【专利技术属性】
技术研发人员:於志文李青洋郭斌路新江
申请(专利权)人:西北工业大学
类型:发明
国别省市:陕西,61

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1