一种用户家庭工作地址挖掘流程制造技术

技术编号:19823892 阅读:36 留言:0更新日期:2018-12-19 15:27
本发明专利技术涉及一种用户家庭工作地址挖掘流程,用户的地理位置信息可以通过各种途径获取到,在地图上展示出来就是许多点组成的疏密不等的集群,一个基本常识就是普通用户的家庭地址和工作地址是点相对密集的区域,首先用DBSCAN等基于空间聚类的方式找出点相对密集的区域,并取前两个集群点数最多的集群为用户家和工作地址所在地。然后根据两个集群的点抽取一些特征(比如集群总点数、集群点总时长、集群点时间波动性、集群点时间特征、集群点星期特征、集群点周边POI(place of interest)信息等)作为特征,利用SVM或Logistics模型训练,判断某个集群是家还是工作地址。然后用一种调优后的KMeans算法在集群上聚类,作为用户的家庭或者工作地址。

【技术实现步骤摘要】
一种用户家庭工作地址挖掘流程
本专利技术涉及一种挖掘流程,具体涉及一种用户家庭工作地址挖掘流程。
技术介绍
针对出普通的单家庭和单工作地址的用户利用GPS信息和POI信息挖掘出用户家庭和工作地址。家庭和工作地址是用户在日常生活中的主要活动地点,智能手机和信息技术的不断发展与普及为人们的日常生活带来了极大的便利,除了通话、上网等传统应用之外,相关手机应用及LOT设备等采集数据也是用于用户行为模式挖掘的重要数据来源,例如家庭和工作地址。然而,相关工作面临着诸多挑战,包括轨迹数据漂移、位置精度高低不一以及行程的起始终止点不精确。
技术实现思路
针对上述问题,本专利技术的主要目的在于提供一种数据挖掘算法:基于DBSCAN算法找到用户重要位置的集群和基于集群内部的KMeans算法找到集群中心作为常去地点标识。本专利技术是通过下述技术方案来解决上述技术问题的:一种用户家庭工作地址挖掘流程,所述用户家庭工作地址挖掘流程包括如下工作步骤:(1)、将所有用户地理位置信息经过预处理后,以用户分组后,各用户数据按时间降序排列,选择最近一段时间的行程的起始点和终止点的经纬度及其时间作为数据源;(2)、利用DBS本文档来自技高网...

【技术保护点】
1.一种用户家庭工作地址挖掘流程,其特征在于:所述用户家庭工作地址挖掘流程包括如下工作步骤:(1)、将所有用户地理位置信息经过预处理后,以用户分组后,各用户数据按时间降序排列,选择最近一段时间的行程的起始点和终止点的经纬度及其时间作为数据源;(2)、利用DBSCAN算法并选取不同的超参数组合进行调优计算出最优的各个用户最优的地理位置集群,并选出集群总点数靠前n个集群作为备选集群,然后计算点数最多和最少的备选集群的总点数只差和所有备选集群总点数的比值,如果大于阈值则继续(3),否则结束判断;(3)、针对所有的备选集群,利用KMeans算法计算该集群的一个中心点作为备选集群的中心;(4)、遍历某用...

【技术特征摘要】
1.一种用户家庭工作地址挖掘流程,其特征在于:所述用户家庭工作地址挖掘流程包括如下工作步骤:(1)、将所有用户地理位置信息经过预处理后,以用户分组后,各用户数据按时间降序排列,选择最近一段时间的行程的起始点和终止点的经纬度及其时间作为数据源;(2)、利用DBSCAN算法并选取不同的超参数组合进行调优计算出最优的各个用户最优的地理位置集群,并选出集群总点数靠前n个集群作为备选集群,然后计算点数最多和最少的备选集群的总点数只差和所有备选集群总点数的比值,如果大于阈值则继续(3),否则结束判断;(3)、针对所有的备选集群,利用KMeans算法计算该集群的一个中心点作为备选集群的中心;(4)、遍历某用户经过时间排序后的所有行程点,从第二段行程的开始依次判断是否起点的位置与上一段行程的终止位置距离小于第一阈值,如果不是则继续下段行程判断,如果小于第一阈值,则依次判断距离所有备选集群中心的距离是否小于第二阈值,则该段行程加入对应备选集群,如果是则继续(5),否则继续下段行程判断;(5)、遍历某用户经过时间排序后的所有行程点...

【专利技术属性】
技术研发人员:鲍明广
申请(专利权)人:上海中通吉网络技术有限公司
类型:发明
国别省市:上海,31

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1