【技术实现步骤摘要】
一种利用k均值聚类算法识别就业地的方法
本专利技术涉及城市就业地研究领域,具体涉及一种利用k均值聚类算法识别就业地的方法。
技术介绍
就业地是城市居民参与生产活动而构成的固定空间范围——时间上,在就业地参与生产活动的时间具有规律性,通常呈现白天人多,晚上人少的特征;地点固定性,是居民参与生产活动频繁使用的空间。因此,根据上述特征,本研究探讨的就业地是指城市居民参与生产活动的地理位置。传统的就业地识别思路主要依赖于用户白天数据的规律性,即通过用户白天在一个周期内不同时间节点出现在同一基站的次数累加起来判断是否为就业地,有一定的可操作性和合理性。目前,上述识别方法最大的问题是:首先,识别时间主要依赖单时段(白天)用户的基站移动情况,而很可能将上夜班、两班倒和三班倒(如医院和工厂等特定的企事业单元)的实际就业地忽略,甚是误判为用户居住地;其次,该方法从用户个体行为数据角度直接判断其就业地,预先假设了用户“白天上班,晚上居家”的行为模式,忽略了用户除就业以外的出行,缺少在微观空间单元内对大量用户数据进行统计分析以准确 ...
【技术保护点】
1.一种利用k均值聚类算法识别就业地的方法,其特征在于,包括以下步骤:/n根据区域内目标基站的经纬度信息数据生成泰森多边形,并以泰森多边形作为待识别单元;/n根据区域内的两个相邻工作日的手机信令数据进行清洗并统计所有用户进入和离开所述待识别单元行为发生的时间节点;/n将所有用户的最晚离开时间节点减去对应用户的最早进入时间节点获取用户的停留时间长度;/n采用k均值聚类算法对所述用户最晚离开时间节点、所述用户最早进入时间节点和所述用户的停留时间长度进行聚类分析获取质心,并根据所述质心计算所述质心之间进出时间点重叠/间隔区间;/n根据满足所述停留时间长度阈值的质心数量、所述停留时 ...
【技术特征摘要】
1.一种利用k均值聚类算法识别就业地的方法,其特征在于,包括以下步骤:
根据区域内目标基站的经纬度信息数据生成泰森多边形,并以泰森多边形作为待识别单元;
根据区域内的两个相邻工作日的手机信令数据进行清洗并统计所有用户进入和离开所述待识别单元行为发生的时间节点;
将所有用户的最晚离开时间节点减去对应用户的最早进入时间节点获取用户的停留时间长度;
采用k均值聚类算法对所述用户最晚离开时间节点、所述用户最早进入时间节点和所述用户的停留时间长度进行聚类分析获取质心,并根据所述质心计算所述质心之间进出时间点重叠/间隔区间;
根据满足所述停留时间长度阈值的质心数量、所述停留时间长度的正负方向和所述进出时间点重叠/间隔区间判断所述待识别单元是否为就业地及就业地种类。
2.根据权利要求1所述的识别就业地的方法,其特征在于,所述最晚离开时间节点的选取包含以下步骤:
若用户满足在第一天工作日存在离开所述待识别单元的记录,则选取所述第一天工作日的最晚离开时间节点为所述最晚离开时间节点;
若用户不满足在第一天工作日存在离开所述待识别单元的记录,则选取所述第二天工作日的最晚离开时间节点为所述最晚离开时间节点。
3.根据权利要求1所述的识别就业地的方法,其特征在于,所述质心之间进出时间点重叠/间隔区间的计算包含以下步骤:
任选两个满足所述停留时间长度阈值的质心记为质心A和质心B,将所述质心A和所述质心B的进出时间点分别记为(Ia,Ea)、(Ib,Eb);
根据L=||Ia-Eb|-(|Ia-Ea|+|Ib-Eb|)|,计算所述进出时间点重叠/间隔区间L。
4.根据权利要求1所述的识别就业地的方法,其特征在于,所述就业地种类的具体判断过程,包含以下步骤:
满足所述停留时间长度大于0、绝对值大于8h的质心数量大于等于1、所述进出时间点重叠/间隔区间存在且大于8h或者所述进出时间点重叠/间隔区间不存在,则判定所述待识别单元为一班就业地;
满足所述停留时间长度小于0、绝对值大于8h的质心数量大于等于1、所述进出时间点重叠/间隔区间不存在,则判定所述待识别单元为居住地;
满足所述停留时间长度大于0、绝对值大于5.5h的质心数量大于等于2、所述进出时间点重叠/间隔区间小于...
【专利技术属性】
技术研发人员:吴晓,胡明星,邵云通,张瑞琪,何彦,
申请(专利权)人:东南大学,
类型:发明
国别省市:江苏;32
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。