一种基于大数据的失业人口动态监测方法技术

技术编号:19320507 阅读:43 留言:0更新日期:2018-11-03 10:57
本发明专利技术提供的一种基于大数据的失业人口动态监测方法,包括以下步骤:根据个体的时空记录数据构建海量的个体出行轨迹;通过对先验样本进行训练,学习获得失业和就业人口在日常出行模式特征上的分界线;以此为基础对全体样本进行识别,判断其当前的就业状态;实时更新数据,对全体样本的就业情况进行监测和更新,计算失业人口占样本的比例;对样本进行扩样,获得全社会的在时间和空间两个维度上的失业人口分布情况及其统计结果。本发明专利技术的优点是能够便捷、高效地进行区域内实时失业人口和失业率的统计。

A dynamic monitoring method for unemployed population based on big data

The invention provides a dynamic monitoring method for unemployed population based on large data, which includes the following steps: constructing a large number of individual travel trajectories according to individual space-time record data; learning to obtain the demarcation line between unemployed and employed population on the characteristics of daily travel patterns by training a priori sample; and on the basis of this, establishing a demarcation line between unemployed and employed population on the characteristics of daily travel patterns. All samples are identified to judge their current employment status; real-time update data, monitoring and updating the employment situation of all samples, calculating the proportion of unemployed population in the sample; sample expansion, obtain the distribution of unemployed population and its statistical results in the time and space dimensions of the whole society. The advantages of the present invention are that the real-time statistics of unemployed population and unemployment rate in a region can be carried out conveniently and efficiently.

【技术实现步骤摘要】
一种基于大数据的失业人口动态监测方法
本专利技术涉及一种基于海量匿名加密时间序列定位数据的失业人口动态识别与监测的方法,以获得全社会的在时间和空间两个维度上的失业人口分布情况及其统计结果。
技术介绍
统计意义上失业人口的定义是在16岁及以上,有劳动能力,在调查期间无工作,当前有就业的可能并以某种方式寻找工作的人员。由于调查的局限性,失业人口统计又被分为城镇调查失业人口与城镇登记失业人口,其判断个人失业与否依赖于大量的前提条件。其中,城镇登记失业人口是指有非农业户口,在一定的劳动年龄(16岁至退休年龄)内,有劳动能力,无业且要求就业,并在当地劳动保障机构进行求职登记的人员。而调查失业人口的统计标准是在调查周内,未从事为取得报酬或经营利润的劳动,也没有处于就业定义中的暂时未工作状态,在某一特定期间内采取了某种方式寻找工作,当前如有工作机会可以在一个特定期间内应聘就业或从事自营职业。可以看到,尽管失业在日常经济活动频繁发生,但是由于常规统计的局限性,在具体的调查过程中被许多先决条件所限定,使得调查统计数据与经济活动中真实的失业人口相比存在一定的差距。近年来,随着信息技术的发展,数据信息量呈现爆炸式增长,数据来源越来越多,数据量也越来越庞大。其中,由手机、WIFI、物联网等信息传感器记录的数据已经成为大数据分析中最重要的数据来源,其较为完备的个体出行记录为大数据,尤其是交通大数据分析提供了很好的数据支持。以手机为例,至2015年,手机用户达到13.06亿,占到总人口的96%以上,手机终端设备持续产生的信号信息,形成了记录用户出行的一系列数据集,为分析城市人群出行、滞留等行为活动提供了重要的数据来源。
技术实现思路
本专利技术的目的是:利用大数据及其分析技术识别失业人口和就业人口在日常出行行为上的界限,以此识别并实时监测社会人口在就业和失业状态之间的转换情况,统计实时失业率和失业人口分布,观察失业状况在时间和空间上的变化趋势。为了达到上述目的,本专利技术的技术方案是提供了一种基于大数据的失业人口动态监测方法,其特征在于,包括以下步骤:步骤1、从传感器运营商获取匿名加密移动终端传感器数据,提取个体的出行数据,以此构建个体出行轨迹数据集,以时间T为间隔对个体出行轨迹数据集的空间位置进行插值,构建个体出行时空序列;步骤1的具体计算过程可以参考申请号为201710535039.7的中国专利以及申请号为201710843841.2的中国专利;步骤2、采用空间聚类算法,对个体出行时空序列数据上的节点进行空间聚类,提取出个体长时间停留的空间聚类簇,以个体在聚类内驻留的时间作为聚类的大小,并将基本地理信息赋予该聚类,人工选择出大量失业人口样本,提取停留时间超过T小时的聚类点,对聚类点进行分析判断,提取出居住地和主要日常停留地,得到失业人口日常在非居留地的停留状态分布状况,作为失业状态的判断依据;步骤3、基于步骤4获得的失业人口日常在非居留地的停留状态分布状况,判断全样本中每个个体的就业/失业过程和当前状态,从中筛选当前处于统计意义上的失业状态的人数,依照固定比例扩样,得到任一时间点的失业人口数和失业率;步骤4、对个体的日常出行数据进行实时更新,分析监测每个个体的就业/失业状态变化,实现对失业人口的实时监测工作,步骤5、针对判别得到的个体失业/就业情况数据,分时间维度和空间维度以及时间空间综合分析失业人口的时空变化。优选地,所述步骤2包括:步骤2.1、获取由步骤1得到的目标个体每天的个体出行时空序列数据,采用基于DBSCAN的空间聚类方法将个体每天在空间上的停留点聚类出来,获得个体每天可能的居住地和工作地;基于DBSCAN的空间聚类算法的设计和结构公开在申请号为201711133199.5的中国专利中;步骤2.2、在DBSCAN空间聚类算法的基础上,选择m条先验判定当天为失业人口的个体的个体出行时空序列,设总共有n1个不同个体,对个体出行时空序列进行聚类,获取所有节点数量大于阈值Thr-n的聚类;步骤2.3、根据聚类内节点数量,对聚类进行排序,提取失业个体聚类特征,包括以下步骤:步骤2.3.1、选取节点数量最多的聚类,提取该聚类的基础地理信息,若该聚类中最主要的地块类型为住宅,则定义此聚类为居住地,若不是住宅地块,则依聚类大小遍历,直到找到地块类型的居住地的聚类,若该聚类中的节点数量大于n2,将其定义为居住地,若小于n2,则舍弃该个体出行时空序列;步骤2.3.2、除居住地外,查找所有主要地块类型可能为工作地的聚类(包括非居住地住宅、工厂区、公共服务设施、商业设施等),记录其中规模最大的聚类的节点数;步骤2.3.3、记录每天规模最大的可能工作地聚类的节点数,对于同一个体,取其在其失业期间最大可能工作地的节点数的中位数,作为判别其是否失业的标准;步骤2.3.4、根据先验的n1个不同个体的失业期间最大可能工作地的节点数的中位数,统计出失业人员在可能工作地停留时间的中位数和阈值范围threshold_q;步骤2.4、查找所有状态从正常就业到非正常就业再到正常就业的个体样本(为剔除离职后的无就业意愿者),统计其从正常就业再到正常再就业之间的时间,计算其平均值,取其十分之一为连续失业待观察天数阈值threshold_t,若个体连续非正常就业天数小于threshold_t,则其没有失业的概率大于90%,即满足0.1水平显著。优选地,所述步骤3包括:步骤3.1、遍历所有样本,对样本中每个个体每天的个体出行时空序列数据进行聚类,将其按照内部节点数量大小进行排序;步骤3.2、对于同一个体,比较其所有个体出行时空序列的聚类情况,选取主要地块类型为住宅的聚类中,节点数量最多的聚类作为个体的居住地,将其剔除后,选取剩余所有聚类中地块类型为可能工作地(包括商业用地、工厂、住宅、公共服务设施等)中节点数量最多的聚类作为其可能的工作地;步骤3.3、将个体的就业情况状态分为就业、失业、失业待观察三种,依照个体在个体出行时空序列上每天在可能工作地聚类的节点数与阈值范围threshold_q的关系判断个体的就业情况:若个体之前处于就业状态,且当天在可能工作地聚类的节点数大于阈值范围thresholdq,则判定个体当天为就业状态;若个体之前处于就业状态,且当天在可能工作地聚类的节点数小于阈值范围threshold_q,则将个体当天的就业状况改为失业待观察,失业待观察天数为1;若个体之前处于失业待观察状态,且当天在可能工作地聚类的节点数大于阈值范围threshold_q,则判定个体当天的就业状态为就业,失业待观察天数清零;若个体之前处于失业待观察状态,且当天在可能工作地聚类的节点数小于阈值范围threshold_q,则判定个体当天的就业状态为失业待观察,失业待观察天数加1,若个体累积的连续失业待观察天数大于阈值threshold_t,则判定个体处于失业状态,将其之前的失业待观察时期改为失业期;若个体之前处于失业状态和没有就业意愿状态,且当天在可能工作地聚类的节点数大于阈值范围threshold_q,则判定个体当天结束事业状态,重新变成就业状态,记录下其可能工作地的空间位置和地理属性;若个体之前处于失业状态,且当天在可能工作地聚类的节点数小于阈值范围threshold_q,本文档来自技高网
...

【技术保护点】
1.一种基于大数据的失业人口动态监测方法,其特征在于,包括以下步骤:步骤1、从传感器运营商获取匿名加密移动终端传感器数据,提取个体的出行数据,以此构建个体出行轨迹数据集,以时间T为间隔对个体出行轨迹数据集的空间位置进行插值,构建个体出行时空序列;步骤2、采用空间聚类算法,对个体出行时空序列数据上的节点进行空间聚类,提取出个体长时间停留的空间聚类簇,以个体在聚类内驻留的时间作为聚类的大小,并将基本地理信息赋予该聚类,人工选择出大量失业人口样本,提取停留时间超过T小时的聚类点,对聚类点进行分析判断,提取出居住地和主要日常停留地,得到失业人口日常在非居留地的停留状态分布状况,作为失业状态的判断依据;步骤3、基于步骤4获得的失业人口日常在非居留地的停留状态分布状况,判断全样本中每个个体的就业/失业过程和当前状态,从中筛选当前处于统计意义上的失业状态的人数,依照固定比例扩样,得到任一时间点的失业人口数和失业率;步骤4、对个体的日常出行数据进行实时更新,分析监测每个个体的就业/失业状态变化,实现对失业人口的实时监测工作,步骤5、针对判别得到的个体失业/就业情况数据,分时间维度和空间维度以及时间空间综合分析失业人口的时空变化。...

【技术特征摘要】
1.一种基于大数据的失业人口动态监测方法,其特征在于,包括以下步骤:步骤1、从传感器运营商获取匿名加密移动终端传感器数据,提取个体的出行数据,以此构建个体出行轨迹数据集,以时间T为间隔对个体出行轨迹数据集的空间位置进行插值,构建个体出行时空序列;步骤2、采用空间聚类算法,对个体出行时空序列数据上的节点进行空间聚类,提取出个体长时间停留的空间聚类簇,以个体在聚类内驻留的时间作为聚类的大小,并将基本地理信息赋予该聚类,人工选择出大量失业人口样本,提取停留时间超过T小时的聚类点,对聚类点进行分析判断,提取出居住地和主要日常停留地,得到失业人口日常在非居留地的停留状态分布状况,作为失业状态的判断依据;步骤3、基于步骤4获得的失业人口日常在非居留地的停留状态分布状况,判断全样本中每个个体的就业/失业过程和当前状态,从中筛选当前处于统计意义上的失业状态的人数,依照固定比例扩样,得到任一时间点的失业人口数和失业率;步骤4、对个体的日常出行数据进行实时更新,分析监测每个个体的就业/失业状态变化,实现对失业人口的实时监测工作,步骤5、针对判别得到的个体失业/就业情况数据,分时间维度和空间维度以及时间空间综合分析失业人口的时空变化。2.如权利要求1所述的一种基于大数据的失业人口动态监测方法,其特征在于,所述步骤2包括:步骤2.1、获取由步骤1得到的目标个体每天的个体出行时空序列数据,采用基于DBSCAN的空间聚类方法将个体每天在空间上的停留点聚类出来,获得个体每天可能的居住地和工作地;步骤2.2、在DBSCAN空间聚类算法的基础上,选择m条先验判定当天为失业人口的个体的个体出行时空序列,设总共有n1个不同个体,对个体出行时空序列进行聚类,获取所有节点数量大于阈值Thr-n的聚类;步骤2.3、根据聚类内节点数量,对聚类进行排序,提取失业个体聚类特征,包括以下步骤:步骤2.3.1、选取节点数量最多的聚类,提取该聚类的基础地理信息,若该聚类中最主要的地块类型为住宅,则定义此聚类为居住地,若不是住宅地块,则依聚类大小遍历,直到找到地块类型的居住地的聚类,若该聚类中的节点数量大于n2,将其定义为居住地,若小于n2,则舍弃该个体出行时空序列;步骤2.3.2、除居住地外,查找所有主要地块类型可能为工作地的聚类,记录其中规模最大的聚类的节点数;步骤2.3.3、记录每天规模最大的可能工作地聚类的节点数,对于同一个体,取其在其失业期间最大可能工作地的节点数的中位数,作为判别其是否失业的标准;步骤2.3.4、根据先验的n1个不同个体的失业期间最大可能工作地的节点数的中位数,统计出失业人员在可能工作地停留时间的中位数和阈值范围threshold_q;步骤2.4、查找所有状态从正常就业到非正常就业再到正常就业的个体样本,统计其从正常就业再到正常再就业之间的时间,计算其平均值,取其十分之一为连续失业待观察天数阈值threshold_t,若个体连续非正常就业天数小于threshold_t,则其没有失业的概率大于90%,即满足0.1水平显著。3.如权利要求2所述的一种基于大数据的失业人口动态监测方法,其特征在于,所述步骤3包括:步骤3.1、遍历所有样本,对样本中每个个体每天的个体出行时空序列数据进行聚类,将其按照内部节点数量大小进行排序;步骤3.2、对于同一个体,比较其所有个体出行时空序列的聚类情况,选取主要地块类型为住宅的聚类中,节点数量最多的聚类作为个体的居住地,将其剔除后,选取剩余所有聚类中地块类型为可能工作地中节点数量最多的聚类作为其可能的工作地;步骤3.3、将个体的就业情况状态分为就业、失业、失业待观察三种,依照个体在个体出行时空序列上每天在可能工作地聚类的节点数与阈值范围threshold_q的关系判断个体的就业情况:若个体之前处于就业状态,且当天在可能工作地聚类的节点数大于阈值范围threshold_q,则判定个体当天为就业状态;若个体之前处于就业状态,且当天在可能工作地聚类的节点数小于阈值范围threshold_q,则将个体当天的就业状况改为失业待观察,失业待观察天数为1;若个体之前处于失业待观察状态,且当天在可能工作地聚类的节点数大于阈值范围threshold_q,则判定个体当天的就业状态为就业,失业待观察天数清零;若个体之前处于失业待观察状态,且当天在可能工作地聚类的节点数小于阈值范围threshold_q,则判定个...

【专利技术属性】
技术研发人员:张颖顾高翔刘杰吴佳玲郭鹏宫龙
申请(专利权)人:上海世脉信息科技有限公司
类型:发明
国别省市:上海,31

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1