本发明专利技术提供一种基于移动通信大数据的用户工作地识别方法,利用电信运营商信令数据,对每个IMSI识别号所在的基站位置、进出基站时间信息进行采集并存储;每次读取一个IMSI,找到每个具体基站所对应的经纬度,计算两两基站之间的距离;按照时间顺序将采集的原始信令数据转化为运行轨迹的距离,按照距离信息确定IMSI在基站的停留时长,并根据工作日与休息日停留时间对工作地进行预测。
【技术实现步骤摘要】
一种基于移动通信大数据的用户工作地识别方法
本专利技术涉及移动通信
,具体涉及一种利用移动通信大数据对工作地进行识别的方法。
技术介绍
鉴于当前城市人口调控需求,以及随着移动通信规模的不断扩大以及技术的不断发展,大规模通信数据特别是轨迹数据的存储已实现,因此以移动通信大数据分析为研究手段对城市人口规模及流动情况进行估算已成为可能。统计部门需要运用大数据开展人口数据的动态监测,完善现有的人口监测体系,探索产业调控、功能布局与人口发展之间的关系,并实现定期追踪掌握疏解人口流向,及时预警区域人口变化趋势。相比于传统的研究方法,基于大数据统计及人口监测将具有更高的可信度和准确性。职住平衡问题直接影响交通功能的良性运转与社会和谐。所谓职住平衡是城市规划领域的一个术语,其专业和学术领域的解释就是指在某一给定的地域范围内,居民中劳动者的数量和就业岗位的数量大致相等,大部分居民可以就近工作;通勤交通可采用步行、自行车或者其他的非机动车方式;即使是使用机动车,出行距离和时间也比较短,限定在一个合理的范围内,这样就有利于减少机动车尤其是小汽车的使用,从而减少交通拥堵和空气污染。居民工作地统计是进行职住平衡分析的重要前提,而有效的工作地预测方法可以减少统计误差,提高统计的准确度。
技术实现思路
本专利技术的目的在于提供一种基于移动通信大数据的的用户工作地识别方法,通过移动用户的轨迹信息挖掘出其中隐含的工作地信息,为城市规划管理提供有力的数据支撑。为实现上述目的,本专利技术采取以下技术方案:一种基于移动通信大数据的用户工作地识别方法,其特征在于:(1)数据采集:利用电信运营商信令数据,对每个IMSI识别号所在的基站位置、进出基站时间信息进行采集并存储,得到每个IMSI的移动轨迹数据;(2)数据预处理:对进出基站缺失信令进行插值补偿,如果用户在统计时间段内只有进入某基站时间而没有离开该基站时间,或者只有离开某基站时间而没有进入该基站时间,则对缺失数据进行插补,插补时间点是该统计时间段的起始时间和结束时间;(3)数据筛选:每次读取一个IMSI及其在早九点到晚六点之间所访问过的所有基站,根据数据采集步骤中得到的轨迹数据,将一个IMSI所对应的所有工作时间段内所访问过的基站列成一个统计表,并进一步统计出在每个基站停留的时长;(4)距离计算:选择早九点到晚六点之间,该IMSI驻留时间最长的三个基站作为种子工作地,并根据每个具体基站所对应的经纬度,计算每个种子工作地对应的基站到所述统计表中其他各个基站之间的距离;如果两个基站间距离小于1000米,则将他们合并一个种子工作地,并将在两个基站停留的时长相叠加;(5)候选工作地确定:分别计算每个种子工作地与其他种子工作地之间的距离,如果两个种子工作地的距离小于1000米,则将两个种子工作地合并为一个,并将在这两个种子工作地停留的时长相叠加;对于驻留时间超过5小时的种子工作地标记为候选工作地;(6)工作地预测:按照上述步骤(5)的方法,统计出一个月内每天的候选工作地;统计出一个月内工作日到每个候选工作地的次数和休息日到该候选工作地的次数,并计算出二者的比值α:α=(工作日到候选工作地的次数+k)/(休息日到候选工作地的次数+k),其中K是一个大于0的常数,为了防止分母为0;在一个月的计算数据中选择值最大的α,其所对应的候选工作地即认定为该IMSI的工作地。本专利技术通过移动用户的移动轨迹数据统计其在所访问基站驻留的时长,并通过所访问基站之间的距离对用户的工作地进行预测,数据来源可靠,判断方法简单,预测结果准确度高,对利用通信大数据进行人口统计和监测的做法提供了有利支持。具体实施方式本专利技术的具体实现方式如下:(1)数据采集:利用电信运营商信令数据,对每个IMSI识别号所在的基站位置、进出基站时间信息进行采集并存储;本专利技术所采用的数据来自移动运营商的信令数据,包括:用户手机号码-IMSI(国际移动用户识别码:InternationalMobileSubscriberIdentificationNumber);位置区识别码lac:用于标识不同的位置区;基站编号ci:与位置区识别码(lac)结合,用于识别网络中覆盖的小区;IMSI进入基站的时间、离开该基站的时间。(2)数据预处理:对进出基站缺失信令进行插值补偿。为保证数据的完整性,如果用户在统计时间段内只有进入某扇区时间而没有离开该扇区时间,或者只有离开某扇区时间而没有进入该扇区时间,则需要对缺失数据进行插补,插补时间点是该统计时间段的起始时间和结束时间。例如A用户在5月1日23:00:00进入扇区X,在5月2日7:00:00离开扇区X,且A用户进入扇区Y的时间为5月2日23:00:00,而离开的时间为5月3日的7:00:00,当采集5月2日A用户的信息时将缺失进入扇区X的时间点和离开扇区Y的时间点,因此需要插补进入扇区X的时间为5月2日的00:00:00,离开扇区Y的时间点为5月2日23:59:59。(3)数据筛选:每次读取一个IMSI及其在早九点到晚六点之间所访问过的所有loc-ci;选择早九点到晚六点是为了模拟上班工作时间;根据数据采集步骤中得到的轨迹数据,将一个IMSI所对应的所有工作时间段内所访问过的loc-ci列成一个统计表,并进一步统计出每个loc-ci停留的时长。(4)距离计算:找到每个具体基站所对应的经纬度,计算两两基站之间的距离。选择早九点到晚六点之间,该IMSI驻留时间最长的三个loc-ci作为种子工作地,并计算每个种子工作地到统计表中其他loc-ci之间的距离,如果距离Dis小于1000米,则将他们划为一类,即访问时间相叠加。距离计算方式如下:Dis=R*acos(sinpi(y1/180)*sinpi(y2/180)+cospi(y1/180)*cospi(y2/180)*cospi((x1-x2)/180));其中,R表示地球半径;x1、x2分别表示两个loc-ci的经度,y1、y2分别表示两个loc-ci的纬度。(5)候选工作地确定:接下来计算种子工作地之间的距离,如果小于1000米,则将两个种子工作地划为一类,对于驻留时间超过5小时的种子工作地标记为候选工作地。(6)工作地预测:我们预测工作地是基于这样的假设:一个人通常在工作日经常到工作地而在休息日极少出现在工作地。上述统计的表,按照工作日(周一至周五)和休息日(周六日)分别统计出一个月内每天的候选工作地,统计出一个月内工作日到候选工作地的次数和休息日到候选工作地的次数,并计算出二者的比值α:α=(工作日到候选工作地的次数+k)/(休息日到候选工作地的次数+k)K表示一个极小值,为了防止分母为0。选择在一个月的数据中计算值最大的α,其所对应的候选工作地即预测为该IMSI的工作地。本文档来自技高网...
【技术保护点】
1.一种基于移动通信大数据的用户工作地识别方法,其特征在于:/n(1)数据采集:利用电信运营商信令数据,对每个IMSI识别号所在的基站位置、进出基站时间信息进行采集并存储,得到每个IMSI的移动轨迹数据;/n(2)数据预处理:对进出基站缺失信令进行插值补偿,如果用户在统计时间段内只有进入某基站时间而没有离开该基站时间,或者只有离开某基站时间而没有进入该基站时间,则对缺失数据进行插补,插补时间点是该统计时间段的起始时间和结束时间;/n(3)数据筛选:每次读取一个IMSI及其在早九点到晚六点之间所访问过的所有基站,根据数据采集步骤中得到的轨迹数据,将一个IMSI所对应的所有工作时间段内所访问过的基站列成一个统计表,并进一步统计出在每个基站停留的时长;/n(4)距离计算:选择早九点到晚六点之间,该IMSI驻留时间最长的三个基站作为种子工作地,并根据每个具体基站所对应的经纬度,计算每个种子工作地对应的基站到所述统计表中其他各个基站之间的距离;如果两个基站间距离小于1000米,则将他们合并一个种子工作地,并将在两个基站停留的时长相叠加;/n(5)候选工作地确定:分别计算每个种子工作地与其他种子工作地之间的距离,如果两个种子工作地的距离小于1000米,则将两个种子工作地合并为一个,并将在这两个种子工作地停留的时长相叠加;对于驻留时间超过5小时的种子工作地标记为候选工作地;/n(6)工作地预测:按照上述步骤(5)的方法,统计出一个月内每天的候选工作地;统计出一个月内工作日到每个候选工作地的次数和休息日到该候选工作地的次数,并计算出二者的比值α:/nα=(工作日到候选工作地的次数+k)/(休息日到候选工作地的次数+k),/n其中K是一个大于0的常数,为了防止分母为0;/n在一个月的计算数据中选择值最大的α,其所对应的候选工作地即认定为该IMSI的工作地。/n...
【技术特征摘要】
1.一种基于移动通信大数据的用户工作地识别方法,其特征在于:
(1)数据采集:利用电信运营商信令数据,对每个IMSI识别号所在的基站位置、进出基站时间信息进行采集并存储,得到每个IMSI的移动轨迹数据;
(2)数据预处理:对进出基站缺失信令进行插值补偿,如果用户在统计时间段内只有进入某基站时间而没有离开该基站时间,或者只有离开某基站时间而没有进入该基站时间,则对缺失数据进行插补,插补时间点是该统计时间段的起始时间和结束时间;
(3)数据筛选:每次读取一个IMSI及其在早九点到晚六点之间所访问过的所有基站,根据数据采集步骤中得到的轨迹数据,将一个IMSI所对应的所有工作时间段内所访问过的基站列成一个统计表,并进一步统计出在每个基站停留的时长;
(4)距离计算:选择早九点到晚六点之间,该IMSI驻留时间最长的三个基站作为种子工作地,并根据每个具体基站所对应的经纬度,计算每个种子工作地对应的基站到所述统计表中其他各个基站之间的距离;如果两个基站间距离小于1000米,则将他们合并一个种子工作地,并将在两个基站停留的时长相叠加;
(5)候选工作地确定:分别计算每个种子工作地与其他种子工...
【专利技术属性】
技术研发人员:杨占军,朱明珠,贺炎俊,
申请(专利权)人:北京融信数联科技有限公司,
类型:发明
国别省市:北京;11
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。