一种手机信令数据的清洗方法技术

技术编号:24010516 阅读:519 留言:0更新日期:2020-05-02 01:35
本发明专利技术涉及大数据分析领域,旨在提供一种手机信令数据的清洗方法。包括:采集用户手机在手机通信网络中产生的各种信令事件,并将用户的信令时间按照时间戳排序;切割用户出行链,并将切割后的出行链作为最小研究单位;基于出行链的位置变化规律,清洗每一个出行链以除去无效数据;对获取的出行链进行简化。本发明专利技术通过能有效清除出行链中无效信令数据,实现精简出行链的目的,方便后续的数据分析。在考虑时间的同时也考虑了速度因素,由此划分出的用户出行链较现有技术划分出来的出行链相比,更加符合用户实际出行,也更有利于信令数据的清洗。自动化程度高,适用性强,可适用于大样本量、大范围的多种不同特征的手机信令数据清洗。

A cleaning method of mobile signaling data

【技术实现步骤摘要】
一种手机信令数据的清洗方法
本专利技术属于大数据分析领域,具体涉及基于移动通信信令事件的数据清洗技术。
技术介绍
手机信令数据样本量大、数据客观、全面、采样不会有很明显的倾向性,且数据具有较强的时空连续性,可以观测到交通出行整个过程,是任何其它数据源无法比较的。但是,手机信令数据由于信号在基站之间弹跳、漂移等原因,有非常多的无效且错误的数据,导致原始数据不能够真实的反应用户的出行轨迹。所以,快速识别错误无效的数据并将其清除掉,是应用手机信令数据的关键。
技术实现思路
本专利技术要解决的技术问题是,克服现有技术中的不足,提供一种手机信令数据的清洗方法。其目的是对杂乱的手机信令全数据进行清洗,从而获取可用于后续数据分析的数据。为解决技术问题,本专利技术的解决方案是:提供一种手机信令数据的清洗方法,包括以下步骤:(1)采集用户手机在手机通信网络中产生的各种信令事件,并将用户的信令时间按照时间戳排序;(2)切割用户出行链,并将切割后的出行链作为最小研究单位;(3)基于出行链的位置变化规律,清洗每一个出行链以除去无效数据;(4)对步骤(3)获取的出行链进行简化。本专利技术中,所述步骤(2)具体包括:从每个出行链的第2个信令开始,逐一计算当前信令的分割指数S,当分割指数大于1时,以当前信令为划分边界将用户出行链划分为两条出行链,并对划分后的第二条出行链重新执行步骤(2)直到不能划分新的出行链为止;分割指数计算公式如下:式中,p为当前出行链信令数,t为当前信令的间隔时间,v为当前信令的瞬时速度,为当前出行链的平均速度,为当前出行链的平均间隔时间,a,b,c,d为为根据肘部法则确定的固定常数。本专利技术中,所述步骤(3)具体包括:首先,从每个出行链的第2个信令开始,直到倒数第二个信令为止:记当前信令为第i个数据,如果存在j(j<i),使得D(j,m)/T(j,m)>K,则删除第i个数据;然后,再次从每个出行链的第2个信令开始,直到倒数第二个信令为止:记当前信令为第i个数据,如果存在j(j<i),m(m>i),使得D(j,m)<D1,∑q∈Q1<L,∑q∈QT(q,i)<T1这三个条件同时满足,则第i个数据被标记为应删除数据;当整个出行链的所有的应删除数据被标记之后,将被标记数据从出行链数据中删除;最后,对于连续在同一位置的信令数据,仅保留第一条信令和最后一条信令,从而在极大程度上节约计算量;其中,D(j,m)代表第j个信令数据和第m个信令数据之间的距离,T(j,m)代表第j个信令数据和第m个信令数据之间的间隔时间;点集合Q的定义如下:对于出行链中下标为q的信令数据,在同时满足j<q<m,D(q,j)≥D1两个条件的基础上,如果还满足T(q,q+1)>T2,D(q,q+1)>D2两个条件中的任意1个,则q属于Q,K,L,D1,T1,D2,T2为为根据肘部法则确定的六个固定常数。本专利技术中,所述步骤(4)具体包括:从出行链的第二个信令数据开始,直到倒数第三个信令数据为止:记当前信令数据为第i个信令数据,如果以下条件有任一满足,则将第i个信令数据从出行链中删除:(1)第i个信令数据的位置到第i-1个、第i+1个两个信令数据的位置组成的线段的距离小于s1;或,(2)第i个信令数据的位置和第i-1个信令数据的位置以及第i+1个信令数据的位置组成的三角形的面积小于s2;或,(3)第i-1个,第i个,第i+1个三个信令数据的位置组成的夹角和第i个、第i+1个、第i+2个三个信令数据的位置组成的夹角都小于s3;或,(4)第i-1个、第i个信令数据的位置组成的线段和第i+1个、第i+2个信令数据的位置组成的线段相交;或,(5)第i个、第i+1个和第i-1个三个信令数据的位置组成的三条线段,任意两条线段长度的和与第三条线段长度的比值大于s4,并且第三条线段长度小于s5;所述s1、s2、s3、s4、s5为根据肘部法则确定的固定常数。本专利技术可以通过修改给定的固定常数,适用于不同特征的手机信令数据,该方法具有较大的灵活性。固定常数的给定方式是根据肘部法则确定,可由本领域技术人员依据其实际需要进行调整。与现有技术相比,本方法的有益效果在于:1、出行链是指用户出行过程中产生的一系列信令数据的集合。本专利技术中,通过设计一种能有效清除出行链中无效信令数据的方法,从而实现精简出行链的目的,方便后续的数据分析。2、现有技术在划分出行链时基本都只考虑时间因素,本方法在考虑时间的同时也考虑了速度因素,由此划分出的用户出行链较现有技术划分出来的出行链相比,更加符合用户实际出行,也更有利于信令数据的清洗。3、现有的数据清洗方法,在清除手机信令独有的“ABAB”型循环切换时效果较差。例如卡尔曼滤波算法,需要在数据集满足极为苛刻的条件上通过大量的参数调优,才可以清除掉大部分的“ABAB”型循环切换数据。本专利技术(通过其步骤3的操作)能有效清除数据集中几乎所有的“ABAB”型循环切换数据,极大程度上提高了后续序列比对的精准性。4、本专利技术能(通过步骤4的操作)清洗掉大量与实际出行轨迹无关的信令数据,而不是像现有技术一样,仅清除原地停留的信令数据或距离相近的信令数据,所以可以在保证用户出行特征的前提下,清除大量无关数据,减轻后续的计算量。5、本专利技术自动化程度高,适用性强,可适用于大样本量、大范围的多种不同特征的手机信令数据清洗。附图说明图1为本实施例中某用户出行链划分结果的示例图。图2为本实施例中某用户出行链数据清洗结果的示例图。具体实施方式下面结合附图和具体实施例子,对本专利技术的具体实现过程进行详细阐述。步骤1、信令数据的收集本专利技术采用运营商提供的包含用户标识、时间戳、基站经度、基站纬度4个字段的部分手机信令数据作为本专利技术使用的数据集。该数据集共有41654036行,337686条出行链。其中部分数据如表1所示。注、本实施例中,间隔时间单位恒定为秒,间隔距离单位恒定为千米,间隔速度单位恒定为千米每小时。图1是用户1的信令数据的所在经度随时间的变化图,其中横坐标是时间,纵坐标是信令的经度,可以看到,用户原轨迹中23点02分至23点57分时段含有大量的异常数据。表1用户标识时间戳基站经度基站纬度用户120180919110759120.2673130.88472用户220180919105619120.2673130.88472用户320180919185212120.2673130.88472用户420180919193046120.2673130.88472<本文档来自技高网...

【技术保护点】
1.一种手机信令数据的清洗方法,其特征在于,包括以下步骤:/n(1)采集用户手机在手机通信网络中产生的各种信令事件,并将用户的信令时间按照时间戳排序;/n(2)切割用户出行链,并将切割后的出行链作为最小研究单位;/n(3)基于出行链的位置变化规律,清洗每一个出行链以除去无效数据;/n(4)对步骤(3)获取的出行链进行简化。/n

【技术特征摘要】
1.一种手机信令数据的清洗方法,其特征在于,包括以下步骤:
(1)采集用户手机在手机通信网络中产生的各种信令事件,并将用户的信令时间按照时间戳排序;
(2)切割用户出行链,并将切割后的出行链作为最小研究单位;
(3)基于出行链的位置变化规律,清洗每一个出行链以除去无效数据;
(4)对步骤(3)获取的出行链进行简化。


2.根据权利要求1所述的方法,其特征在于,所述步骤(2)具体包括:
从每个出行链的第2个信令开始,逐一计算当前信令的分割指数S,当分割指数大于1时,以当前信令为划分边界将用户出行链划分为两条出行链,并对划分后的第二条出行链重新执行步骤(2)直到不能划分新的出行链为止;
分割指数计算公式如下:



式中,p为当前出行链信令数,t为当前信令的间隔时间,v为当前信令的瞬时速度,为当前出行链的平均速度,为当前出行链的平均间隔时间,a,b,c,d为根据肘部法则确定的固定常数。


3.根据权利要求1所述的方法,其特征在于,所述步骤(3)具体包括:
首先,从每个出行链的第2个信令开始,直到倒数第二个信令为止:记当前信令为第i个数据,如果存在j且j<i,使得D(j,m)/T(j,m)>K,则删除第i个数据;
然后,再次从每个出行链的第2个信令开始,直到倒数第二个信令为止:记当前信令为第i个数据,如果存在j<i,m>i,且使得D(j,m)<D1,∑q∈Q1<L,∑q∈QT(q,i)<T1这三个条件同时满足,则第i个数据被标记为应删除数据;
当整个出行链的所有的应删除数据被标记之后,将被标记数据从出行链数据中删除;
最后,对于连续在同一位置的信令数据,仅保留第一条信令和最后一条信令,从而在极大程度...

【专利技术属性】
技术研发人员:唐梦然司凌霄鞠盈丞曾周静
申请(专利权)人:杭州诚智天扬科技有限公司
类型:发明
国别省市:浙江;33

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1