一种基于轨迹相似性的一机多卡用户判别方法技术

技术编号:23675066 阅读:59 留言:0更新日期:2020-04-04 19:57
本发明专利技术提供一种基于轨迹相似性的区域人口中一机多卡用户数量判定方法,在居住地在统计区域的常驻人口随机抽取一定数量的IMSI,根据抽样数据中每个IMSI在统计时间段内访问过的基站数和在每个基站的驻留时间,确定每个IMSI的移动轨迹;逐一比对一个IMSI与其他IMSI的移动轨迹,筛选出候选一机多卡用户;采用超几何分布对候选一机多卡用户进行检验,并对检验结果进行多重校正,判定出抽样数据中的一机多卡用户。本发明专利技术用于通过移动大数据进行区域人口统计,用判定出的统计区域内一机多卡用户对人口统计结果进行校正,可提高人口统计的准确性。

A method of one machine multi card user identification based on track similarity

【技术实现步骤摘要】
一种基于轨迹相似性的一机多卡用户判别方法
本专利技术涉及移动大数据统计分析应用
,具体涉及一种基于信令轨迹相似性的一机多卡的判别方法。
技术介绍
采用移动通信大数据对人口进行监测和统计,可以有效地估计人口规模、掌握人口流向、及时对区域人口的发展趋势进行预警。运用大数据开展人口监测和统计工作中所使用的移动通信大数据是基于移动通信终端设备进行采集和分析的,其前提是假设一个手机用户对应一个手机号码。但现实中存在较多的一机多卡现象,即一个手机用户可能同时携带多个手机号码。一机多卡问题已经严重影响了数据统计的准确性和可靠性,但目前并没有任何有效的解决手段。
技术实现思路
本专利技术的目的在于针对现实中存在的一机多卡现象,提供一种基于轨迹相似性的一机多卡的判别方法,对一个用户拥有多个移动号码的情况进行有效识别,以提高基于移动通信大数据进行人口进行监测和统计的准确性。为实现上述目的,本专利技术提供以下技术方案:一种基于轨迹相似性的区域人口中一机多卡用户数量判定方法,其特征在于,包括以下步骤:(1)基于移动运营商数据,在指定城市的常驻人口中,随机抽取一定数量的居住地在该统计区域的IMSI作为抽样数据;(2)根据抽样数据中每个IMSI在统计时间段内访问过的基站数和在每个基站的驻留时间,确定每个IMSI的移动轨迹;统计出所有抽样IMSI访问过的基站总数,以及每个基站的IMSI访问数量;(3)数据预处理:根据每个IMSI的移动轨迹,将抽样数据中在一天内只访问过一个基站的IMSI删除;在上述基站总数中将每天IMSI访问数量超过一定值的基站删除;(4)对预处理后的IMSI数据,将每个IMSI的移动轨迹与其他IMSI的移动轨迹进行逐一比对,筛选出候选一机多卡用户;筛选方法如下:a.一个IMSI与另一IMSI一个月内共同访问的基站数量超过一定数量;b.一个IMSI与另一IMSI每天在共同访问的基站的驻留重叠时长累计超过一定值;满足上述条件,则将这两个IMSI作为一候选IMSI对;(5)基于超几何分布对每个候选IMSI对是否属于一机多卡用户进行判定:以经过数据预处理后的基站总数作为N,两个IMSI分别访问的基站数作为m和n,被两个IMSI共同访问的基站数目为k,在两个IMSI访问每个基站概率独立相等的假设下,按以下公式计算被两个IMSI共同访问的基站数目k的概率P:当计算所得结果小于预设的判定阈值时,则判定该候选IMSI对为一机多卡用户。进一步,上述基于轨迹相似性的区域人口中一机多卡用户数量判定方法,所述步骤(5)中,采用bonferroni校正法对所述的判定阈值进行校正:将所述判定阈值除以抽样数据总数,所得的值作为校正阈值;当经过超几何分布计算所得的P值小于所述校正阈值时,则判定该IMSI对为一机多卡用户。本专利技术通过把轨迹数据转化成IMSI对数据,并统计每个IMSI对每天来自相同基站的时长及每个月来自相同基站的个数,采用超几何检验方法,统计出每个IMSI对是否属于同一个用户(一机多卡)的概率值,对达到设定概率阈值的IMSI对,判定为一机多卡用户;进一步,还可采用多重检验使判断精度进一步提高。本专利技术能有效判断出两个IMSI是否属于一机多卡用户,可对传统的假设一个手机用户对应一个IMSI的人口统计方法进行优化,从而提高通过移动大数据进行人口统计的准确性。附图说明图1是本专利技术的流程图;图2是以抽样IMSI在一天中访问的基站数目为基准,对用户的活动范围进行统计图。具体实施方式本专利技术所采用的数据来自移动运营商的信令数据,包括:用户手机号码-IMSI(国际移动用户识别码:InternationalMobileSubscriberIdentificationNumber);位置区识别码lac:用于标识不同的位置区;基站编号ci:与位置区识别码(lac)结合,用于识别网络中覆盖的小区;IMSI进入基站的时间、离开该基站的时间。上述数据来自同一移动运营商。一机多卡属于不同运营商的情况不在本专利技术的研究范围内。通过上述数据,可刻画出IMSI的移动轨迹。本专利技术的基本思路是:基于移动信令数据,根据两个IMSI在一定时间内共同访问的基站数量,及在共同访问基站的驻留时间重叠时长,判断两个IMSI的轨迹相似度,若达到一定相似度,则认为两个IMSI有可能是一机多卡用户,然后采用超几何分布进行检验,检验结果小于设定的阈值,则判定这两个IMSI是一机多卡用户。为提高判定结果的准确度,还可采用Bonferroni校正对判定进一步结果筛选。本专利技术的实现主要基于以下理论:1、超几何分布。超几何分布(hypergeometricdistribution)是统计学上一种离散概率分布,它描述了由有限个物件中抽出n个物件,成功抽出指定种类的物件的次数(不归还)。在统计学的假设检验分析中,先假设样本数据来自零假设的总体,假设检验方法即根据零假设下检测统计量的分布计算出零假设的拒绝域,当样本统计量落在拒绝域即认为样本拒绝零假设,即零假设不真。而来自零假设的样本统计落入拒绝域的概率被称为显著性水平,习惯上设为5%。本专利技术将超几何分布理论用于对两个IMSI共同访问的基站数目进行检验,零假设即为两个待分析的IMSI是完全独立的,其同时访问某个基站的现象是随机产生的。以两个IMSI同时访问的基站次数作为统计量,可以认为这个统计量是服从超几何分布的,基于超几何分布对IMSI对共同访问的基站数目X进行检验:以全部基站数作为N,两个IMSI分别访问的基站数作为m和n,在IMSI访问每个基站概率独立相等的假设下,被两个IMSI共同访问的基站数目为k,则两个IMSI共同访问k个基站的概率为:将计算结果所得的P值与预先设定的判定阈值比较,对两个IMSI是否是一机多卡用户进行判定。该判定阈值可取超几何分布惯常的显著性水平,即5%。计算结果小于5%,即判定两个IMSI是一机多卡用户。2、Bonferroni校正。Bonferroni校正是一种较为严格的多重检验校正方法,即对于同一个数据集有n次(n>=2)假设检验时,那么用于每一假设的统计显著水平,应为仅检验一个假设时的显著水平的1/n。bonferroni校正后阈值会极大提高,因此可以使用bonferroni校正后的阈值来对上述判定结果进行进一步筛选。图1是本专利技术的实现方法流程图。本专利技术的具体实施方式如下:(1)基于移动运营商数据,在指定城市的常驻人口中,随机抽取一定数量的居住地在该统计区域的IMSI作为抽样数据。本专利技术要将每个IMSI与其余IMSI一一比对,对于人口数量较大的城市,如果将全部用户作为分析对象,计算量过大,考虑到计算时间问题,本专利技术对城市各个区域分别进行统计。统计区域可以是一个市辖区,也可以是一个街道,一个小区,或一个按特定要求指定的片区。采用随机抽样的方法在统计区域抽取一定数量的IMS本文档来自技高网...

【技术保护点】
1.一种基于轨迹相似性的一机多卡用户判定方法,其特征在于,包括以下步骤:/n(1)基于移动运营商数据,在指定城市的常驻人口中,随机抽取一定数量的居住地在该统计区域的IMSI作为抽样数据;/n(2)根据抽样数据中每个IMSI在统计时间段内访问过的基站数和每天在每个基站的驻留时间,确定每个IMSI的移动轨迹;统计出所有抽样IMSI访问过的基站总数,以及每个基站的IMSI访问数量;/n(3)数据预处理:根据每个IMSI的移动轨迹,将抽样数据中在一天内只访问过一个基站的IMSI删除;在上述基站总数中将每天IMSI访问数量超过一定值的基站删除;/n(4)对预处理后的IMSI数据,将每个IMSI的移动轨迹与其他IMSI的移动轨迹进行逐一比对,筛选出候选一机多卡用户,筛选方法如下:/na.一个IMSI与另一IMSI一个月内共同访问的基站数量超过一定数量;/nb.一个IMSI与另一IMSI每天在共同访问的基站的驻留重叠时长累计超过一定值;/n满足上述条件,则将这两个IMSI作为一候选IMSI对;/n(5)基于超几何分布对每个候选IMSI对是否属于一机多卡用户进行判定:以经过数据预处理后的基站总数作为N,两个IMSI分别访问的基站数作为m和n,被两个IMSI共同访问的基站数目为k,在两个IMSI访问每个基站概率独立相等的假设下,按以下公式计算被两个IMSI共同访问的基站数目k的概率P:/n...

【技术特征摘要】
1.一种基于轨迹相似性的一机多卡用户判定方法,其特征在于,包括以下步骤:
(1)基于移动运营商数据,在指定城市的常驻人口中,随机抽取一定数量的居住地在该统计区域的IMSI作为抽样数据;
(2)根据抽样数据中每个IMSI在统计时间段内访问过的基站数和每天在每个基站的驻留时间,确定每个IMSI的移动轨迹;统计出所有抽样IMSI访问过的基站总数,以及每个基站的IMSI访问数量;
(3)数据预处理:根据每个IMSI的移动轨迹,将抽样数据中在一天内只访问过一个基站的IMSI删除;在上述基站总数中将每天IMSI访问数量超过一定值的基站删除;
(4)对预处理后的IMSI数据,将每个IMSI的移动轨迹与其他IMSI的移动轨迹进行逐一比对,筛选出候选一机多卡用户,筛选方法如下:
a.一个IMSI与另一IMSI一个月内共同访问的基站数量超过一定数量;
b.一个IMSI与另一IMSI每天在共同访问的基站的驻留重叠时长累计超过一定值;
满足上述条件,则将这两个IMSI作为一候选IMSI对;
(5)基于超几何分布对每个候选IMSI对是否属于一机多卡用户进行判定:以经过数据预处理后的基站总数作为N,两个IMSI分别访问的基站数作为m和n,被两个IMSI共同访问的基站数目为k,在两个IMSI访问每个基站概率独立相等的假设下,按以下公式计算被两个IMSI共同访问的基站数目k的概率P:



当计算所得结果小于预设的判定阈值时,则判定该候选IMSI对为一机多卡用户。


2.根据权利要求1所述的基于轨迹相似性的一机多卡用户判别方法,其特征在于:步骤(1)所述城市常驻人...

【专利技术属性】
技术研发人员:贺炎俊朱明珠杨占军
申请(专利权)人:北京融信数联科技有限公司
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1