【技术实现步骤摘要】
一种一人多号的识别方法及装置
[0001]本申请涉及机器学习
,尤其涉及一种一人多号的识别方法及装置
。
技术介绍
[0002]随着智能手机以及大数据信息处理技术的不断发展,手机的通信信令数据得到了广泛应用,由于手机通信信令数据具有样本覆盖全面
、
时空信息精度高
、
连续性强的特点,因此可以通过手机通信信令数据进行区域人口统计
。
[0003]目前,越来越多的人会同时使用多张手机卡或者多个手机多张手机卡多个运营商,因此需要通过模型算法对这部分用户进行识别,减少重复计算导致区域人口统计误差较大的问题
。
[0004]现有技术中通常采用聚类算法进行一人多号的识别,需要按照时间顺序将采集到的原始信令数据转换为运行轨迹,按照网格中的距离信息确定移动设备号码之间的轨迹相似性,对于位置以及出现时间高度重叠的移动设备号码之间判断为同一轨迹,即一人多号,但是这种方法需要计算出区域内所有移动设备号码之间的轨迹相似性,计算量巨大,在实际应用中难以实现
。
技术实现思路
[0005]有鉴于此,本申请实施例提供了一种一人多号的识别方法及装置,旨在减少一人多号识别过程中的计算量
。
[0006]第一方面,本申请实施例提供了一种一人多号的识别方法,所述方法包括:对待识别区域中用户的职住数据进行网格化处理,并基于网格化处理得到的职住网格数据集,将相同职住数据的用户号码进行分组,获得职住数据集,所述职住数据是基于用户号码所在的基站 ...
【技术保护点】
【技术特征摘要】
1.
一种一人多号的识别方法,其特征在于,所述方法包括:对待识别区域中用户的职住数据进行网格化处理,并基于网格化处理得到的职住网格数据集,将相同职住数据的用户号码进行分组,获得职住数据集,所述职住数据是基于用户号码所在的基站信息确定的;根据所述职住数据集中的组号进行分组关系匹配,获得同号候选数据集;根据相似度阈值训练模型中的模型参数对所述同号候选数据集的轨迹数据进行切片化处理,获得同号候选数据的切片数据集,所述相似度阈值训练模型中的模型参数包括时间切片参数和空间切片参数;通过相似度算法对所述同号候选数据的切片数据集中的轨迹数据进行相似度计算,获得轨迹相似度结果;根据相似度阈值对所述轨迹相似度结果进行筛选,将筛选结果作为新一轮的同号候选数据集进行迭代相似度计算,直至完成所述职住数据集中用户号码的识别,获得一人多号的识别数据集,所述相似度阈值是通过所述相似度阈值训练模型进行训练得到的
。2.
根据权利要求1所述的方法,其特征在于,所述对待识别区域中用户的职住数据进行网格化处理,并基于网格化处理得到的职住网格数据集,将相同职住数据的用户号码进行分组,获得职住数据集,包括:对待识别区域进行网格化处理,获得网格化数据集;将基站信息和所述网格化数据集进行关联,获得基站网格关联数据集;对所述基站网格关联数据集中用户的职住数据进行网格化处理,获得职住网格数据集;基于所述职住网格数据集将相同职住数据的用户号码进行分组,获得职住数据集
。3.
根据权利要求1所述的方法,其特征在于,所述相似度阈值的获取步骤,包括:根据相似度阈值训练模型中的模型参数对一人多号的样本数据集
、
轨迹数据以及基站信息进行切片化处理,获得样本数据的切片数据集;通过相似度算法对所述样本数据的切片数据集中的轨迹数据进行相似度计算,获得相似度阈值
。4.
根据权利要求1所述的方法,其特征在于,所述通过相似度算法对所述同号候选数据的切片数据集中的轨迹数据进行相似度计算,获得轨迹相似度结果,包括:通过余弦相似度算法对所述同号候选数据的切片数据集中的轨迹数据进行相似度计算,获得轨迹相似度结果
。5.
根据权利要求1所述的方法,其特征在于,所述根据相似度阈值训练模型中的模型参数对所述同号候选数据集的轨迹数据进行切片化处理,获得同号候选数据的切片数据集,包括:根据相似度阈值训练模型中的时间切片参数对所述同号候选数据集的轨迹数据进行切片化处理,获得同号候选数据的时...
【专利技术属性】
技术研发人员:龙磊,
申请(专利权)人:北京艾瑞数智科技有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。