一种乘车信息映射关系获取方法技术

技术编号:23558866 阅读:26 留言:0更新日期:2020-03-25 04:17
本发明专利技术公开了一种乘车信息映射关系获取方法,涉及数据处理技术领域技术领域,先通过simhash算法分别对火车轨迹的geohash6和乘客出现位置的geohash6进行处理得到相应的指纹轨迹,即也对实际的位置信息进行了泛化处理,然后通过按位比较得到相应的汉明距离接着计算指纹相似度,筛选相似度较高的作为乘客对应火车车次,最后通过乘客与火车车次对应关系和身份证与火车车次关系碰撞得到乘客对应的身份证。本发明专利技术提供了的方法,使得乘客的手机号、身份证号和所乘火车车次之间的关系更加准确。

A method to obtain the mapping relationship of the passenger information

【技术实现步骤摘要】
一种乘车信息映射关系获取方法
本专利技术涉及数据处理
,具体涉及一种乘车信息映射关系获取方法。
技术介绍
目前,铁路售票已经使用手机进行,但是,由于往往存在用某一手机号为他人订票或手机号开号人并非手机使用者的情况,因此,这些情况会导致通过手机定位查找旅客的结果不准确。并且,由于存在高铁通勤的情况,因此数据冗余严重,导致运算效率低下。
技术实现思路
为解决前述问题,本专利技术提供了一种乘车信息映射关系获取方法,使得乘客的手机号、身份证号和所乘火车车次之间的关系更加准确。为了达到上述目的,本专利技术采用如下技术方案:一种乘车信息映射关系获取方法,包括如下步骤:获取铁路检票数据,基于手机信令信号获取对应的位置数据;基于位置数据对某一时间段内所有手机信令信号进行筛选;根据检票数据确定筛选后的手机信令信号所对应的机主的乘坐列车,获取所述乘坐列车的轨迹并计算所述乘坐列车的列车轨迹指纹;获取该时间段内出现在省级行政单位区域中至少一个火车站范围内的手机信令信号以及所述手机信令信号所对应的选定机主,计算所述选定机主的轨迹指纹,将轨迹指纹与列车轨迹指纹进行比较,判断所述选定机主可能乘坐的待预测列车;查找所述待预测列车的停靠站,筛选出出现过所述选定机主的手机信令信号的待选停靠站,进一步查找出所述待预测列车在所述待选停靠站所停靠的第一时间范围,获取所述选定机主的手机信令信号在所述待选停靠站出现的第二时间范围,若所述第二时间范围在所述第一时间范围内,则获取第一时间范围所对应的待预测列车的发车时间和到达时间;对所述选定机主在所述发车时间和到达时间内的位置数据所形成的轨迹进行特征提取,并对提取的特征通过随机森林模型进行分类,其中,分类结果为[0.5,1]所对应的待预测列车作为所述选定机主的预测乘坐列车;根据所述铁路检票数据获取所述选定机主的身份证号以及该身份证号对应的比较乘坐列车,对比较乘坐列车和预测乘坐列车进行数据碰撞,对得到的碰撞数据进行置信度计算,得到选定机主的手机号、身份证号以及实际乘坐的列车三者间的映射关系。可选的,筛选手机信令信号的条件包括:手机信令信号所对应的机主在应乘车日当天,该机主的手机信令信号至少在两个火车站出现过;手机信令信号所对应的机主的无效记录小于等于3条,所述无效记录为手机信令信号所对应的机主在应乘车所对应的时间内,发车后30分钟还在出发站的上个火车站,或到站前30分钟就到到达站的下个火车站。可选的,所述乘坐列车具有geohash数据,所述geohash数据中至少出现3个筛选后的手机信令信号所对应的机主。可选的,计算所述乘坐列车的列车轨迹指纹具体包括:对筛选后的手机信令信号所对应的机主的轨迹进行切割,切割的幅度为每间隔15分钟进行时长为30分钟的切割,对切割后的数据使用simhash算法计算得到列车轨迹指纹。可选的,计算所述选定机主的轨迹指纹具体包括:对筛选后的手机信令信号所对应的机主的轨迹进行切割,切割的幅度为每间隔固定时间进行相同时长的切割,对切割后的数据使用simhash算法计算每半小时geohash的轨迹指纹。可选的,所述轨迹指纹与所述列车轨迹指纹进行比较,相似度大于70%的列车轨迹指纹所对应的乘坐列车为所述待预测列车。可选的,进行特征提取包括如下步骤:预设所述选定机主乘坐所述待预测列车,所述选定机主的轨迹的geohash数据为第一geohash数据,所述待预测列车的轨迹的geohash数据为第二geohash数据,所述第一geohash数据和第二geohash数据相比较,提取如下数据:吻合geohash数据的个数;吻合并去重后geohash数据的个数;所述选定机主的轨迹和所述待预测列车的轨迹到达同一geohash数据的时间误差总和,所述误差总和为手机信令信号获取时间与列车时刻表中列车到达所述同一geohash数据所对应的位置的时刻之间作差,得到的差值取绝对值并求和;平均误差,所述平均误差计算公式为其中,time为手机信令信号获取时间,avg_time为所述待预测列车到达所述同一geohash数据所对应的位置时所有手机信令信号获取时间平均值,std_time为所述待预测列车在所述同一geohash数据所对应的位置停留的时间;吻合geohash数据的个数与所述第一geohash数据的占比;不同的吻合geohash之间的距离之和;不同的吻合geohash之间的距离之和与所述待预测列车的始发站和终到站之间距离的比例。可选的,得到的碰撞数据包括:在所述某一时间段中,一个整天内同时出现所述待预测列车与所述比较乘坐列车的次数与同时出现所述待预测列车与所述比较乘坐列车的天数。可选的,所述置信度计算公式为:其中,b取值为6,b_dt取值为1/2,c取值为6,c_dt取值为1/3,x表示同时出现的次数,x_dt表示同时出现的天数。可选的,当置信度计算公式的计算结果为[0.8,1]时,表示选定机主的手机号、身份证号以及所乘坐的列车信息一致。本专利技术所提供的方法具有如下有益效果:本专利技术所提供的乘车信息映射关系获取方法,通过simhash算法计算得到乘客位置和火车的轨迹指纹,使得快速有效地筛选出与乘客匹配的火车车次,相较于使用geohash6进行匹配,减少了数据的存储量,减少了匹配时的运算次数,提高了运算效率匹配运算;同时,对于乘客对应多个火车车次时,通过特征提取和随机森林模型对乘客对应多个车次进行分类处理,使得人车映射关系准确率得到提升,同时也保证了人证映射关系的可信度。本专利技术的这些特点和优点将会在下面的具体实施方式以及附图中进行详细的揭露。本专利技术最佳的实施方式或手段将结合附图来详尽表现,但并非是对本专利技术技术方案的限制。另外,在每个下文和附图中出现的这些特征、要素和组件是具有多个,并且为了表示方便而标记了不同的符号或数字,但均表示相同或相似构造或功能的部件。【附图说明】下面结合附图对本专利技术作进一步说明:图1为本专利技术实施例的流程图;图2为本专利技术实施例中对轨迹进行切割的示意图;图3为本专利技术实施例中使用simhash算法对于geohash6处理的流程图;图4为本专利技术实施例中轨迹匹配示意图。【具体实施方式】下面结合本专利技术实施例的附图对本专利技术实施例的技术方案进行解释和说明,但下述实施例仅为本专利技术的优选实施例,并非全部。基于实施方式中的实施例,本领域技术人员在没有做出创造性劳动的前提下所获得其他实施例,都属于本专利技术的保护范围。在本说明书中引用的“一个实施例”或“实例”或“例子”意指结合实施例本身描述的特定特征、结构或特性可被包括在本专利公开的至少一个实施例中。短语“在一个实施例中”在说明书中的各位置的出现不必都是指同一个实施例。实施例如图1所示,本实施例提供一本文档来自技高网...

【技术保护点】
1.一种乘车信息映射关系获取方法,其特征在于:所述乘车信息映射关系获取方法包括如下步骤:/n获取铁路检票数据,基于手机信令信号获取对应的位置数据;/n基于位置数据对某一时间段内所有手机信令信号进行筛选;根据检票数据确定筛选后的手机信令信号所对应的机主的乘坐列车,获取所述乘坐列车的轨迹并计算所述乘坐列车的列车轨迹指纹;/n获取该时间段内出现在省级行政单位区域中至少一个火车站范围内的手机信令信号以及所述手机信令信号所对应的选定机主,计算所述选定机主的轨迹指纹,将轨迹指纹与列车轨迹指纹进行比较,判断所述选定机主可能乘坐的待预测列车;/n查找所述待预测列车的停靠站,筛选出出现过所述选定机主的手机信令信号的待选停靠站,进一步查找出所述待预测列车在所述待选停靠站所停靠的第一时间范围,获取所述选定机主的手机信令信号在所述待选停靠站出现的第二时间范围,若所述第二时间范围在所述第一时间范围内,则获取第一时间范围所对应的待预测列车的发车时间和到达时间;/n对所述选定机主在所述发车时间和到达时间内的位置数据所形成的轨迹进行特征提取,并对提取的特征通过随机森林模型进行分类,其中,分类结果为[0.5,1]所对应的待预测列车作为所述选定机主的预测乘坐列车;/n根据所述铁路检票数据获取所述选定机主的身份证号以及该身份证号对应的比较乘坐列车,对比较乘坐列车和预测乘坐列车进行数据碰撞,对得到的碰撞数据进行置信度计算,得到选定机主的手机号、身份证号以及实际乘坐的列车三者间的映射关系。/n...

【技术特征摘要】
1.一种乘车信息映射关系获取方法,其特征在于:所述乘车信息映射关系获取方法包括如下步骤:
获取铁路检票数据,基于手机信令信号获取对应的位置数据;
基于位置数据对某一时间段内所有手机信令信号进行筛选;根据检票数据确定筛选后的手机信令信号所对应的机主的乘坐列车,获取所述乘坐列车的轨迹并计算所述乘坐列车的列车轨迹指纹;
获取该时间段内出现在省级行政单位区域中至少一个火车站范围内的手机信令信号以及所述手机信令信号所对应的选定机主,计算所述选定机主的轨迹指纹,将轨迹指纹与列车轨迹指纹进行比较,判断所述选定机主可能乘坐的待预测列车;
查找所述待预测列车的停靠站,筛选出出现过所述选定机主的手机信令信号的待选停靠站,进一步查找出所述待预测列车在所述待选停靠站所停靠的第一时间范围,获取所述选定机主的手机信令信号在所述待选停靠站出现的第二时间范围,若所述第二时间范围在所述第一时间范围内,则获取第一时间范围所对应的待预测列车的发车时间和到达时间;
对所述选定机主在所述发车时间和到达时间内的位置数据所形成的轨迹进行特征提取,并对提取的特征通过随机森林模型进行分类,其中,分类结果为[0.5,1]所对应的待预测列车作为所述选定机主的预测乘坐列车;
根据所述铁路检票数据获取所述选定机主的身份证号以及该身份证号对应的比较乘坐列车,对比较乘坐列车和预测乘坐列车进行数据碰撞,对得到的碰撞数据进行置信度计算,得到选定机主的手机号、身份证号以及实际乘坐的列车三者间的映射关系。


2.根据权利要求1所述的乘车信息映射关系获取方法,其特征在于:筛选手机信令信号的条件包括:
手机信令信号所对应的机主在应乘车日当天,该机主的手机信令信号至少在两个火车站出现过;
手机信令信号所对应的机主的无效记录小于等于3条,所述无效记录为手机信令信号所对应的机主在应乘车所对应的时间内,发车后30分钟还在出发站的上个火车站,或到站前30分钟就到到达站的下个火车站。


3.根据权利要求2所述的乘车信息映射关系获取方法,其特征在于:所述乘坐列车具有geohash6数据,所述geohash6数据中至少出现3个筛选后的手机信令信号所对应的机主。


4.根据权利要求1所述的乘车信息映射关系获取方法,其特征在于:计算所述乘坐列车的列车轨迹指纹具体包括:
对筛选后的手机信令信号所对应的机主的轨迹进行切割,切割的幅度为每间隔固定时间进行相同时长的切割,
对切割后的数据使用simhash算法计算得到列车轨迹指纹。


5.根据权利要求1所述的乘车信息映射关系获取方法,其特征在于:计算...

【专利技术属性】
技术研发人员:张静丁敬安宣鑫乐
申请(专利权)人:杭州三汇数字信息技术有限公司
类型:发明
国别省市:浙江;33

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1