System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 一种面向数据库平台的通勤出行行为识别方法和系统技术方案_技高网

一种面向数据库平台的通勤出行行为识别方法和系统技术方案

技术编号:40750864 阅读:5 留言:0更新日期:2024-03-25 20:06
本发明专利技术涉及数据处理技术领域,公开了一种面向数据库平台的通勤出行行为识别方法和系统。通过接收手机信令数据样本;对手机信令数据样本进行处理,得到第一手机信令数据样本至第六手机信令数据样本;根据日期标签字段数据对第六手机信息数据样本进行划分,得到多个目标样本,每一个目标样本中的多条记录具有相同的日期标签字段数据;设置记录条数阈值;筛选出记录总条数>记录调试阈值的目标样本作为结果输出样本,结果输出样本中包含多个出行特征字段。本发明专利技术可避免用户逐条对数据样本中的记录进行多层嵌套循环的复杂数学计算,或复杂的函数聚类计算,从而大幅度降低了算法的复杂性、减少算法对数据库平台的算力要求,使出行行为识别结果更加精确。

【技术实现步骤摘要】

本专利技术涉及数据处理,具体而言,涉及一种面向数据库平台的通勤出行行为识别方法和系统


技术介绍

1、掌握居民通勤交通出行需求和出行行为特征对优化居民通勤出行结构、缓解交通拥堵至关重要。相较传统的交通抽样调查,手机信令数据能更全面、真实地反映城市整体人群的移动特征:通过蜂窝基站实时接受用户信号,自然地形成出行链数据,从而能够客观地反映用户出行行为。然而,由于手机信令时间密度高、基站空间服务范围不稳定的特点,以及信令生成过程中产生的天然误差,使得手机信令数据的噪声明显。因此手机信令出行数据需经过精细地数据治理才能使用。

2、如果按照时序将人一天的信令位置进行排序可得到其一天的出行链条。但是这样的链条中包含众多无效数据和噪声,如“相邻信令时间且同基站位置”记录、“漂移效应”基站记录、“乒乓效应”基站记录。因此,简化手机信令的个人出行链并提取单次出行,需要完成对无效数据和噪声的处理。既有的数据处理方法主要基于距离或密度的聚类来完成。其中,“基于距离的算法”是指依据距离和时长两项指标,逐一、循环判断每个点与到后续点的距离及停留时长,剔除或合并超出一定阈值的数据记录;而“基于密度聚类的算法”主要通过指定搜索邻域半径和邻域内的最少点数,将具有足够高密度的区域划分为簇,并将簇简化为点,完成“相邻信令时间且同基站位置”和“乒乓效应”的简化。

3、得到每个人的所有单次出行后,需要进行通勤出行识别。现有的识别方法主要是通过判断一段时间内的通勤时段是否具有相同的出行od点对且达到指定次数,来判断是否是通勤出行。如一个月内有16天在通勤时段均有某一个od点对,则判定这是一次通勤出行。

4、但是,现有技术方案难以在数据库平台上直接基于结构化查询语言(sql)来实现。当前手机信令数据大规模处理主要基于结构化查询语言(sql)在数据库平台中进行。基于sql的距离、速度、角度等计算内存和时间消耗巨大,同时sql也不适宜进行多层循环嵌套计算和复杂机器学习算法的实现,因此现有技术方案无法满足实际操作中针对大规模手机信令通勤出行识别的精度和效率要求,同时平台也难以承受现有技术方案的巨大算力消耗。


技术实现思路

1、本专利技术的目的在于提供一种面向数据库平台的通勤出行行为识别方法和系统,解决现有的通勤出行行为识别方法在数据库平台上的执行效率低且识别精度低的问题。

2、本专利技术通过下述技术方案实现:

3、第一方面,提供一种面向数据库平台的通勤出行行为识别方法,包括以下步骤:接收手机信令数据样本;对手机信令数据样本进行预处理,得到第一手机信令数据样本;第一手机信令数据样本中包括:基站编码字段数据、日期标签字段数据和小时标签字段数据;若第一手机信令数据样本中时间字段数据相邻的两条记录的基站编码数据相同,则删除时间字段数据靠后的一条记录,得到第二手机信令数据样本;对第二手机信令数据样本中出现数据漂移的记录和出现乒乓效应的记录进行标记,得到第三手机信令数据样本;删除第三手机信令数据样本中标记为0的记录,得到第四手机信令数据样本;对第四手机信令数据样本进行处理,得到第五手机信令数据样本;对第五手机信令数据样本进行数据统计,得到第六手机信令数据样本;根据日期标签字段数据对第六手机信息数据样本进行划分,得到多个目标样本,每一个目标样本中的多条记录具有相同的日期标签字段数据;设置记录条数阈值;筛选出记录总条数>记录调试阈值的目标样本作为结果输出样本,结果输出样本中包含多个出行特征字段。

4、进一步的,获取第一手机信令数据样本,包括以下步骤:将手机信令数据样本中的纬度字段数据保留a位小数后扩大10a倍,获取扩大后的纬度字段数据的位数b,将手机信令数据样本中的经度字段数据保留a位小数后扩大10a+b倍,将扩大后的纬度字段数据与扩大后的经度字段数据相加,得到基站编码字段数据;保留手机信令数据样本中时间字段数据的前c位,得到日期标签字段数据;保留手机信令数据样本中时间字段数据的第c+1位和c+2位,得到小时标签字段数据。

5、进一步的,获取第二手机信令数据样本,包括以下步骤:根据用户id字段数据对第一手机信令数据样本进行划分,得到多个第一手机信令数据子样本,每一个第一手机信令数据子样本中包含多条记录,同一个第一手机信令数据子样本中的多条记录具有相同用户id字段数据;针对每一个第一手机信令数据子样本,执行s1;s1:将第一手机信令数据子样本中的多条记录按照时间字段数据的升序排列,得到重排后的第一手机信令数据子样本;针对重排后的第一手机信令数据子样本中的每一条当前记录i,执行s1.1-s1.4;i=1,2,…,i,i表示重排后的第二手机信令数据子样本中的记录条数;s1.1:添加新时间字段和新基站编码字段;s1.2:提取第i-1条记录的时间字段数据对新时间字段数据赋值;s1.3:提取第i-1条记录的基站编码字段数据对新基站编码字段赋值;s1.4:比较基站编码字段数据与新基站编码字段数据是否相同;若相同,则删除当前记录i;否则,保留当前记录i。

6、进一步的,获取第三手机信令数据样本,包括以下步骤:根据用户id字段数据和日期标签字段数据对第二手机信令数据样本进行划分,得到多个第二手机信令数据子样本;每一个第二手机信令数据子样本中包含多条记录,同一个第二手机信令数据子样本中的多条记录具有相同的用户id字段数据和相同的日期标签字段数据;

7、针对每一个第二手机信令数据子样本执行s2;

8、s2:对第二手机信令数据子样本中的多条记录按照时间字段数据的升序排序,得到重排后的第二手机信令数据子样本;

9、针对重排后的第二手机信令数据子样本中的每一条当前记录j,执行s2.1-s2.3;j=4,5,…,j,j表示第二手机信令数据子样本的记录条数;

10、s2.1:添加第一标记字段、第二标记字段、第三标记字段、第四标记字段、第五标记字段和第六标记字段;

11、s2.2:将基站编码字段数据与第j-2条记录的基站编码字段数据比较;若基站编码字段数据与第j-2条记录的基站编码字段数据相同,则对第一标记字段赋值0;否则,对第一标记字段赋值1;

12、s2.3:将基站编码字段数据与第j-3条记录的基站编码字段数据比较;若基站编码字段数据与第j-3条记录的基站编码字段数据相同,则对第二标记字段赋值0;否则,对第二标记字段赋值1,得到新的第二手机信令数据子样本;对新的第二手机信令数据子样本中的每一条当前记录j,执行s23.1-s23.4;s23.1:提取第j+1条记录的第一标记字段数据对第三标记字段赋值;s23.2:提取第j+1条记录的第二标记字段数据对第四标记字段赋值;s23.3:提取第j+2条记录的第二标记字段数据为第五标记字段赋值;s23.4:判断第一标记字段数据、第二标记字段数据、第三标记字段数据、第四标记字段数据和第五标记字段数据中是否至少存在一个为0;若是,则对第六标记字段赋值0;否则,将第六标记字段赋值为当前记录j在新的第二手机信令数据子样本本文档来自技高网...

【技术保护点】

1.一种面向数据库平台的通勤出行行为识别方法,其特征在于,包括以下步骤:

2.根据权利要求1所述的一种面向数据库平台的通勤出行行为识别方法,其特征在于,

3.根据权利要求2所述的一种面向数据库平台的通勤出行行为识别方法,其特征在于,获取第三手机信令数据样本,包括以下步骤:

4.根据权利要求或3所述的一种面向数据库平台的通勤出行行为识别方法,其特征在于,获取第五手机信令数据样本,包括以下步骤:

5.根据权利要求4所述的一种面向数据库平台的通勤出行行为识别方法,其特征在于,获取六手机信令数据样本,包括以下步骤:

6.一种面向数据库平台的通勤出行行为识别系统,其特征在于,包括:

7.根据权利要求6所述的一种面向数据库平台的通勤出行行为识别系统,其特征在于,

8.根据权利要求7所述的一种面向数据库平台的通勤出行行为识别方法,其特征在于,第二数据处理模块包括:

9.根据权利要求8所述的一种面向数据库平台的通勤出行行为识别方法,其特征在于,第四数据处理模块包括:

10.根据权利要求9所述的一种面向数据库平台的通勤出行行为识别方法,其特征在于,第五数据处理模块包括:

...

【技术特征摘要】

1.一种面向数据库平台的通勤出行行为识别方法,其特征在于,包括以下步骤:

2.根据权利要求1所述的一种面向数据库平台的通勤出行行为识别方法,其特征在于,

3.根据权利要求2所述的一种面向数据库平台的通勤出行行为识别方法,其特征在于,获取第三手机信令数据样本,包括以下步骤:

4.根据权利要求或3所述的一种面向数据库平台的通勤出行行为识别方法,其特征在于,获取第五手机信令数据样本,包括以下步骤:

5.根据权利要求4所述的一种面向数据库平台的通勤出行行为识别方法,其特征在于,获取六手机信令数...

【专利技术属性】
技术研发人员:张晓荣曹塽唐鹏周垠蒋源张娜于儒海
申请(专利权)人:成都市规划设计研究院
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1