大数据环境下出行OD节点识别和节点间路径提取方法技术

技术编号:17414912 阅读:88 留言:0更新日期:2018-03-07 10:20
本发明专利技术提供了一种大数据环境下出行OD节点识别和节点间路径提取方法,利用移动终端个体在指定时间范围内的空间活动数据集,挖掘大量个体的出行轨迹数据,对其进行拟合插值,获得等时间间隔的个体出行时空序列;采用空间聚类方法在个体出行时空序列中搜索可能的聚类区域,并通过比较聚类区域中心点与聚类区域外部节点的交角差判定提取出的聚类点是否是OD点,并对用户出行时空序列进行分割。本发明专利技术可以低成本、自动化、便捷地获取指定时间范围内大量人口的出行时空序列,利用空间聚类算法和加权平均方法,快速地找出带有OD特征的节点区域,依据规则进行OD点判别,从而便捷、高效地对用户的出行时空序列进行基于OD节点的路段分割。

OD node identification and path extraction between nodes in large data environment

The invention provides a large data environment to travel OD nodes identification and inter node path extraction method, the use of mobile data terminal of individual space activities within the specified time range set, mining a large number of individual travel trajectory data fitting, interpolation of the individual travel time series with equal time intervals; the spatial clustering method the search area may be in the clustering of individual travel time series, and through the comparison of angle clustering region center and clustering region external node clustering to determine whether the difference is extracted from the OD, and the user for time series segmentation. The invention can low cost, automation, convenient access to the specified travel time series is a large population within a time range, by using spatial clustering algorithm and weighted average method, quickly find out the node area with OD features, according to the rules of OD discrimination, thus convenient and efficient for users travel time series segmentation OD node based on the road.

【技术实现步骤摘要】
大数据环境下出行OD节点识别和节点间路径提取方法
本专利技术涉及一种大数据环境下、基于海量匿名加密时间序列定位数据的出行OD节点识别和OD节点间路径提取方法,属于大数据分析

技术介绍
近年来,随着信息技术的发展,数据信息量呈现爆炸式增长,数据来源越来越多,数据量也越来越庞大。其中,由手机、WIFI、物联网等信息传感器记录的数据已经成为大数据分析中最重要的数据来源,其较为完备的个体出行记录为大数据、尤其是交通大数据分析提供了很好的数据支持。以手机为例,至2015年,手机用户达到13.06亿,占到总人口的96%以上,手机终端设备持续产生的信号信息,形成了记录用户出行的一系列数据集,为分析城市人群出行、滞留等行为提供了重要的数据来源。然而,目前可供获得的手机信令大数据只包含了匿名加密用户与基站的通信记录,其中与用户出行行为相关的只有通信时间和基站编号等,用户的出行行为(包括出行的起止点、中间停留地、出行路径、出行方式等)只是蕴含在手机信令中,并没有直接表现出来,这就需要一种高效、简洁的算法对以手机信令数据构成的用户出行轨迹数据进行处理,识别出用户出行的O-D点,分割用户出行的O-D路径,提取用户的出行行为特征。现有技术中,并没有这样的算法。
技术实现思路
本专利技术要解决的技术问题是提供一种用于对以手机信令数据构成的用户出行轨迹数据进行处理,识别出用户出行的O-D点,分割用户出行的O-D路径的方法。为了解决上述技术问题,本专利技术的技术方案是提供一种大数据环境下出行OD节点识别和节点间路径提取方法,其特征在于,该方法由以下5个步骤组成:步骤1、读取从传感器运营商获取的匿名加密移动终端传感器数据,匿名加密移动终端传感器数据理论上在时间与空间上连续,不同移动终端对应不同的用户唯一编号EPID,提取每个EPID在指定时间段内所触发的通信信令记录,构成该EPID的出行数据集;步骤2、依次提取每个EPID在指定时间段内与传感器的通信记录,按时间顺序排序,建立用户出行轨迹数据集;从时间起点t0出发,以T时间为间隔对出行数据的空间位置进行插值,构建由真实点和插值点构成的用户出行时空序列;步骤3、对用户出行时空序列中O-D点的节点聚类密度ρ和O-D点半径内的最小节点数量ε,以及O-D点前后出行时空序列的交角进行分析,设置参数的初始化,同时制定O-D点的判别规则;步骤4、基于DBSCAN算法,设计一种基于距离的空间聚类算法;即在步骤2得到的聚类参数的基础上,对用户出行时空序列数据上的插值点进行空间聚类,提取出节点的聚类簇,从中提取出聚类簇中的最核心点;计算从最核心点出发,到节点聚类簇前后的第一个节点的方向角,计算用户在节点簇前后的出行时空序列的交角;步骤5、根据步骤2得到的判别规则,判别步骤4得到的聚类簇是否是用户出行时空序列上的O-D点,对判别得到的O-D聚类簇进行整理,将其最核心节点作为O-D点,查找其原始的相近位置的记录点,将其位置投影到地图上,记录其实际的所在位置;根据提取得到的O-D点分割用户的出行数据,得到分段的、已表明起始点的用户出行轨迹。优选地,所述步骤1包括:步骤1.1、读取从传感器运营商获取匿名加密移动终端传感器数据,理论上匿名加密移动终端传感器数据在时间与空间上都应该是连续的,包括:用户唯一编号EPID、通信动作类型TYPE、通信动作发生时刻TIME、传感器所处大区REGIONCODE、传感器具体编号SENSORID;其中,传感器所处大区REGIONCODE及传感器具体编号SENSORID构成了传感器编号;步骤1.2、一条匿名加密移动终端传感器数据为一个信令记录,对每条信令记录进行解密;步骤1.3、根据用户唯一编号EPID,查询其在指定时间段内所有的通讯记录,构建用户出行轨迹数据。更优选地,所述步骤2包括:步骤2.1、提取步骤1.3得到的用户出行轨迹数据中的所有的固定传感器编号REGIONCODE-SENSORID及其对应的经纬度坐标LON-LAT,将经纬度坐标转换为地理坐标X-Y;步骤2.2、遍历用户出行轨迹数据,将其按触发通信时间TIMESTAMP顺序排列;步骤2.3、从时间起点开始遍历出行数据,相邻的每3个通信记录点拟合一条二次曲线,二次曲线的x轴为用户出行轨迹的时间,y轴为通信记录点的X-Y坐标;设用户的出行轨迹包含n个通信记录点,n为正整数,则总共需要拟合出2n-4条二次曲线;步骤2.4、从整数时间起点t0出发,按时间间隔T计算用户在每个时间点的X-Y坐标,相同时间X(t0+nT)和Y((t0+nT)构成一个插值点,除首尾两段外,其余通信点之间都存在2条拟合曲线,在此之间的插值点的X-Y坐标由两条曲线的计算结果求平均得到;步骤2.5、所有插值点按时间顺序排序,所有插值点构成用户出行时空序列。优选地,所述步骤3包括:步骤3.1、选取若干已明确行迹中O-D点的用户出行时空序列作为样本,形成样本时空序列,分析并标出其O-D区域,O-D区域即O-D节点集合;步骤3.2、遍历样本时空序列,查找出每个O-D区域的第一个节点和最后一个节点,假设有n1个节点,n1为正整数,从第一个节点开始,分段计算O-D区域节点之间的空间距离,总共有n1-1段,对这些距离进行加和,计算O-D区域节点密度ρ为步骤3.3、计算O-D区域的加权中心,权重w为O-D区域内节点距离其排序中心点的序号差,若O-D区域内节点数为n1个,则第1个和第n1个节点的权重w最小,第个节点的权重最大,整个O-D区域的中心点C的X-Y坐标(Xc、Yc)为:步骤3.4、根据O-D区域的中心点C和O-D区域的前后第一个点F1、B1的坐标,将F1-C和C-B1相连,假设F1坐标为(XF,YF),B1坐标为(XB,YB),C坐标为(XC,YC),已知三点坐标求F1-C和C-B1的交角差∠C:其中,DFC为节点F1和节点C之间的距离,DCB为节点C和节点B1之间的距离,DFB为节点F1和节点B1之间的距离;步骤3.5、根据对样本出行时空序列的分析,得到的节点空间聚类和O-D点判别的参数,即O-D区域的节点距离密度和节点个数,以及用户行程轨迹在O-D点区域的折返角度差大小,对样本数据的分析结果进行均值处理,得到批量O-D点识别的判别条件,即O-D区域的节点距离密度的临界阈值Thr-ρ和节点个数临界阈值Thr-ε,以及在不满足Thr-ρ的情况下,O-D点两端行程折返角度差Thr-∠。更优选地,所述步骤3.2中,O-D区域节点密度ρ的计算公式中,分子减1是保证路段数和节点数一致,分母加1是防止出现0的情况。更优选地,所述步骤4包括:步骤4.1、从数据库中读取已由步骤2处理完的当前待处理的用户出行时空序列数据,从时间起点开始遍历,以每个节点为中心,查找其前后邻域中的Thr-ε个临近节点,前后邻域各个;步骤4.2、假设当前遍历到节点n2,n2为正整数,则其前后临近点的边界为节点和统计从节点到节点的分段距离加和其中,依据步骤3.2,计算在节点个数临界阈值Thr-ε下,以节点n2为中心的邻域的节点密度;步骤4.3、判断以点n2为中心的邻域的节点密度是否大于临界阈值Thr-ρ;若大于Thr-ρ,则该节点领域内为密度可达,将该邻域标注为一个准节点聚类簇,令其密度相连,将本文档来自技高网...
大数据环境下出行OD节点识别和节点间路径提取方法

【技术保护点】
一种大数据环境下出行OD节点识别和节点间路径提取方法,其特征在于,该方法由以下5个步骤组成:步骤1、读取从传感器运营商获取的匿名加密移动终端传感器数据,匿名加密移动终端传感器数据理论上在时间与空间上连续,不同移动终端对应不同的用户唯一编号EPID,提取每个EPID在指定时间段内所触发的通信信令记录,构成该EPID的出行数据集;步骤2、依次提取每个EPID在指定时间段内与传感器的通信记录,按时间顺序排序,建立用户出行轨迹数据集;从时间起点t0出发,以T时间为间隔对出行数据的空间位置进行插值,构建由真实点和插值点构成的用户出行时空序列;步骤3、对用户出行时空序列中O‑D点的节点聚类密度ρ和O‑D点半径内的最小节点数量ε,以及O‑D点前后出行时空序列的交角进行分析,设置参数的初始化,同时制定O‑D点的判别规则;步骤4、基于DBSCAN算法,设计一种基于距离的空间聚类算法;即在步骤2得到的聚类参数的基础上,对用户出行时空序列数据上的插值点进行空间聚类,提取出节点的聚类簇,从中提取出聚类簇中的最核心点;计算从最核心点出发,到节点聚类簇前后的第一个节点的方向角,计算用户在节点簇前后的出行时空序列的交角;步骤5、根据步骤2得到的判别规则,判别步骤4得到的聚类簇是否是用户出行时空序列上的O‑D点,对判别得到的O‑D聚类簇进行整理,将其最核心节点作为O‑D点,查找其原始的相近位置的记录点,将其位置投影到地图上,记录其实际的所在位置;根据提取得到的O‑D点分割用户的出行数据,得到分段的、已表明起始点的用户出行轨迹。...

【技术特征摘要】
1.一种大数据环境下出行OD节点识别和节点间路径提取方法,其特征在于,该方法由以下5个步骤组成:步骤1、读取从传感器运营商获取的匿名加密移动终端传感器数据,匿名加密移动终端传感器数据理论上在时间与空间上连续,不同移动终端对应不同的用户唯一编号EPID,提取每个EPID在指定时间段内所触发的通信信令记录,构成该EPID的出行数据集;步骤2、依次提取每个EPID在指定时间段内与传感器的通信记录,按时间顺序排序,建立用户出行轨迹数据集;从时间起点t0出发,以T时间为间隔对出行数据的空间位置进行插值,构建由真实点和插值点构成的用户出行时空序列;步骤3、对用户出行时空序列中O-D点的节点聚类密度ρ和O-D点半径内的最小节点数量ε,以及O-D点前后出行时空序列的交角进行分析,设置参数的初始化,同时制定O-D点的判别规则;步骤4、基于DBSCAN算法,设计一种基于距离的空间聚类算法;即在步骤2得到的聚类参数的基础上,对用户出行时空序列数据上的插值点进行空间聚类,提取出节点的聚类簇,从中提取出聚类簇中的最核心点;计算从最核心点出发,到节点聚类簇前后的第一个节点的方向角,计算用户在节点簇前后的出行时空序列的交角;步骤5、根据步骤2得到的判别规则,判别步骤4得到的聚类簇是否是用户出行时空序列上的O-D点,对判别得到的O-D聚类簇进行整理,将其最核心节点作为O-D点,查找其原始的相近位置的记录点,将其位置投影到地图上,记录其实际的所在位置;根据提取得到的O-D点分割用户的出行数据,得到分段的、已表明起始点的用户出行轨迹。2.如权利要求1所述的一种大数据环境下出行OD节点识别和节点间路径提取方法,其特征在于,所述步骤1包括:步骤1.1、读取从传感器运营商获取匿名加密移动终端传感器数据,理论上匿名加密移动终端传感器数据在时间与空间上都应该是连续的,包括:用户唯一编号EPID、通信动作类型TYPE、通信动作发生时刻TIME、传感器所处大区REGIONCODE、传感器具体编号SENSORID;其中,传感器所处大区REGIONCODE及传感器具体编号SENSORID构成了传感器编号;步骤1.2、一条匿名加密移动终端传感器数据为一个信令记录,对每条信令记录进行解密;步骤1.3、根据用户唯一编号EPID,查询其在指定时间段内所有的通讯记录,构建用户出行轨迹数据。3.如权利要求2所述的一种大数据环境下出行OD节点识别和节点间路径提取方法,其特征在于,所述步骤2包括:步骤2.1、提取步骤1.3得到的用户出行轨迹数据中的所有的固定传感器编号REGIONCODE-SENSORID及其对应的经纬度坐标LON-LAT,将经纬度坐标转换为地理坐标X-Y;步骤2.2、遍历用户出行轨迹数据,将其按触发通信时间TIMESTAMP顺序排列;步骤2.3、从时间起点开始遍历出行数据,相邻的每3个通信记录点拟合一条二次曲线,二次曲线的x轴为用户出行轨迹的时间,y轴为通信记录点的X-Y坐标;设用户的出行轨迹包含n个通信记录点,n为正整数,则总共需要拟合出2n-4条二次曲线;步骤2.4、从整数时间起点t0出发,按时间间隔T计算用户在每个时间点的X-Y坐标,相同时间X(t0+nT)和Y((t0+nT)构成一个插值点,除首尾两段外,其余通信点之间都存在2条拟合曲线,在此之间的插值点的X-Y坐标由两条曲线的计算结果求平均得到;步骤2.5、所有插值点按时间顺序排序,所有插值点构成用户出行时空序列。4.如权利要求1所述的一种大数据环境下出行OD节点识别和节点间路径提取方法,其特征在于,所述步骤3包括:步骤3.1、选取若干已明确行迹中O-D点的用户出行时空序列作为样本,形成样本时空序列,分析并标出其O-D区域,O-D区域即O-D节点集合;步骤3.2、遍历样本时空序列,查找出每个O-D区域的第一个节点和最后一个节点,假设有n1个节点,n1为正整数,从第一个节点开始,分段计算O-D区域节点之间的空间距离,总共有n1-1段,对这些距离进行加和,计算O...

【专利技术属性】
技术研发人员:张颖顾高翔刘杰吴佳玲王伟娟常华威
申请(专利权)人:上海世脉信息科技有限公司
类型:发明
国别省市:上海,31

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1