当前位置: 首页 > 专利查询>复旦大学专利>正文

基于辅助监督学习的行程时间估计方法技术

技术编号:19826898 阅读:27 留言:0更新日期:2018-12-19 16:36
本发明专利技术属于智能交通技术领域,具体为一种基于辅助监督学习的行程时间估计方法。其从海量历史轨迹数据中寻找统计规律,通过端到端的深度学习模型对整个行程的时间进行整体的估计;步骤包括:特征提取和表示阶段,对轨迹数据进行预处理,分别抽取它的时间和空间特征,驾驶状态特征,短时间和长时间的交通状况特征;训练和预测阶段,将这些提取的特征用统一的双向循环神经网络进行训练和预测;循环神经网络每一步都输出通过当前小区域的时间开销;这些小区域的时间开销的总和即为总路径的时间开销。同时,还引入双向区间损失函数来约束中间时间开销。本方法可高效准确地对城市中的车辆行程时间进行估计,在实际环境下具有较好的效果。

【技术实现步骤摘要】
基于辅助监督学习的行程时间估计方法
本专利技术属于智能交通
,具体涉及一种基于辅助监督学习的行程时间估计方法。
技术介绍
行程时间估计是城市交通领域一个必不可少的重要技术,可以为人们的出行通勤提供帮助,也可以为政府规划决策提供支持。但这并不是一个简单的小问题,而是会受到各种动态因素的影响,如交通动态,路口状况,司机驾驶行为的变化和历史周期性的数据演化等等。这些因素导致行程时间估计存在不确定性和难度。随着支持GPS的移动设备的发展和普及,目前已经有大量的轨迹数据在源源不断地产生,并且覆盖城市的各个角落。有了这些海量的历史轨迹数据,我们可以挖掘数据背后的内在规律,通过构建算法模型来学习出行程时间的变化的周期和趋势,从而更加准确地推断当前查询轨迹所需的时间开销。目前已有的方法大多采用分而治之(divide-and-conquer)的方法,主要是通过将路径分解一系列的路段或者子路径这两类。(1)基于单一路段的方法:基于单路段的方法主要通过估计每一条单一路段的轨迹经过时的平均速度,进而根据路段长度计算出经过的平均时间开销,最后将各个路段的时间和累加得到总的时间。但这种方法没有考虑路段之间的路口时间开销。另外,这种估计严重依赖于高质量的速度数据,而这往往在轨迹数据中无法得到。(2)基于子路径的方法:基于子路径的方法主要通过将路径分割成一系列的子路径方法,使得路口的时间开销也得到考虑。主要思路都是对历史数据中丰富的公共子路径信息进行拼接和挖掘。尽管这种方法可以克服单一路段方法的许多缺陷,但它仍然是基于启发式设计,而不是直接将行程时间作为算法优化目标。总而言之,目前已有的方法无法达到令人满意的准确性有两个方面的原因。一个是它们没有把路径看成一个整体,而是拆分成各个子块。在这一拆分过程中,损失了很多有用的信息。并且,它们没有充分利用轨迹数据特有的中间监督标签,也就是每一个中间GPS采样点的时间戳信息。另一方面,随着深度学习技术的发展和繁荣,更多的问题可以通过端到端一体式地解决,相较于传统启发式模型要更为高效。并且,深度学习有着强大的表征能力,与手工模型相比,可以捕捉到更多的潜在特征,能够处理行程估计问题中各种复杂的动态性。
技术实现思路
本专利技术的目的是针对传统的两类行程时间估计技术的局限性,提出一种基于辅助监督学习的历史轨迹的行程时间估计方法,以克服现有技术的不足。本专利技术方法从海量历史轨迹数据中寻找统计规律,通过端到端的深度学习模型对整个行程的时间进行整体的估计。基本步骤包括:特征提取和表示阶段,对轨迹数据进行预处理,分别抽取它的各方面特征;训练和预测阶段,将这些提取的特征用一个统一的双向循环神经网络进行训练和预测;循环神经网络每一步都输出通过当前小区域的时间开销;这些小区域的时间开销的总和即为总路径的时间开销;为了更加有效地进行训练,还引入了双向区间损失函数来约束中间时间开销。本专利技术提出的基于辅助监督学习的历史轨迹的行程时间估计方法,分为如下三个阶段:(一)特征提取和表示阶段,对历史轨迹数据进行预处理,抽取它的各方面特征(包括时间特征和空间特征,驾驶状态特征,短时间和长时间的交通状况特征等)。具体步骤为:步骤(1),在城市范围内,根据经纬度坐标对网格进行细粒度划分,形成一个个相邻的矩形小区域。将按时间顺序排序,由GPS坐标组成的轨迹序列中的每一个坐标点映射到对应的小区域中,形成一个由网格坐标组成的序列。对于相邻轨迹点距离较远,落在不连续的小区域内的情况,可以地图匹配等算法得到中间经过路径,补全这部分不连续的区域信息。步骤(2),对于每一个网格,挖掘它不同方面的特征。首先,使用嵌入向量技术来挖掘潜在语义信息。嵌入向量技术在自然语言处理和社交网络等领域等到了广泛的使用,主要是利用低维的实数向量来代表每一个词或者事物的语义信息,通过向量空间中的距离关系来衡量实物之间的对应关系。本专利技术利用嵌入向量技术来表征每一个网格小区域在不同空间以及不同时间段的语义信息。这些信息包含了城市不同的功能区域(例如居民区,商业区或工业区等等)空间区位信息,也包括了早高峰,周末等时间信息。具体地,利用低维向量来表示每一个网格的空间向量Vsp,将一天划分成多个时间桶(例如一个小时一个桶),每一条轨迹根据具体落入的时间桶来得到时间向量Vtp。对Vsp和Vtp进行随机初始化,之后在模型训练时跟着模型一起训练。步骤(3),司机在开车时,在不同的行驶状态时,行驶的速度和驾驶行为都会发生变化。例如,车辆在行驶路径的中间部分时,会更倾向于行驶在大路或者高架上,这时速度会更快。而在刚出发或者快到终点时,由于行驶在小路或者人多的区域,往往速度就会变慢。具体地,使用四维向量Vdri来表示当前行驶阶段是出发阶段,中途阶段,还是结束阶段,以及在各个阶段已经行驶的比例。例如,Vdri=(1,0,0,0.2)表示司机行驶在开始阶段,占了总行程的20%。步骤(4),在一个区域内的交通状况,往往随着时间演变会有周期性和规律性的变化。例如,如果一个路段在8点到8点半都很堵,那么8点35分它也可能很堵。也就是说,过去短时间内的交通状况信息,对预测当前的交通状态很有帮助。定义该短时间的交通状况特征为Vshort。与此同时,长时间周期性的交通状况变化也能帮助预测当前交通状况,例如工作日和周末的交通状况变化规律。定义该长时间的交通状况特征为Vlong。具体来说,定义:表示在过去第j个时间区间内,当前小区域gi的交通状况,其中vj表示历史平均速度,nj表示历史轨迹数据数量,leni/vj表示粗略估计的通过时间。将这些交通状况特征按照历史时间顺序输入到一个子循环神经网络中,可以抽取出交通状况特征。另外,由于历史数据在不同空间区域分布不均衡,有些区域轨迹经过数量较少,可能会对估计的准确性造成影响。为了解决这一数据稀疏问题,将邻接小区域的交通状况信息也考虑进来,即定义:表示距离gi距离不超过d的网格集合,收集它们过去短时的交通状况特征,一起输入到神经网络中。其中,x,y表示网格的坐标,gj表示除gi以外的其他网格。(二)训练阶段,将历史轨迹数据中提取的特征输入到一个统一的双向循环神经网络(bidirectionalLSTM,参考文献:GravesA,SchmidhuberJ.FramewisephonemeclassificationwithbidirectionalLSTMandotherneuralnetworkarchitectures[J].NeuralNetworks,2005,18(5-6):602-610.)进行训练,并且以双向区间损失函数作为训练的约束;具体步骤为:步骤(1),构建循环神经网络。定义网络隐层为输入数据为那么,第t步的输入数据为xt,第t步得到的计算结果为ht,则有:ht=φ(xt·Wx+ht-1·Wh+b)(3)其中,是输入数据的权重矩阵(weightmatrix),是隐层的权重矩阵,是偏置参数(bias)。φ表示一个非线性激活函数,可以是sigmoid函数,ReLU函数,tanh函数等等。也就是说隐状态可以表示为函数:ht=f(ht-1,xt)(4)在这基础上,定义遗忘门为:ft=σ(Wf·[ht-1,xt]+bf)(5)输入门为:it=σ(Wi·[本文档来自技高网
...

【技术保护点】
1.一种基于辅助监督学习的行程时间估计方法,其特征在于,分为三个阶段:(一)特征提取和表示阶段,对历史轨迹数据进行预处理,抽取它的各方面特征;(二)训练阶段,将历史轨迹数据中提取的特征输入到一个统一的双向循环神经网络进行训练,并且以双向区间损失函数作为训练的约束;(三)预测阶段,用双向循环神经网络对查询路径中提取的特征进行推断并估计行程时间;(一)特征提取和表示阶段的具体步骤为:步骤(1),在城市范围内,根据经纬度坐标对网格进行细粒度划分,形成一个个相邻的矩形小区域;将由按时间顺序排序的历史GPS坐标组成的轨迹序列中的每一个坐标点映射到对应的小区域中,形成一个由网格坐标组成的序列;步骤(2),对于每一个网格,挖掘它不同方面的特征;首先,利用嵌入向量技术来表征每一个网格小区域在不同空间以及不同时间段的语义信息;这些信息包含城市不同的功能区域空间区位信息,也包括早高峰,周末等时间信息;具体地,利用低维向量来表示每一个网格的空间向量Vsp,将一天划分成多个时间桶,每一条轨迹根据具体落入的时间桶来得到时间向量Vtp;对Vsp和Vtp进行随机初始化,之后在模型训练时跟着模型一起训练;步骤(3),使用四维向量Vdri来表示当前行驶阶段是出发阶段,中途阶段,还是结束阶段,以及在各个阶段已经行驶的比例;步骤(4),定义短时间交通状况特征为Vshort,定义长时间交通状况特征为Vlong,具体地,定义:...

【技术特征摘要】
1.一种基于辅助监督学习的行程时间估计方法,其特征在于,分为三个阶段:(一)特征提取和表示阶段,对历史轨迹数据进行预处理,抽取它的各方面特征;(二)训练阶段,将历史轨迹数据中提取的特征输入到一个统一的双向循环神经网络进行训练,并且以双向区间损失函数作为训练的约束;(三)预测阶段,用双向循环神经网络对查询路径中提取的特征进行推断并估计行程时间;(一)特征提取和表示阶段的具体步骤为:步骤(1),在城市范围内,根据经纬度坐标对网格进行细粒度划分,形成一个个相邻的矩形小区域;将由按时间顺序排序的历史GPS坐标组成的轨迹序列中的每一个坐标点映射到对应的小区域中,形成一个由网格坐标组成的序列;步骤(2),对于每一个网格,挖掘它不同方面的特征;首先,利用嵌入向量技术来表征每一个网格小区域在不同空间以及不同时间段的语义信息;这些信息包含城市不同的功能区域空间区位信息,也包括早高峰,周末等时间信息;具体地,利用低维向量来表示每一个网格的空间向量Vsp,将一天划分成多个时间桶,每一条轨迹根据具体落入的时间桶来得到时间向量Vtp;对Vsp和Vtp进行随机初始化,之后在模型训练时跟着模型一起训练;步骤(3),使用四维向量Vdri来表示当前行驶阶段是出发阶段,中途阶段,还是结束阶段,以及在各个阶段已经行驶的比例;步骤(4),定义短时间交通状况特征为Vshort,定义长时间交通状况特征为Vlong,具体地,定义:表示在过去第j个时间区间内,当前小区域gi的交通状况,其中vj表示历史平均速度,nj表示历史轨迹数据数量,leni/vj表示粗略估计的通过时间;将这些交通状况特征按照历史时间顺序输入到一个子循环神经网络中,用以抽取出交通状况特征;另外,考虑邻接小区域的交通状况信息,即定义:表示距离gi距离不超过d的网格集合,收集它们过去短时的交通状况特征,一起输入到神经网络中;其中,x,y表示网格的坐标,gj表示除gi以外的其他网格;(二)训练阶段的具体步骤为:步骤(1),构建循环神经网络;定义网络隐层为输入数据为那么,第t步的输入数据为xt,第t步得到的计算结果为ht,则有:ht=φ(xt·Wx+ht-1·Wh+b)(3)其中,是输入数据的权重矩阵(weightmatrix),是隐层的权重矩阵,是偏置参数(bias);即隐状态表示为函数:ht=f(ht-1,xt)(4)在这基础上,定义遗忘门为:ft=σ(Wf·[ht-1,xt]+bf)(5)输入门为:it=σ(Wi·[ht-1,xt]+bi)(6)输出门为:ot=σ(Wo[ht-1,xt]+bo)(7)记忆单元的更新为:隐层的更新为:ht=Ot·tanh(Ct)(10)其中,Wf,...

【专利技术属性】
技术研发人员:孙未未章瀚元吴昊
申请(专利权)人:复旦大学
类型:发明
国别省市:上海,31

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1