基于深度逆向强化学习的出行路径决策分析方法及设备技术

技术编号:39257765 阅读:18 留言:0更新日期:2023-10-30 12:09
本发明专利技术公开了基于深度逆向强化学习的出行路径决策分析方法及设备,所述方法包括:获取城市的路网数据集和兴趣点数据集,分别经过频率

【技术实现步骤摘要】
基于深度逆向强化学习的出行路径决策分析方法及设备


[0001]本专利技术涉及出行决策
,尤其涉及一种基于深度逆向强化学习的出行路径决策分析方法、系统、终端及计算机可读存储介质。

技术介绍

[0002]随着移动设备的普及以及通信技术的发展,个体的出行愈发与移动通信网络结合在一起,由此产生的海量手机信令轨迹数据为研究人员提供了新的研究范式。
[0003]而对个体出行轨迹决策进行分析,不仅有助于理解个体的行为模式,而且可以为生活圈规划等问题提供决策依据;但当前关于个体移动模式的方法对不同个体出行决策差异描述不足及个体出行轨迹预测精度较差。因此,现有技术中存在无法描述不同个体出行偏好及个体出行轨迹预测精度低的问题。
[0004]因此,现有技术还有待于改进和发展。

技术实现思路

[0005]本专利技术的主要目的在于提供一种基于深度逆向强化学习的出行路径决策分析方法及设备,旨在解决现有技术中无法描述不同个体出行偏好及个体出行轨迹预测精度低的问题。
[0006]为实现上述目的,本专利技术提供一种基于深度逆向强化学习的出行路径决策分析方法,所述基于深度逆向强化学习的出行路径决策分析方法包括如下步骤:获取相应城市的路网数据集和兴趣点数据集,分别对所述路网数据集和所述兴趣点数据集进行处理得空间几何语义和空间属性语义,基于所述空间几何语义和所述空间属性语义构建语义地图,并得到所述语义地图的时空语义特征;构建低频手机信令数据轨迹模型,获取城市居民特定时间范围内的手机信令数据,基于所述低频手机信令数据轨迹模型对所述手机信令数据进行处理,得到出行决策的格网轨迹,并对所述格网轨迹进行约束匹配得到连续的格网出行轨迹;基于所述时空语义特征对所述格网出行轨迹进行迭代处理得到特定人群出行偏好的奖励函数,基于所述奖励函数得到特定区域的三维奖励地图,并基于所述三维奖励地图的奖励值得到预测出行轨迹;对所述路网数据集、所述兴趣点数据集和所述奖励值构建无向图,对所述无向图进行因果方向分析得到有向因果图,并基于所述有向因果图对城市居民的出行决策偏好进行分析。
[0007]可选地,所述的基于深度逆向强化学习的出行路径决策分析方法,其中,所述获取相应城市的路网数据集和兴趣点数据集,分别对所述路网数据集和所述兴趣点数据集进行处理得空间几何语义和空间属性语义,基于所述空间几何语义和所述空间属性语义构建语义地图,并得到所述语义地图的时空语义特征,具体包括:获取信息平台和开放平台数据接口,基于所述信息平台取得相应城市的路网数据
集,并基于所述开放平台数据接口取得相应城市的兴趣点数据集;根据ArcMap将所述路网数据集和所述兴趣点数据集连接到格网数据,对所述路网数据集进行几何计算得到单格网的路网原始密度,并对所述兴趣点数据集进行空间统计得到单格网的兴趣点原始密度;对所述路网原始密度进行频率

逆频率语义提取得到可达性语义地图,对所述兴趣点原始密度进行频率

逆频率语义提取得到功能区语义地图,并分别提取所述可达性语义地图和所述功能区语义地图的时空语义特征。
[0008]可选地,所述的基于深度逆向强化学习的出行路径决策分析方法,其中,所述构建低频手机信令数据轨迹模型,获取城市居民特定时间范围内的手机信令数据,基于所述低频手机信令数据轨迹模型对所述手机信令数据进行处理,得到出行决策的格网轨迹,并对所述格网轨迹进行约束匹配得到连续的格网出行轨迹,具体包括:获取隐马尔可夫模型和拓扑约束模型,基于所述隐马尔可夫模型和所述拓扑约束模型构建低频手机信令数据轨迹模型,并获取城市居民特定时间范围内的手机信令数据;将所述手机信令数据输入至所述低频手机信令数据轨迹模型得到原始轨迹点,对所述原始轨迹点进行排序得到正确顺序的轨迹点,并基于所述轨迹点对临近路段进行匹配,得到格网初始备选路段;根据第一公式计算所述轨迹点的路段选择概率,根据第二公式计算所述初始备选路段的约束路网选择概率,基于所述路段选择概率和所述约束路网选择概率得到状态转移概率,并基于所述状态转移概率对所述格网初始备选路段进行匹配还原得到连续的格网出行轨迹。
[0009]可选地,所述的基于深度逆向强化学习的出行路径决策分析方法,其中,所述第一公式为:其中,为邻接路段被选择概率,为已匹配的初始备选路段,为已匹配的相邻备选路段,为备选路段末端节点距离终点的欧式距离,n为待匹配路段末端节点编号,m为待匹配路段末端节点数量,i为自然数。
[0010]所述第二公式为:其中,为轨迹点与路段之间距离的选择概率,为轨迹点与路段之间距离的期望,为轨迹点与路段之间距离的标准差,j为自然数,P为初始路段选择概率。
[0011]可选地,所述的基于深度逆向强化学习的出行路径决策分析方法,其中,所述基于所述时空语义特征对所述格网出行轨迹进行迭代处理得到特定人群出行偏好的奖励函数,基于所述奖励函数得到特定区域的三维奖励地图,并基于所述三维奖励地图的奖励值得到预测出行轨迹,具体包括:预先对城市的人群进行筛选得到特定人群,基于所述时空语义特征对所述格网出行轨迹进行处理得到格网特征,对所述格网特征进行迭代处理得到所述特定人群的出行偏好的奖励函数;
基于所述特定人群得到特定区域,将所述奖励函数在所述特定区域进行应用,得到所述特定区域的三维奖励地图,并获取所述三维奖励地图的奖励值;根据价值迭代规划算法对所述奖励值进行处理得到所述特定人群的预测出行轨迹。
[0012]可选地,所述的基于深度逆向强化学习的出行路径决策分析方法,其中,所述对所述路网数据集、所述兴趣点数据集和所述奖励值构建无向图,对所述无向图进行因果方向分析得到有向因果图,并基于所述有向因果图对城市居民的出行决策偏好进行分析,具体包括:将所述路网数据集、所述兴趣点数据集和所述奖励值组成特征向量集合,基于所述特征向量集合构建完全无向图,根据所述完全无向图的特征数量确定相关系数,并基于所述相关系数判断所述完全无向图中的特征之间是否满足独立性;当所述完全无向图中的特征之间满足独立性时,根据PC算法将所述完全无向图中第一特征和第二特征的边进行删除,得到部分无向图,并对所述部分无向图进行d

分离得到所述部分无向图的变量依赖方向;基于所述变量方向将所述部分无向图进行转化,得到城市空间特征

奖励值的部分有向因果图,基于所述部分有向因果图对城市居民的出行偏好进行分析。
[0013]可选地,所述的基于深度逆向强化学习的出行路径决策分析方法,其中,所述相关系数包括皮尔逊相关系数和高阶偏相关系数;当所述完全无向图的特征数量为两个时,基于所述皮尔逊相关系数判断所述完全无向图中的特征之间是否满足独立性;当所述完全无向图的特征数量为多个时,基于所述高阶偏相关系数判断所述完全无向图中的特征之间是否满足独立性。
[0014]可选地,所述的基于深度逆向强化学习的出行路径决策分析方法,其中,所述基于深度逆向强化学习的出行路径决策分析系统包括:语义地图构建模块,用于获取相应城市的路网数据集和兴趣点数据集,分别本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于深度逆向强化学习的出行路径决策分析方法,其特征在于,所述基于深度逆向强化学习的出行路径决策分析方法包括:获取相应城市的路网数据集和兴趣点数据集,分别对所述路网数据集和所述兴趣点数据集进行处理得空间几何语义和空间属性语义,基于所述空间几何语义和所述空间属性语义构建语义地图,并得到所述语义地图的时空语义特征;构建低频手机信令数据轨迹模型,获取城市居民特定时间范围内的手机信令数据,基于所述低频手机信令数据轨迹模型对所述手机信令数据进行处理,得到出行决策的格网轨迹,并对所述格网轨迹进行约束匹配得到连续的格网出行轨迹;基于所述时空语义特征对所述格网出行轨迹进行迭代处理得到特定人群出行偏好的奖励函数,基于所述奖励函数得到特定区域的三维奖励地图,并基于所述三维奖励地图的奖励值得到预测出行轨迹;对所述路网数据集、所述兴趣点数据集和所述奖励值构建无向图,对所述无向图进行因果方向分析得到有向因果图,并基于所述有向因果图对城市居民的出行决策偏好进行分析。2.根据权利要求1所述的基于深度逆向强化学习的出行路径决策分析方法,其特征在于,所述获取相应城市的路网数据集和兴趣点数据集,分别对所述路网数据集和所述兴趣点数据集进行处理得空间几何语义和空间属性语义,基于所述空间几何语义和所述空间属性语义构建语义地图,并得到所述语义地图的时空语义特征,具体包括:获取信息平台和开放平台数据接口,基于所述信息平台取得相应城市的路网数据集,并基于所述开放平台数据接口取得相应城市的兴趣点数据集;根据ArcMap将所述路网数据集和所述兴趣点数据集连接到格网数据,对所述路网数据集进行几何计算得到单格网的路网原始密度,并对所述兴趣点数据集进行空间统计得到单格网的兴趣点原始密度;对所述路网原始密度进行频率

逆频率语义提取得到可达性语义地图,对所述兴趣点原始密度进行频率

逆频率语义提取得到功能区语义地图,并分别提取所述可达性语义地图和所述功能区语义地图的时空语义特征。3.根据权利要求1所述的基于深度逆向强化学习的出行路径决策分析方法,其特征在于,所述构建低频手机信令数据轨迹模型,获取城市居民特定时间范围内的手机信令数据,基于所述低频手机信令数据轨迹模型对所述手机信令数据进行处理,得到出行决策的格网轨迹,并对所述格网轨迹进行约束匹配得到连续的格网出行轨迹,具体包括:获取隐马尔可夫模型和拓扑约束模型,基于所述隐马尔可夫模型和所述拓扑约束模型构建低频手机信令数据轨迹模型,并获取城市居民特定时间范围内的手机信令数据;将所述手机信令数据输入至所述低频手机信令数据轨迹模型得到原始轨迹点,对所述原始轨迹点进行排序得到正确顺序的轨迹点,并基于所述轨迹点对临近路段进行匹配,得到格网初始备选路段;根据第一公式计算所述轨迹点的路段选择概率,根据第二公式计算所述初始备选路段的约束路网选择概率,基于所述路段选择概率和所述约束路网选择概率得到状态转移概率,并基于所述状态转移概率对所述格网初始备选路段进行匹配还原得到连续的格网出行轨迹。
4.根据权利要求3所述的基于深度逆向强化学习的出行路径决策分析方法,其特征在于,所述第一公式为:其中,P
a
为邻接路段被选择概率,p
i
为已匹配的初始备选路段,p
i+1
为已匹配的相邻备选路段,dist(r
n
)为备选路段末端节点r
n
距离终点的欧式距离,n为待匹配路段末端节点编号,m为待匹配路段末端节点数量,i为自然数。所述第二公式为:其中,为轨迹点x
i
与路段p
j
之间距离的选择概率,μ为轨迹点x
i
与路段p
j
之间距离的期望,σ为轨迹点x
i
与路段p<...

【专利技术属性】
技术研发人员:张文佳李博洋武钰林
申请(专利权)人:北京大学深圳研究生院
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1