一种基于深度Q网络的共享单车预测调度方法技术

技术编号:27316532 阅读:26 留言:0更新日期:2021-02-10 09:49
本发明专利技术公开了一种基于深度Q网络的共享单车预测调度方法,包括步骤:1、设计用于模拟共享单车实际调度的仿真环境;2、获取用户信息并构建用户行为数据矩阵;3、训练由线性回归模型和SVM模型构成的预测网络模型;4、结合预测网络模型训练基于深度Q网络的预测调度模型;5利用训练完成的模型进行实时调度。本发明专利技术能够在缺乏足够训练数据的情况下,通过结合线性回归模型、SVM模型及深度Q网络的深度强化学习方法提前预测出未来时间段各用车区域的用车需求,从而提前对各用车区域的共享单车实施快捷、合理的调度。理的调度。理的调度。

【技术实现步骤摘要】
一种基于深度Q网络的共享单车预测调度方法


[0001]本专利技术属于共享单车调度领域,具体的说是一种基于深度Q网络的共享单车预测调度方法。

技术介绍

[0002]随着社会的进步,共享经济已越来越普遍的出现在我们身边。以共享单车的出现很大程度上解决了人们出行最后一公里的问题,但共享单车的不合理摆放问题也一直困扰着各级管理者。其主要问题在于各区域单车数量与用车需求不匹配,使得有些区域堆积了大量的闲置单车,而有的区域却无车可用。因此如何使得各个区域的共享资源合理的调配,从而避免资源的浪费,一直是困扰提供共享服务的公司的难题。
[0003]以往共享单车的调度大多基于各区域平均分配的思想,很少考虑不同类型的区域和不同时间段的用车需求差异,从而导致部分区域共享单车堆积而有些区域却无车可用的情况。调度算法普遍应用于生活中的各个领域,如电梯调度算法、基于时间片的轮转调度算法等,随着大数据和人工智能技术的蓬勃发展,传统单一的调度算法已无法满足当前的需求。

技术实现思路

[0004]本专利技术是为了解决上述现有技术存在的不足之处,提出一种基于深度Q网络的共享单车预测调度方法,以期能提前预测出未来时间段各用车区域的用车需求,从而使共享单车的调度更加合理、高效,充分发挥共享优势。
[0005]本专利技术为达到上述专利技术目的,采用如下技术方案:
[0006]本专利技术一种基于深度Q网络的共享单车预测调度方法的特点在于包括以下步骤:
[0007]步骤1:建立用车区域模型以及无人调度运输车运行环境模型;
[0008]步骤2:收集用车区域k所有用户的日常行为数据、用车区域k的单车数量h
k
和用车区域k的历史用车时间t
k
对应的用车数量,其中,用车区域k中用户i产生的第j条记录的日常行为数据记为d
ij
,且,且表示用户i产生的第j条记录的天气信息所转换的one-hot编码形式向量,表示用户i产生的第j条记录的时间信息,表示用户i产生的第j条记录的骑行道路信息,包括起始点、终点和路线选择,表示用户i产生的第j条记录的用车信息,从而得到用户行为数据矩阵记为D=(d
ij
)
M
×
N

[0009]步骤3:训练由线性回归模型和SVM模型构成的预测网络模型:
[0010]步骤3.1:构造线性回归模型,并以用车区域k的历史用车时间t
k
及其对应的用车数量为输入变量,对所述线性回归模型的超参数进行优化,直至线性回归模型收敛为止,从而得到预测模型用于预测用车区域k未来时间段的用车数量n

k

[0011]步骤3.2:构造SVM模型,并以所述用户行为数据矩阵D为输入变量,对所述SVM模型进行训练,得到训练后的SVM模型用于得到分类结果,所述分类结果表示用户i的用车需求,
若分类结果为1,表示用户i需要用车,否则,表示用户i不需要用车,再根据所述分类结果计算得到用车区域k未来时间段的预计用车量n

k

[0012]步骤3.3:由所述用车区域k未来时间段的用车数量n

k
以及所述未来时间段的预计用车量n

k
,加权计算得到所述预测网络模型的预测结果,即用车区域k未来时间段的预计用车量n
k

[0013]步骤4:重复步骤2和步骤3,直至计算出所有用车区域的预计用车数量;
[0014]步骤5:定义动作指令集a={a1,

,a
t
,

a
m
},a
t
表示t时刻无人调度运输车的动作信息,且a
t
={η
t

t
},η
t
表示t时刻车辆的方向信息,κ
t
表示t时刻调度运输车是否收起或放下单车;定义状态指令集s={s0,

,s
t
,

s
m
},s
t
表示t时刻无人调度运输车运行环境状态信息,且s
t
={ρ
t

t

t
},ρ
t
表示t时刻各用车区域的单车数量信息,即ρ
t
=(n
t1
,

,n
tk
,

,n
tX
),其中,n
tk
表示t时刻区域k的预计用车量,X表示用车区域总数,ι
t
表示t时刻调度运输车的位置信息,μ
t
表示t时刻各用户的位置信息;
[0015]步骤6:利用式(1)设置奖励函数R:
[0016]R=R
pr
+R
a
+R
n
ꢀꢀꢀꢀ
(1)
[0017]式(1)中,R
pr
表示预测网络模型的奖励函数,并有:
[0018][0019]式(2)中,ζ表示奖励惩罚系数,ζ∈(0,1);
[0020]式(1)中,R
a
表示无人调度运输车的固定动作奖励,并有:
[0021][0022]式(3)中,e为常数;
[0023]式(1)中,R
n
表示单车调度奖励函数,并有:
[0024][0025]式(4)中,Δ表示无人调度运输车是否停在指定用车区域,Δ=1表示停在指定区域,Δ=0表示未停在指定区域,h
k
表示用车区域k已有的单车数量,c
k
表示无人调度运输车在用车区域k放下或带走的单车的数量,b为常数,Γ表示另一奖励惩罚系数,且Γ∈(0,1);
[0026]步骤7:设定学习率为α,奖励衰减系数为γ,更新频率为T,并初始化t=1;
[0027]步骤8:构建基于深度Q网络的预测调度模型:
[0028]步骤8.1:构建预测评价网络模型,包含:一个输入层,一个包含m1层的隐藏层,一个FC层,一个输出层,并采用高斯初始化的方式将所述预测评价网络模型中的网络参数初始化为θ0;
[0029]步骤8.2:构建与所述预测评价网络模型的相同结构的预测目标网络模型,并采用高斯初始化的方式将所述预测目标网络模型中的网络参数初始化为
[0030]步骤9:优化预测评价网络模型的参数:
[0031]步骤9.1:利用式(1)计算预测评价网络模型的辅助调节系数σ:
[0032][0033]式(5)中,β表示误差调节系数,max
k
(h
k
+c
k-n
k
)表示所有用车区域中预测用车量的最大误差;
[0034]步骤9.2:利用式(6)本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于深度Q网络的共享单车预测调度方法,其特征在于包括以下步骤:步骤1:建立用车区域模型以及无人调度运输车运行环境模型;步骤2:收集用车区域k所有用户的日常行为数据、用车区域k的单车数量h
k
和用车区域k的历史用车时间t
k
对应的用车数量,其中,用车区域k中用户i产生的第j条记录的日常行为数据记为d
ij
,且,且表示用户i产生的第j条记录的天气信息所转换的one-hot编码形式向量,表示用户i产生的第j条记录的时间信息,表示用户i产生的第j条记录的骑行道路信息,包括起始点、终点和路线选择,表示用户i产生的第j条记录的用车信息,从而得到用户行为数据矩阵记为D=(d
ij
)
M
×
N
;步骤3:训练由线性回归模型和SVM模型构成的预测网络模型:步骤3.1:构造线性回归模型,并以用车区域k的历史用车时间t
k
及其对应的用车数量为输入变量,对所述线性回归模型的超参数进行优化,直至线性回归模型收敛为止,从而得到预测模型用于预测用车区域k未来时间段的用车数量n

k
;步骤3.2:构造SVM模型,并以所述用户行为数据矩阵D为输入变量,对所述SVM模型进行训练,得到训练后的SVM模型用于得到分类结果,所述分类结果表示用户i的用车需求,若分类结果为1,表示用户i需要用车,否则,表示用户i不需要用车,再根据所述分类结果计算得到用车区域k未来时间段的预计用车量n

k
;步骤3.3:由所述用车区域k未来时间段的用车数量n

k
以及所述未来时间段的预计用车量n

k
,加权计算得到所述预测网络模型的预测结果,即用车区域k未来时间段的预计用车量n
k
;步骤4:重复步骤2和步骤3,直至计算出所有用车区域的预计用车数量;步骤5:定义动作指令集a={a1,

,a
t
,

a
m
},a
t
表示t时刻无人调度运输车的动作信息,且a
t
={η
t

t
},η
t
表示t时刻车辆的方向信息,κ
t
表示t时刻调度运输车是否收起或放下单车;定义状态指令集s={s0,

,s
t
,

s
m
},s
t
表示t时刻无人调度运输车运行环境状态信息,且s
t
={ρ
t

t

t
},ρ
t
表示t时刻各用车区域的单车数量信息,即ρ
t
=(n
t1
,

,n
tk
,

,n
tX
),其中,n
tk
表示t时刻区域k的预计用车量,X表示用车区域总...

【专利技术属性】
技术研发人员:史明光盛洲
申请(专利权)人:合肥工业大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1