【技术实现步骤摘要】
一种基于激励用户的共享单车调度系统及方法
[0001]本专利技术属于智能调度
,涉及一种共享单车调度系统,具体涉及一种基于激励用户的共享单车调度系统。
技术背景
[0002]共享单车统作为一种新型的绿色的交通运输方式,已广泛应用于世界各主要城市的短途通行,有效的解决了“最后一公里”的问题,为公众带来了环境和经济效益。而我国的共享单车主要是无桩的共享单车群,是指用户可以在任何有效的地方使用和归还共享单车而不受站点以及站点容量的限制。
[0003]但是,由于用户在时间以及空间上不对称的需求,导致共享单车系统在运行一段时间后共享单车的分布不能很好的满足用户的需求。而对于无桩单车共享系统而言,这种不平衡的现象就会更加严重,有些区域的共享单车大量积压,甚至影响路面交通;而有些区域的共享单车数量却很少,甚至不能满足用户的需求,从而导致用户的需求无法得到满足。然而,增加共享单车的数量并不能有效的解决上述问题,这不仅会导致许多共享单车空闲,造成资源的浪费,还会导致道路堵塞,对环境带来更大的影响。因此,如何有效的对共享单车进行调 ...
【技术保护点】
【技术特征摘要】
1.一种基于激励用户的共享单车调度系统,其特征在于:包括用户基本信息单元、用户骑行信息单元、系统信息统计单元、共享单车投放区域信息单元、区域缺车信息单元、安排调度任务单元、系统奖励单元;所述用户基本信息单元,用以获取用户所注册的个人信息;所述用户骑行信息单元,用以系统获取到的用户的骑行单车时的数据,其包括所骑行的共享单车编号、骑行的起始地、用户的基本信息;所述系统信息统计单元,用以统计用户的历史骑行信息和执行调度任务获取奖励信息;所述共享单车投放区域信息单元,用以系统管理每辆共享单车的所在区域;所述区域缺车信息单元,用以获取到各个区域的单车使用情况和缺车信息;所述系统安排调度任务单元,用以用户到达个人目的地后,系统根据离用户目的地最近的缺车或大量用车区,向用户推荐调度任务;所述系统奖励单元,用以用户执行调度任务后,系统给予用户一定的金钱激励。2.本发明的方法所采用的技术方案是:一种基于激励用户的共享单车调度方法,其特征在于,包括以下步骤:步骤1:用户注册登录到共享单车调度系统中;步骤2:用户定位扫码单车;步骤3:共享单车调度系统记录骑行单车的用户个人信息、用户所骑行的单车编号、骑行的起始位置;步骤4:共享单车调度系统根据用户的历史数据信息来对各个区域未来的用户需求进行预测,同时共享单车调度系统根据当前共享单车的使用情况以及分布状态来生成各个区域的缺车信息;步骤5:共享单车调度系统根据用户历史骑行数据,以及当前时间段共享单车各个地区车辆信息,为各个时间段合理的分配预算;步骤6:用户骑行到达个人目的地后,共享单车调度系统结合步骤5所算出的预算以及用户当前位置到各个缺车区域的步行距离,为用户匹配最优共享单车调度任务;步骤7:享单车调度系统向用户推送共享单车调度任务;步骤8:若用户执行共享单车调度任务共享单车调度系统发送金钱奖励到用户账户中,骑行结束。3.根据权利要求2所述的基于激励用户的共享单车调度方法,其特征在于:步骤3中所述每次用户开始使用共享单车时,共享单车调度系统需精准获取相关骑行信息包括用户的个人基本信息、骑行单车编号、开始骑行的起始位置、和用户骑行的历史数据。4.根据权利要求2所述的基于激励用户的共享单车调度方法,其特征在于:在用户参与下的共享单车调度策略中,步骤4的具体实现包括以下子步骤:步骤4.1:共享单车调度系统获取各个区域r
i
在t时间段历史需求数据t时间段开始时各个区域r
i
的共享单车供应量t时间段内到达的用户数量U
t
;将其整理成历史数据其中,t为预设值,T
history
为历史数据集合,R为区域集合;
步骤4.2:共享单车调度系统将用户的历史数据作为LSTM网络模型的输入数据,基于LSTM网络模型求得各区域用户下一时间段t+1的需求数据步骤4.3:共享单车调度系统统计在时间段t内从区域r
i
骑走共享单车的数量在t时间段内各区域用户骑走但未归还的共享单车的数量:步骤4.4:共享单车调度系统将步骤4.2中预测的个人区域用户需求数量和步骤4.3中统计的各区域内用户骑走但未归还的共享单车数量进行比较:得到的下一时间段t+1的各个区域r
i
的缺车需求的缺车需求步骤4.5:共享单车调度系统根据公式(1)求得各个区域r
i
未来时间段的缺车需求5.根据权利要求2所述的基于激励用户的共享单车调度方法,其特征在于:在用户参与下的共享单车调度策略中,步骤5的具体实现包括以下子步骤:步骤5.1:构建神经网络并随机初始化参数;所述神经网络包括Actor Online策略网络,Actor Target策略网络,Critic Online价值网络和Critic Target价值网络;所述Actor Online策略网络,根据当前状态s输出动作a,在当前状态
‑
动作下与环境交互生成下一时刻的状态s
′
和奖励d
t+1
,其中,随机在集合[1:当前区域的缺车数生成奖励值d
t+1
,总的预算分配为,总的预算分配为表示各个区域r
i
的处的奖励值d
t+1
;所述Actor Online策略网络的输出动作其中,为随机噪声;并更新策略网络参数θ
μ
,其更新策略梯度为;其中Batch_SIZE表示每次从经验池中取出用于训练的样本个数;θ
Q
表示Online Q网络参数;θ
μ
表示策略网络参数;μ(s
i
)表示在任意一个时刻的状态的数学期望;Q(s,a|θ
Q
)表示根据当前车辆状态和动作在价值网络中计算出的价值;μ(s|θ
μ
)表示策略网络参数中,车辆状态集合的数学期望;所述Actor Target策略网络,定期将Target策略网络参数θ
μ
′
更新为Actor Online策略网络参数θ
μ
,负责根据经验池中采样的下一状态s
′
选择最优下一动作a
′
;所述Critic Online价值网络,通过最小化损失函数的方式对价值网络参数θ
Q
进行更新L(θ
Q
),同时需计算当前Q值Q(s,a,θ
Q
);其中,y<...
【专利技术属性】
技术研发人员:石兵,李连欣,潘玉婷,鲁艳,李帅,李顺,
申请(专利权)人:武汉理工大学,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。