一种基于深度强化学习的电动汽车充电导航方法技术

技术编号:26793034 阅读:41 留言:0更新日期:2020-12-22 17:08
一种基于深度强化学习的电动汽车充电导航规划方法,采集电动汽车充电导航的历史数据;利用确定性电动汽车充电导航模型对历史数据降维并抽取特征数据;根据特征数据,建立马尔科夫决策过程模型,然后以特征数据为训练样本,训练初始化后的深度Q值网络;根据实际的各道路的平均行驶速度、各充电站的等待时间和各充电站的充电电价,利用深度Q值网络,得到综合成本最小的电动汽车充电站选择,再利用确定性电动汽车充电导航模型,得到路线规划。本发明专利技术能全面反映电动汽车在充电导航过程中的各种成本与随机性。相比已有方法,本发明专利技术更加全面完整地刻画了电动汽车充电导航问题,并通过深度强化学习的方法很好地处理了随机性,优势显著。

【技术实现步骤摘要】
一种基于深度强化学习的电动汽车充电导航方法
本专利技术属于电力系统领域,涉及一种基于深度强化学习的电动汽车充电导航方法。
技术介绍
随着电动汽车的快速发展和普及,电力网和交通网的联系日益紧密。电动汽车车主在面临充电需求时,可根据电网与交通网的实时数据规划总体成本最小的充电方案。这些数据包括各条道路的行驶时间,各充电站的等待时间和充电价格。然而,这些数据数量巨大且具有一定的随机性,这为电动汽车车主规划最优充电导航方案带来了挑战。目前的电动汽车充电规划主要分为两类:一类是静态充电,即不考虑交通网信息的电动汽车充电计划安排,这种场景多发生在住宅区和大型车库中,主要考虑的是充电电价的不确定性。另一类是确定性的充电导航,即认为道路的行驶时间、各充电站的等待时间和充电价格是已知且确定的。这两类规划都未能很好地解决电动汽车车主在实际场景中的充电导航问题。随着深度强化学习技术的迅猛发展,深度Q值网络技术被运用在越来越来的研究领域中,并由于其强大的自适应能力,使其能较好地从具有随机性的数据中提取信息和识别特征。此外,与传统的基于模型的方法相比,深度Q值网络具有更好的泛化能力,不依赖具体的先验概率信息。综上,在电动汽车保有率持续增加的背景下,基于深度强化学习的电动汽车充电导航研究充分适配电动汽车车主实际中的充电导航规划需求,并能很好地处理数据的随机性,对电动汽车投入大规模应用有基础性的作用,能填补已有研究尚未关注的空白。
技术实现思路
本专利技术的目的在于提供一种基于深度强化学习的电动汽车充电导航方法,以填补现有电动汽车充电规划方法的不足:充分考虑电网与交通网的历史数据,首先通过确定性的充电导航模型对高维数据降维,再利用深度Q值神经网络处理数据的随机性,为电动汽车车主提供综合成本最小的充电导航服务。为了实现上述目的,本专利技术采用如下技术方案:一种基于深度强化学习的电动汽车充电导航规划方法,包括以下步骤:步骤一:采集电动汽车充电导航的历史数据;步骤二:利用确定性电动汽车充电导航模型对历史数据降维并抽取特征数据;步骤三:根据步骤二中的特征数据,建立马尔科夫决策过程模型;步骤四:利用马尔科夫决策过程模型,以特征数据为训练样本,训练初始化后的深度Q值网络;步骤五,根据实际的各道路数据,利用完成训练的深度Q值网络,得到综合成本最小的电动汽车充电站选择,再利用确定性电动汽车充电导航模型,得到路线规划。本专利技术进一步的改进在于,步骤一中,历史数据包括:各道路的平均行驶速度、各充电站的等待时间和各充电站的充电电价。本专利技术进一步的改进在于,确定性电动汽车充电导航模型如下:模型约束为:eend≥emin(4)其中,为行驶耗能成本,为行驶时间成本,为等待时间成本,为充电耗能成本,为到充电站k充电的除等待时间成本以外的成本之和,α为单位行驶距离耗电量,λe为单位电价,dij为交通节点i到j的距离,eend为电动汽车最终荷电状态,eini为电动汽车的初始荷电状态,Emax为电动汽车的最大电池容量,emax为电动汽车最大荷电状态,为充电站k的充电价格,vij为交通节点i到j的通行速度;yi为代表充电站位置的0-1变量。本专利技术进一步的改进在于,步骤三中,马尔科夫决策过程模型包括:状态向量st、动作向量at、状态转移函数f(st,at,ωt)以及收益rt,其中,ωt为随机变量。本专利技术进一步的改进在于,步骤三中,根据特征数据,利用公式(9)-(11),建立马尔科夫决策过程模型;其中,st为状态向量,nt为当前地点、et为当前电量,为各个充电站的特征数值向量,上标*表示模型求解的最优变量,at为动作向量,k为充电站的标号,分别表示前往充电站k路径上的第一个和第二个交通节点,上标true表示真实的数据,rt为收益。本专利技术进一步的改进在于,当电动汽车还在行驶中时,收益为行驶到充电站的行驶时间成本与行驶耗能成本;当电动汽车到充电站后,收益为充电耗能成本与充电等待时间成本。本专利技术进一步的改进在于,Q值通过下式计算:其中,Qψ(s,a)为给定状态s和动作a,在神经网络参数ψ下的Q值;γ为折现率,k为时段数,rt+k为在时段t+k下获得的收益,上标*表示最优的Q函数。本专利技术进一步的改进在于,步骤四中,利用梯度下降法训练初始化后的深度Q值网络。本专利技术进一步的改进在于,步骤五中,实际的各道路数据包括:各道路的平均行驶速度、各充电站的等待时间和各充电站的充电电价。相对于现有电动汽车充电规划方法相比,本专利技术具有以下有益效果:本专利技术从电动汽车在驾驶电动汽车时遇到的实际需求出发,考虑数据的随机性,利用非线性混合整数规划的确定性电动汽车充电导航模型得到特征数据,再将电动汽车充电导航问题建模为马尔可夫过程模型,利用深度强化学习方法,能全面反映电动汽车在充电导航过程中的各种成本与随机性。相比已有方法,本专利技术更加全面完整地刻画了电动汽车充电导航问题,并通过深度强化学习的方法很好地处理了随机性,优势显著。附图说明图1为本专利技术的整体流程。图2为本专利技术的具体训练过程图。图3为交通网说明图。图4为本专利技术的训练过程图。图5为本专利技术与传统方法效果对比图。具体实施方式下面结合附图对本专利技术进行详细描述。参见图1,本专利技术的一种基于深度强化学习的电动汽车充电导航规划方法,具体包括以下步骤:步骤一:对电动汽车车主规划充电导航所需要的历史数据进行整理,包括:各道路的平均行驶速度、各充电站的等待时间和各充电站的充电电价。通过收集的历史数据拟合出每类数据服从的概率分布,为接下来的神经网络的训练过程做准备。步骤二:利用非线性混合整数规划的确定性电动汽车充电导航模型,对历史数据降维并抽取出特征数据,得到特征数据;具体的,非线性混合整数规划的确定性电动汽车充电导航模型如下:模型约束为:eend≥emin(4)其中,目标函数为电动汽车车主的综合成本,包括:行驶耗能成本行驶时间成本等待时间成本和充电耗能成本为到充电站k充电的除等待时间成本以外的成本之和,该项至于道路选择变量xij有关(xij为1时,表示规划路线包含道路(i,j);为0时则表示不包含)。约束(3)和(4)分别表示了电动汽车剩余电量始末状态的联系和最小剩余电量要求。约束(5-7)分别描述了行驶耗能成本、充电耗能成本和道路行驶成本与道路选择变量xij的具体关系表达式,其中α为单位行驶距离耗电量,λe为单位电价,dij为交通节点i到j的距离。eend为电动汽车最终荷电状态,eini为电动汽车的初始荷电状态,Emax为电动汽车的最大电池容量。emax为电动汽车最大荷本文档来自技高网...

【技术保护点】
1.一种基于深度强化学习的电动汽车充电导航规划方法,其特征在于,包括以下步骤:/n步骤一:采集电动汽车充电导航的历史数据;/n步骤二:利用确定性电动汽车充电导航模型对历史数据降维并抽取特征数据;/n步骤三:根据步骤二中的特征数据,建立马尔科夫决策过程模型;/n步骤四:利用马尔科夫决策过程模型,以特征数据为训练样本,训练初始化后的深度Q值网络;/n步骤五,根据实际的各道路数据,利用完成训练的深度Q值网络,得到综合成本最小的电动汽车充电站选择,再利用确定性电动汽车充电导航模型,得到路线规划。/n

【技术特征摘要】
1.一种基于深度强化学习的电动汽车充电导航规划方法,其特征在于,包括以下步骤:
步骤一:采集电动汽车充电导航的历史数据;
步骤二:利用确定性电动汽车充电导航模型对历史数据降维并抽取特征数据;
步骤三:根据步骤二中的特征数据,建立马尔科夫决策过程模型;
步骤四:利用马尔科夫决策过程模型,以特征数据为训练样本,训练初始化后的深度Q值网络;
步骤五,根据实际的各道路数据,利用完成训练的深度Q值网络,得到综合成本最小的电动汽车充电站选择,再利用确定性电动汽车充电导航模型,得到路线规划。


2.根据权利要求1所述的一种基于深度强化学习的电动汽车充电导航规划方法,其特征在于,步骤一中,历史数据包括:各道路的平均行驶速度、各充电站的等待时间和各充电站的充电电价。


3.根据权利要求1所述的一种基于深度强化学习的电动汽车充电导航规划方法,其特征在于,确定性电动汽车充电导航模型如下:






模型约束为:



eend≥emin(4)












其中,为行驶耗能成本,为行驶时间成本,为等待时间成本,为充电耗能成本,为到充电站k充电的除等待时间成本以外的成本之和,α为单位行驶距离耗电量,λe为单位电价,dij为交通节点i到j的距离,eend为电动汽车最终荷电状态,eini为电动汽车的初始荷电状态,Emax为电动汽车的最大电池容量,emax为电动汽车最大荷电状态,为充电站k的充电价格,vij为交通节点i到j的通行速度;yi为代表充电站位置的0-1变量。


4.根据权利要求1所述的一种基于深度强化学习的电动汽车充电导航规划方法,其特征在于,步骤...

【专利技术属性】
技术研发人员:邵成成钱涛李徐亮
申请(专利权)人:西安交通大学
类型:发明
国别省市:陕西;61

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1