基于强化学习的大型电动汽车充电站的充电优化调度方法技术

技术编号:29404877 阅读:92 留言:0更新日期:2021-07-23 22:43
本发明专利技术提供了一种基于强化学习的大型电动汽车充电站的充电优化调度方法。首先在当下实际的电动汽车充电站采集数据,并根据状态空间、动作空间及目标函数的定义对采集的数据进行处理,然后运用处理后的数据进行神经网络模型的训练及测试,在保证所用模型的有效性的前提下,将充电站的实际情况作为模型的输入,以模型的输出作为电动汽车充电的参考策略进行实际的充电操作。有效了解决了充电环境下的不确定性问题,而且本发明专利技术的方法并不受限于充电站的规模以及充电站达到的电动汽车的数量,训练所得的模型更具有通用性,适用于不同规模下的电动汽车充电站。为电动汽车充电站解决充电调度模型的通用性以及最大化能源和经济效益问题。

【技术实现步骤摘要】
基于强化学习的大型电动汽车充电站的充电优化调度方法
本专利技术涉及一种基于强化学习的大型电动汽车充电站的充电优化调度方法,属于智能优化调度

技术介绍
当今社会随着人们对环境问题的日益关切,能源需求逐渐增大,日常能源消耗量也日益增大,电动汽车作为新型交通工具,凭借其污染轻、噪声小和驾驶成本低等特性取得了长足的发展。但是大规模电动汽车接入电网会对电力系统的平稳运行造成极大的影响。与燃油汽车能够迅速加油瞬间完成能量的补充不同,电动汽车的充电过程具有一定的周期性,考虑到大多数用户选择在无出行需求的时段将汽车暂放于充电站充电以及不同时段电价的变化等实际情况,对电动汽车充电站的充电调度方法进行研究。目前传统的充电站还采用人工调度的方案,大多充电站采取先到先充电策略,并未充分考虑电网的负载以及电价的实时变化,经济效益以及充电效率低下。而在电动汽车充电调度策略领域的学术研究主要采用模型预测控制,但是在充电汽车的实际环境中,对于充电站而言,电动汽车的达到时间具有不确定性,客户的主动行为具有随机性(如延迟取车,提前取消订单),因而运用的固定的调度本文档来自技高网...

【技术保护点】
1.基于强化学习的大型电动汽车充电站的充电优化调度方法,其特征根在于:具体包括如下步骤:/n步骤一、数据集准备:/n直接采集充电站内历史数据,为状态空间矩阵和动作空间矩阵的创建做准备;所需要的数据主要包括电动汽车的到达充电站的时间t

【技术特征摘要】
1.基于强化学习的大型电动汽车充电站的充电优化调度方法,其特征根在于:具体包括如下步骤:
步骤一、数据集准备:
直接采集充电站内历史数据,为状态空间矩阵和动作空间矩阵的创建做准备;所需要的数据主要包括电动汽车的到达充电站的时间tarrival、离开充电站的时间Δtdepart以及其充电需求W;为方便计量,将充电需求转化为电动汽车充满所需要的充电时间Δtcharge;
步骤二、定义状态空间:
电动汽车充电特征:电动汽车到达时间、电动汽车离开时间、需要的充电量和电动汽车充电率;由于未来电动汽车的到达时间未知,因此在当前的电动汽车表示中不包括到达时间;如果电动汽车的充电率ws,则充电量转换为完成充电所需的时间为:
Δtcharge=W/ws(1);
如果系统中有Ns辆电动汽车,则其特征V表示为如下所示集合:



式子(1)中表示第Ns辆电动汽车的离开时间,表示第Ns辆电动汽车的所需充电量;
每个状态空间s=(t,Xs),Xs表示总需求矩阵,t∈{1,…,Smax}表示时隙,其中Smax表示按照给定的时间间隙Δtslot划分的一天中的最大决策时间段数;每个给定时隙Δtslot的总需求通过合并算法获得,需求可以使用二维网格表示,即矩阵Xs,一个轴表示汽车的离开时间Δtdepart,另一个轴表示汽车的充电时间Δtcharge;所得总需求矩阵Xs具有尺寸Smax×Smax,最大的决策时间段数Smax取决于最大连接时间Hmax,即电动汽车连接到充电站的最长持续时间:Smax=Hmax/Δtslot;确保最大电动汽车数量Nmax不会影响状态空间的大小;
根据电动汽车的离开时间和所需充电量,将电动汽车的允许调度空间即充电灵活性表示为Δtflex=Δtdepart-Δtcharge,从Xs的对角线推断出:



根据上述公式,矩阵Xs主对角线上的单元中的电动汽车的灵活性为零;而Xs上对角线上的单元中的电动汽车可调度安排,即充电可延迟;负Δtflex对应于Xs中较低对角线,表示无法满足其充电需求的电动汽车;
步骤三、定义动作空间:
将状态空间s=(t,Xs)采取的动作表示是否对当前连接的电动汽车充电Z,将基于充电灵活性Δtflex做出决策;步骤二中具有相同充电灵活性Δtflex的电动汽车会被合并到Xs的相同对角线上的单元中;将Xs的每个对角线表示为Xs(d),其中d=0,…,Smax-1,Xs(0)是主对角线,Xs(d)表示矩阵上三角的第d条对角线,而Xs(-d)是Xs的下三角的第d对角线;将表示为单元中第d对角线上的电动汽车总数;当电动汽车的充电需求全部满足,并且汽车的充电状态不会变成下三角对角线的单元格所属的情况,在状态空间s下采取的动作被定义为长度为Smax的向量us;只需要对在Xs的主对角线和上对角线上对汽车采取充电或者延迟的策略;其中在每个时隙Δtslot中,动作向量us的第d个元素取值范围在[0,1],us(d)表示动作向量us的第d个元素的值,us(d)=0表示电动汽车均不充电,us(d)=1表示电动汽车全部处于充电状态;Us表示状态空间s能采取的动作的集合;
步骤四、建立动作价值函数:
为使得一组电动汽车的充电负载保持平稳,同时确保在每辆电动汽车离开前已完成充电需求及尽可能的降低电价成本;通过动作us从状态s过渡到s'价值函数包括三部分:
C(s,us,s')=Cdemand(Xs,us)+Cpenalty(Xs')+CElectricity(Ns,P,St)(4);
其中,Cdemand(Xs,us)是时隙中所有已连接的电动汽车的总功耗成本,Cpenalty(Xs')是未完成充电的惩罚函数,CElectricity(Ns,P,St)为当前时隙...

【专利技术属性】
技术研发人员:葛冬明江爱朋王浩栋吴文浩徐平刘亦安
申请(专利权)人:杭州电子科技大学
类型:发明
国别省市:浙江;33

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1