一种基于在线深度强化学习的需求响应控制方法及系统技术方案

技术编号:31086337 阅读:33 留言:0更新日期:2021-12-01 12:39
本发明专利技术提供一种基于在线深度强化学习的需求响应控制方法及系统,其中方法包括:获取用户的当前状态,将所述当前状态输入至深度Q网络模型,并根据用户的控制行为,输出第一计算结果;抽取存储于所述经验回放池的需求响应历史数据,将抽取到的需求响应历史数据作为样本数据,根据所述样本数据及所述第一计算结果进行训练,得到所述深度Q网络模型的参数;将所述控制行为、所述第一计算结果及所述参数通过贪心算法进行计算,得到所述用户的控制行为的响应动作;根据所述响应动作进行控制操作,完成对用户的需求响应的控制行为。本发明专利技术提高了神经网络对当前市场环境的适应性,从而改善了神经网络的实时决策能力。神经网络的实时决策能力。神经网络的实时决策能力。

【技术实现步骤摘要】
一种基于在线深度强化学习的需求响应控制方法及系统


[0001]本专利技术涉及电力系统的需求响应
,特别是涉及一种基于在线深度强化学习的需求响应控制方法及系统。

技术介绍

[0002]自动需求响应(automated demand response,ADR)是基于自动化设备的需求响应方式。电网与用户侧系统智能化程度的不断提升,为需求响应自动化实施奠定了基础。ADR是建立在集成的、高速的信息系统基础上,通过应用量测、采集、自动控制、智能决策等技术,实现电力用户主动参与电网运行。随着信息技术、人工智能技术的不断发展,需求响应系统、终端产品不断推陈出新。传统需求响应业务执行过程中,用户侧负荷设备被动接受来自电网侧需求响应控制指令,而未来基于人工智能的用户侧设备自适应调节将会逐步得到发展。在需求响应服务系统、需求响应聚合系统以及用户侧需求响应终端中,都将会内置具有自学习功能的需求响应控制终端,该终端将为需求响应服务商、聚合商以及参与响应的用户提供智能决策功能,协助上述参与主体更加高效、经济地参与需求响应。
[0003]深度强化学习(deep本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种基于在线深度强化学习的需求响应控制方法,其特征在于,包括:获取用户的当前状态,将所述当前状态输入至深度Q网络模型,并根据用户的控制行为,输出第一计算结果;其中,所述当前状态包括:内部设备的状态及外部市场状态,所述内部设备的状态包括:设备启停状态及储能荷电状态,所述外部市场状态包括:需求响应激励信号及现货市场价格信号;所述控制行为包括:控制储能充放电及控制电动汽车功率;根据用户的需求响应历史数据构建需求响应的经验回放池;其中,所述需求响应的经验回放池用于存储所述用户的需求响应历史数据;抽取存储于所述经验回放池的需求响应历史数据,将抽取到的需求响应历史数据作为样本数据,根据所述样本数据及所述第一计算结果进行训练,得到所述深度Q网络模型的参数;将所述控制行为、所述第一计算结果及所述参数通过贪心算法进行计算,得到所述用户的控制行为的响应动作;根据所述响应动作进行控制操作,完成对用户的需求响应的控制行为。2.如权利要求1所述的一种基于在线深度强化学习的需求响应控制方法,其特征在于,所述抽取存储于所述经验回放池的需求响应历史数据,具体地:根据需求响应历史数据的优先级系数对所述经验回放池的需求响应历史数据进行抽样。3.如权利要求2所述的一种基于在线深度强化学习的需求响应控制方法,其特征在于,所述优先级系数,通过以下公式计算:其中,ρ
m
为需求响应历史的优先级系数,exp为指数函数,t
m
为样本采样时间,t为当前时刻,τ为预设时间段。4.如权利要求1所述的一种基于在线深度强化学习的需求响应控制方法,其特征在于,所述根据所述样本数据及所述第一计算结果进行训练之后,还包括:计算所述样本数据被抽取概率。5.如权利要求4所述的一种基于在线深度强化学习的需求响应控制方法,其特征在于,所述计算所述样本数据被抽取概率,通过以下公式计算:其中,m为样本数据,Pr(m)为样本数据m被抽取的概率,exp为指数函数,t
m
为样本采样时间,t为当前时刻,τ为预设时间段,M为经验回放池中样本总数。6.一种基于在线深度强化学习...

【专利技术属性】
技术研发人员:刘嘉宁苏卓何宇俊王可刘沅昆曾凯文段秦尉杜斌
申请(专利权)人:广东电网有限责任公司电力调度控制中心
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1