当前位置: 首页 > 专利查询>清华大学专利>正文

一种被控系统运行调度的高效率强化学习方法及装置制造方法及图纸

技术编号:42800160 阅读:22 留言:0更新日期:2024-09-24 20:46
本发明专利技术涉及强化学习领域,提供了一种被控系统运行调度的高效率强化学习方法及装置,方法包括:对被控系统的各状态‑动作对进行采样,根据采样结果确定各状态下各动作的动作类型、Q因子样本方差及已消耗样本总量;利用采样数据分配算法确定各状态下各动作目标样本量;根据各动作目标样本量与各动作已消耗样本量,确定各动作补充采样数量;根据各动作补充采样数量进行补充采样,利用补充采样的仿真结果重新确定各动作的动作类型、各状态‑动作对的Q因子样本方差;调整已消耗采样总量,判断已消耗样本总量满足动作采样数量约束条件,若是,则输出各状态下观测到的最优动作,本发明专利技术能够区分各状态动作的重要性,提升采样效率及优化策略性能。

【技术实现步骤摘要】

本专利技术涉及强化学习领域,尤其涉及一种被控系统运行调度的高效率强化学习方法及装置


技术介绍

1、对于复杂被控系统(例如智能电网),其经济运行具有重要的工程需求,强化学习具备从数据中学习并逐步提升策略性能的潜力,因而获得了工程应用的高度关注。以智能电网为例,实际问题中的状态空间(比如包括电网发电侧、需求侧、储能侧)和动作空间(比如发电调度、电动汽车充电桩的充电功率、储能电站的充电或者放电功率)一般非常大。现有技术中对于复杂被控系统运行调度的强化学习方法存在如下局限性:

2、(1)在线学习过程中,当前状态给定后可以通过调度在不同动作上分配的采样数量提升样本效率。但是,不同状态下决策的重要性存在一定差异。在线学习过程难以系统性区分不同决策重要性的差异,因此,现有方法在计算资源有限的情况下,存在难以快速得到最优策略的问题。

3、(2)离线学习过程中,虽然可以在不同的(状态,动作)对上分配不同的采样数量,但并未分析不同状态下决策重要性对采样分配的影响,存在学习时间长、效率低以及策略确定性能差的问题。


<p>技术实现思本文档来自技高网...

【技术保护点】

1.一种被控系统运行调度的高效率强化学习方法,其特征在于,包括:

2.如权利要求1所述的方法,其特征在于,采样数据分配算法确定过程包括:

3.如权利要求2所述的方法,其特征在于,根据动作Q函数,建立近似最优动作挑选概率函数的目标函数及动作采样数量约束条件,包括:

4.如权利要求2所述的方法,其特征在于,所述近似最优动作挑选概率函数的目标函数及动作采样数量约束条件利用如下公式表示:

5.如权利要求1所述的方法,其特征在于,采样数据分配算法用于指示:

6.如权利要求5所述的方法,其特征在于,采样数据分配算法包括如下准则:

...

【技术特征摘要】

1.一种被控系统运行调度的高效率强化学习方法,其特征在于,包括:

2.如权利要求1所述的方法,其特征在于,采样数据分配算法确定过程包括:

3.如权利要求2所述的方法,其特征在于,根据动作q函数,建立近似最优动作挑选概率函数的目标函数及动作采样数量约束条件,包括:

4.如权利要求2所述的方法,其特征在于,所述近似最优动作挑选概率函数的目标函数及动作采样数量约束条件利用如下公式表示:

5.如权利要求1所述的方法,其特征在于,采样数据分配算法用于指示:

6.如权利要求5所述的方法,其特征在于,采样数据分配算法包括如下准则:

【专利技术属性】
技术研发人员:贾庆山郭琦黄立滨余佳微郭天宇卢远宏郭海平涂亮
申请(专利权)人:清华大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1