【技术实现步骤摘要】
本专利技术涉及强化学习领域,尤其涉及一种被控系统运行调度的高效率强化学习方法及装置。
技术介绍
1、对于复杂被控系统(例如智能电网),其经济运行具有重要的工程需求,强化学习具备从数据中学习并逐步提升策略性能的潜力,因而获得了工程应用的高度关注。以智能电网为例,实际问题中的状态空间(比如包括电网发电侧、需求侧、储能侧)和动作空间(比如发电调度、电动汽车充电桩的充电功率、储能电站的充电或者放电功率)一般非常大。现有技术中对于复杂被控系统运行调度的强化学习方法存在如下局限性:
2、(1)在线学习过程中,当前状态给定后可以通过调度在不同动作上分配的采样数量提升样本效率。但是,不同状态下决策的重要性存在一定差异。在线学习过程难以系统性区分不同决策重要性的差异,因此,现有方法在计算资源有限的情况下,存在难以快速得到最优策略的问题。
3、(2)离线学习过程中,虽然可以在不同的(状态,动作)对上分配不同的采样数量,但并未分析不同状态下决策重要性对采样分配的影响,存在学习时间长、效率低以及策略确定性能差的问题。
【技术保护点】
1.一种被控系统运行调度的高效率强化学习方法,其特征在于,包括:
2.如权利要求1所述的方法,其特征在于,采样数据分配算法确定过程包括:
3.如权利要求2所述的方法,其特征在于,根据动作Q函数,建立近似最优动作挑选概率函数的目标函数及动作采样数量约束条件,包括:
4.如权利要求2所述的方法,其特征在于,所述近似最优动作挑选概率函数的目标函数及动作采样数量约束条件利用如下公式表示:
5.如权利要求1所述的方法,其特征在于,采样数据分配算法用于指示:
6.如权利要求5所述的方法,其特征在于,采样数据分配算法包括如
...
【技术特征摘要】
1.一种被控系统运行调度的高效率强化学习方法,其特征在于,包括:
2.如权利要求1所述的方法,其特征在于,采样数据分配算法确定过程包括:
3.如权利要求2所述的方法,其特征在于,根据动作q函数,建立近似最优动作挑选概率函数的目标函数及动作采样数量约束条件,包括:
4.如权利要求2所述的方法,其特征在于,所述近似最优动作挑选概率函数的目标函数及动作采样数量约束条件利用如下公式表示:
5.如权利要求1所述的方法,其特征在于,采样数据分配算法用于指示:
6.如权利要求5所述的方法,其特征在于,采样数据分配算法包括如下准则:
【专利技术属性】
技术研发人员:贾庆山,郭琦,黄立滨,余佳微,郭天宇,卢远宏,郭海平,涂亮,
申请(专利权)人:清华大学,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。