一种被控系统运行调度的高效率强化学习方法及装置制造方法及图纸

技术编号：42800160 阅读：22 留言：0更新日期：2024-09-24 20:46

本发明专利技术涉及强化学习领域，提供了一种被控系统运行调度的高效率强化学习方法及装置，方法包括：对被控系统的各状态‑动作对进行采样，根据采样结果确定各状态下各动作的动作类型、Q因子样本方差及已消耗样本总量；利用采样数据分配算法确定各状态下各动作目标样本量；根据各动作目标样本量与各动作已消耗样本量，确定各动作补充采样数量；根据各动作补充采样数量进行补充采样，利用补充采样的仿真结果重新确定各动作的动作类型、各状态‑动作对的Q因子样本方差；调整已消耗采样总量，判断已消耗样本总量满足动作采样数量约束条件，若是，则输出各状态下观测到的最优动作，本发明专利技术能够区分各状态动作的重要性，提升采样效率及优化策略性能。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及强化学习领域，尤其涉及一种被控系统运行调度的高效率强化学习方法及装置。

技术介绍

1、对于复杂被控系统(例如智能电网)，其经济运行具有重要的工程需求，强化学习具备从数据中学习并逐步提升策略性能的潜力，因而获得了工程应用的高度关注。以智能电网为例，实际问题中的状态空间(比如包括电网发电侧、需求侧、储能侧)和动作空间(比如发电调度、电动汽车充电桩的充电功率、储能电站的充电或者放电功率)一般非常大。现有技术中对于复杂被控系统运行调度的强化学习方法存在如下局限性：

2、(1)在线学习过程中，当前状态给定后可以通过调度在不同动作上分配的采样数量提升样本效率。但是，不同状态下决策的重要性存在一定差异。在线学习过程难以系统性区分不同决策重要性的差异，因此，现有方法在计算资源有限的情况下，存在难以快速得到最优策略的问题。

3、(2)离线学习过程中，虽然可以在不同的(状态，动作)对上分配不同的采样数量，但并未分析不同状态下决策重要性对采样分配的影响，存在学习时间长、效率低以及策略确定性能差的问题。

<...

【技术保护点】

1.一种被控系统运行调度的高效率强化学习方法，其特征在于，包括：
2.如权利要求1所述的方法，其特征在于，采样数据分配算法确定过程包括：
3.如权利要求2所述的方法，其特征在于，根据动作Q函数，建立近似最优动作挑选概率函数的目标函数及动作采样数量约束条件，包括：
4.如权利要求2所述的方法，其特征在于，所述近似最优动作挑选概率函数的目标函数及动作采样数量约束条件利用如下公式表示：
5.如权利要求1所述的方法，其特征在于，采样数据分配算法用于指示：
6.如权利要求5所述的方法，其特征在于，采样数据分配算法包括如下准则：
...

【技术特征摘要】

1.一种被控系统运行调度的高效率强化学习方法，其特征在于，包括：
2.如权利要求1所述的方法，其特征在于，采样数据分配算法确定过程包括：
3.如权利要求2所述的方法，其特征在于，根据动作q函数，建立近似最优动作挑选概率函数的目标函数及动作采样数量约束条件，包括：
4.如权利要求2所述的方法，其特征在于，所述近似最优动作挑选概率函数的目标函数及动作采样数量约束条件利用如下公式表示：
5.如权利要求1所述的方法，其特征在于，采样数据分配算法用于指示：
6.如权利要求5所述的方法，其特征在于，采样数据分配算法包括如下准则：
【专利技术属性】
技术研发人员：贾庆山，郭琦，黄立滨，余佳微，郭天宇，卢远宏，郭海平，涂亮，
申请(专利权)人：清华大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人

上一篇：一种多功能水利管理用水位监测装置制造方法及图纸
下一篇：一种用于消防湿式报警阀压力开关接线端的保护装置制造方法及图纸

相关技术

基于薄膜气动驱动器的软体仿蝠鲼机器人...

基于小波函数的多尺度分辨率无法向点云...

一种时空编码光电计算架构及方法技术

变频电机绕组最高工作温度的确定方法及...

一种基于极性判断的中压直流配电网行波...

T细胞、药物组合物及其用途制造技术

面向单粒子翻转效应的错误注入与软件容...

循环流化床锅炉压火热备方法、装置及存...

一种多机器人自主协作方法和系统技术方...

面向地理特性的移动流量生成方法及装置...

网友询问留言已有0条评论

还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1

发布您的意见

相关领域技术

一种Go源码的可观测性数据获取方法及...

代码推荐方法、装置、电子设备及存储介...

配电变压器绕组变形预测方法、介质及系...

一种试卷识别方法、装置、设备、介质及...

一种FCOB线路载板缺陷检测方法及系...

物化视图生成方法、装置、电子设备、存...

诈骗识别方法、装置、电子设备及存储介...

大语言模型情感认知能力的评测装置制造...