一种电力电子变换器的强化学习控制器训练环境架构制造技术

技术编号:41301846 阅读:9 留言:0更新日期:2024-05-13 14:48
本发明专利技术公开了一种电力电子变换器的强化学习控制器训练环境架构,包括以下步骤:S1、构建强化学习控制器的整体训练环境设计架构;S2、设计强化学习控制器在每个Episode训练的训练时序图以及工况库;S3、从工况库中抽取训练工况到训练时序中时,根据不同工况的优先级设计概率分布;S4、基于提出的强化学习控制器的训练环境架构,对应用于电力电子变换器的强化学习控制器训练直至收敛。本发明专利技术采用上述的一种电力电子变换器的强化学习控制器训练环境架构,训练收敛以后的控制器有效提高了变换器运行时面对不同工况的适应性。当实际运行工况改变,如需要增加工况数目时,与训练工况相关的改动只需要在工况库中完成,而无需对训练时序进行调整。

【技术实现步骤摘要】

本专利技术涉及电力电子变换器智能控制,尤其是涉及一种电力电子变换器的强化学习控制器训练环境架构


技术介绍

1、近年来,基于强化学习的智能控制方式引起了国内外广大学者的研究兴趣,并已经在电力电子领域得到应用。强化学习控制器作为一种基于智能体与被控对象交互学习的控制器,在应用于电力电子变换器控制时,通过在训练环境中模拟变换器实际运行的不同工况,控制器在与各种工况交互的过程中更新其控制参数,使得训练收敛后的控制器具有适应变换器不同工况下运行的能力。

2、在强化学习控制器训练中,训练环境的设计十分关键,合理的训练环境设计不仅可以使控制器训练时提前模拟到实际运行时的不同工况,而且可以提高控制器训练的效率。在过去强化学习控制器的训练环境架构中,往往在每次训练的episode中设置变换器运行的所有工况,这种架构下强化学习控制器在训练时虽然可以模拟到变换器实际运行的不同工况,但是却缺乏灵活性和可拓展性。比如在需要更改训练环境中变换器运行工况的数量时,这种架构往往需要重新分配各种工况在每次训练episode中的时间占比;在需要考虑的变换器运行工况数量较多时,搭本文档来自技高网...

【技术保护点】

1.一种电力电子变换器的强化学习控制器训练环境架构,其特征在于:包括以下步骤:

2.根据权利要求1所述的一种电力电子变换器的强化学习控制器训练环境架构,其特征在于:在步骤S1中,其中强化学习控制器从Episode=0到Episode=n迭代训练,每个Episode的训练时间长度为tf,强化学习控制器的控制参数每隔控制步长ts或整数个ts更新一次。

3.根据权利要求1所述的一种电力电子变换器的强化学习控制器训练环境架构,其特征在于:在步骤S1中,在进行参数更新时,强化学习控制器从被控对象中采集状态观测向量s,得到的状态观测向量s作为策略函数的输入,经过策略函数的输入...

【技术特征摘要】

1.一种电力电子变换器的强化学习控制器训练环境架构,其特征在于:包括以下步骤:

2.根据权利要求1所述的一种电力电子变换器的强化学习控制器训练环境架构,其特征在于:在步骤s1中,其中强化学习控制器从episode=0到episode=n迭代训练,每个episode的训练时间长度为tf,强化学习控制器的控制参数每隔控制步长ts或整数个ts更新一次。

3.根据权利要求1所述的一种电力电子变换器的强化学习控制器训练环境架构,其特征在于:在步骤s1中,在进行参数更新时,强化学习控制器从被控对象中采集状态观测向量s,得到的状态观测向量s作为策略函数的输入,经过策略函数的输入输出映射关系得到控制器的输出,即控制信号a,电力电子变换器作为...

【专利技术属性】
技术研发人员:叶剑郭寰宇
申请(专利权)人:哈尔滨工业大学深圳哈尔滨工业大学深圳科技创新研究院
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1