【技术实现步骤摘要】
本专利技术涉及电力电子变换器智能控制,尤其是涉及一种电力电子变换器的强化学习控制器训练环境架构。
技术介绍
1、近年来,基于强化学习的智能控制方式引起了国内外广大学者的研究兴趣,并已经在电力电子领域得到应用。强化学习控制器作为一种基于智能体与被控对象交互学习的控制器,在应用于电力电子变换器控制时,通过在训练环境中模拟变换器实际运行的不同工况,控制器在与各种工况交互的过程中更新其控制参数,使得训练收敛后的控制器具有适应变换器不同工况下运行的能力。
2、在强化学习控制器训练中,训练环境的设计十分关键,合理的训练环境设计不仅可以使控制器训练时提前模拟到实际运行时的不同工况,而且可以提高控制器训练的效率。在过去强化学习控制器的训练环境架构中,往往在每次训练的episode中设置变换器运行的所有工况,这种架构下强化学习控制器在训练时虽然可以模拟到变换器实际运行的不同工况,但是却缺乏灵活性和可拓展性。比如在需要更改训练环境中变换器运行工况的数量时,这种架构往往需要重新分配各种工况在每次训练episode中的时间占比;在需要考虑的变换器运
...【技术保护点】
1.一种电力电子变换器的强化学习控制器训练环境架构,其特征在于:包括以下步骤:
2.根据权利要求1所述的一种电力电子变换器的强化学习控制器训练环境架构,其特征在于:在步骤S1中,其中强化学习控制器从Episode=0到Episode=n迭代训练,每个Episode的训练时间长度为tf,强化学习控制器的控制参数每隔控制步长ts或整数个ts更新一次。
3.根据权利要求1所述的一种电力电子变换器的强化学习控制器训练环境架构,其特征在于:在步骤S1中,在进行参数更新时,强化学习控制器从被控对象中采集状态观测向量s,得到的状态观测向量s作为策略函数的输入
...【技术特征摘要】
1.一种电力电子变换器的强化学习控制器训练环境架构,其特征在于:包括以下步骤:
2.根据权利要求1所述的一种电力电子变换器的强化学习控制器训练环境架构,其特征在于:在步骤s1中,其中强化学习控制器从episode=0到episode=n迭代训练,每个episode的训练时间长度为tf,强化学习控制器的控制参数每隔控制步长ts或整数个ts更新一次。
3.根据权利要求1所述的一种电力电子变换器的强化学习控制器训练环境架构,其特征在于:在步骤s1中,在进行参数更新时,强化学习控制器从被控对象中采集状态观测向量s,得到的状态观测向量s作为策略函数的输入,经过策略函数的输入输出映射关系得到控制器的输出,即控制信号a,电力电子变换器作为...
【专利技术属性】
技术研发人员:叶剑,郭寰宇,
申请(专利权)人:哈尔滨工业大学深圳哈尔滨工业大学深圳科技创新研究院,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。