【技术实现步骤摘要】
一种基于强化学习算法的多目标电压稳定控制方法及系统
[0001]本专利技术设计电压控制
,尤其涉及一种基于强化学习算法的多目标电压稳定控制方法及系统。
技术介绍
[0002]强化学习方法作为一种典型的机器学习方法,源自于对智能体的学习行为的观察和研究。智能体在未知的环境下进行动作选择时,由于无法估计动作对环境所产生影响的好坏,只能通过随机的方式反复尝试各种动作。传统强化学习算法为了获得充足的学习经验,智能体必须多次遍历可行域以获得各种控制策略π的累加奖励值,继而得出最优控制策略。然而,假设某电力系统中包含5台发电机同时参与调整,而每台发电机机端参考电压调节量又离散为41个状态,智能体需要经历5次遍历以获得充足的学习经验,则需要搜寻的状态空间所包含的状态个数就高达5.8
×
10^8,随着参与调整的发电机(控制变量)台数的增长,这一数字将非常可观。在时间尺度为10s以内同时状态变化又非常剧烈的暂态电压安全稳定控制问题中,要实现如此庞大的状态空间的多次遍历显然是不合理的。
[0003]智能体在动作时 ...
【技术保护点】
【技术特征摘要】
1.一种基于强化学习算法的多目标电压控制方法,其特征在于,包括:对获取的多个目标的电压控制变量进行离散化处理,获得第一控制变量集;根据所述第一控制变量集,通过预设的学习算法获得与所述第一控制变量集对应的第一状态函数值;根据所述第一状态函数值,通过预设的状态敏感度函数获得状态敏感度;根据所述状态敏感度及所述状态函数值,通过预设的搜寻策略更新所述学习算法及所述状态敏感度函数,获得第二控制变量集;以主导节点母线电压偏差和控制代价最小对所述第二控制变量集进行处理,获得第三控制变量;根据所述第三控制变量,实时控制所述多个目标的电压。2.如权利要求1所述的一种基于强化学习算法的多目标电压控制方法,其特征在于,所述对获取的多个目标的电压控制变量进行离散化处理,具体包括:所述电压控制变量包括发电机电压参考值变化量及电容器投切量;根据所述电容器投切量的投切组数及预设的离散范围,对所述发电机电压参考值变化量进行离散化处理;通过预设的离散调节阈值及离散等级,对所述发电机电压参考值变化量进行离散化处理。3.如权利要求1所述的一种基于强化学习算法的多目标电压控制方法,其特征在于,所述通过预设的学习算法及状态敏感度函数对所述第一控制变量进行处理,具体包括:根据预设的单次动作范围及所述第一控制变量集,通过预设的状态函数获得所述第一状态函数初始值;根据所述第一状态函数初始值,利用预设的轨迹灵敏度技术,获得对应的立即奖励值;根据所述立即奖励值,更新所述第一状态函数初始值,获得所述第一状态函数值。4.如权利要求1所述的一种基于强化学习算法的多目标电压稳定控制方法,其特征在于,所述根据所述第一状态函数值,通过预设的状态敏感度函数获得状态敏感度,具体包括:根据所述状态敏感度,与预设的状态敏感度阈值进行比较,判断所述状态敏感度是否保留;若所述状态敏感度大于预设的状态敏感度阈值,则保留所述状态敏感度;若所述状态敏感度小于所述状态敏感度阈值,则更新所述第一状态函数值,以使所述状态敏感度大于预设的状态敏感度阈值。5.如权利要求所述的一种基于强化学习算法的多目标电压控制方法,其特征在于,所述通过预设的搜寻策略更新所述学习算法及所述状态敏感度函数,具体包括:通过在所述第一控制变量集的正负取值空间上计算中值,获得所述第一控制变量集取值组合;根据所述取值组合,通过所述学习算法及所述状态敏感度函数获得对应的状态函数值及状态敏感度;根据所述状态函数值及状态敏感度,通过预设的支配关系进行比较,获得非支配解;根据所述非支配解,通过所述状态敏感度函数,获得临界状态敏感度;
根据所述临界状...
【专利技术属性】
技术研发人员:邓卓明,郭知非,王嘉阳,黄东启,蔡万通,田宝烨,王彤,姚文峰,周保荣,
申请(专利权)人:南方电网科学研究院有限责任公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。