一种基于强化学习和粒子群算法的智能寻优方法技术

技术编号:33334069 阅读:34 留言:0更新日期:2022-05-08 09:15
本发明专利技术属于智能优化领域,特别涉及一种基于强化学习和粒子群算法的智能寻优方法。一种基于强化学习和粒子群算法的智能寻优方法,利用强化学习优化粒子群算法参数,通过强化学习的输入、输出和优化目标设计,自适应调整粒子群算法参数;输入即状态,以粒子群算法的优化进度表征;输出即动作,以粒子群算法速度更新公式参数表征,速度更新公式参数包括局部极值权重、全局极值权重和惯性因子;优化目标即回报,以当前粒子的适应度函数值作为正回报,当前迭代次数作为负回报。本发明专利技术实现了粒子群算法迭代步长的自适应调整,避免了因为参数设置不当导致的算法不收敛及迭代次数多的问题,实现了全局最优与求解速度的动态平衡,提升了算法的快速性。法的快速性。法的快速性。

【技术实现步骤摘要】
一种基于强化学习和粒子群算法的智能寻优方法


[0001]本专利技术属于智能优化领域,特别涉及一种基于强化学习和粒子群算法的智能寻优方法。

技术介绍

[0002]现实世界的优化问题常具有搜索空间不连续(存在离散形变量)、优化目标非凸(即存在多个局部极值点)、问题求解空间高维复杂等特点,采用梯度优化的方式面临建模困难、易陷入局部极值等问题,目前常采用智能寻优方法求解,能够在有限时间内给出尽可能优化的方案,且易于实现并行处理以提升效率。
[0003]智能寻优方法通常采用贪婪的策略,在当前解的基础上进行一定的变化,若变化后的新解更好,则逐步淘汰旧的解,如此循环迭代直到算法收敛。此类方法可采用群体优化的方式,同时对一群解进行变化和淘汰,从而实现求解过程的并行化处理,提升求解效率,但是随着算法优化进度的变化,算法中固定设置的参数往往导致算法优化过程陷入局部最优、或者算法优化步长太小速度过低,导致优化效果不佳。因此,有必要研究一种使算法参数随着优化过程而自适应调整,而不是采用固定的数值,从而实现粒子群算法优化过程中全局最优与求解速度的动态平衡,提升寻本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种基于强化学习和粒子群算法的智能寻优方法,其特征在于,利用强化学习优化粒子群算法参数,通过强化学习的输入、输出和优化目标设计,自适应调整粒子群算法参数;所述输入,即状态,以粒子群算法的优化进度表征;所述输出,即动作,以粒子群算法速度更新公式参数表征,所述速度更新公式参数包括局部极值权重、全局极值权重和惯性因子;所述优化目标,即回报,以当前粒子的适应度函数值作为正回报,当前迭代次数作为负回报。2.根据权利要求1所述的方法,其特征在于,所述状态的表达式为:其中,为当前迭代步数,为当前粒子最优适应度,为当前平均适应度,为当前全局适应度方差。3.根据权利要求1所述的方法,其特征在于,所述动作的表达式为:其中,分别为局部极值权重、全局极值权重和惯性因子。4.根据权利要求1所述的方法,其特征在于,所述回报的表达式为:其中,为粒子当前适应度即正回报,为经调节的负回报,为调节因子。5.根据权利要求1所述的方法,其特征在于,包括以下步骤:S1:建立优化问题函数设待优化变量个数为,建立粒子的位置向量,其中表示第个待优化变量,其定义域范围为,所述位置向量对应优化问题的解;根据优化问题设计适应度函数,其函数值越大对应所述优化问题的解越好;S2:参数设置根据待优化变量和待优化变量速度的定义域范围,按照均匀分布随机生成个粒子的初始位置和初始速度,此时令迭代次数;其中,所述待优化变量速度为待优化变量的调整算子,用表示的速度,其定义域为;设置调节因子初始值;S3:更...

【专利技术属性】
技术研发人员:高润芳赵云飞陈豪高军强许馨月王少冲韩培俊梁辉魏建光冯国宝何浩东魏庆栋梁燕王蒙
申请(专利权)人:中国人民解放军九六九零一部队
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1