粒子群优化算法模型的训练方法、粒子群优化方法及装置制造方法及图纸

技术编号:33247622 阅读:26 留言:0更新日期:2022-04-27 18:02
本公开提供了一种粒子群优化算法模型的训练方法、粒子群优化方法及装置。该方法包括:根据由第一电子设备生成的粒子训练种群确定适应度以及与适应度对应的初始最优位置,在进行第t次迭代训练的过程中,根据动作网络和第t观测状态,确定粒子训练种群的第t选择动作,确定粒子训练种群的第t奖励回报和第t+1观测状态,将第t观测状态、第t选择动作、第t奖励回报和第t+1观测状态确定为与第t次迭代训练对应的一个状态转移信息并存储于缓存中,根据从缓存中获取的一个状态转移信息和价值网络的损失函数,计算第t损失结果,根据第t损失结果和状态转移信息训练价值网络和动作网络,进而得到粒子群优化算法模型。到粒子群优化算法模型。到粒子群优化算法模型。

【技术实现步骤摘要】
粒子群优化算法模型的训练方法、粒子群优化方法及装置


[0001]本公开涉及函数
,更具体地,涉及一种粒子群优化算法模型的训练方法、粒子群优化方法、粒子群优化算法模型的训练装置、粒子群优化装置、电子设备、计算机可读存储介质和计算机程序产品。

技术介绍

[0002]粒子群优化算法(Particle Swarm optimization,PSO)是一种群智能优化算法,其原理是模仿鸟群捕食和聚集的行为,并采用计算机模拟的方式创造一种随机优化的算法。该算法的优势主要在于它简单的基本思想,非常少的参数和很快的收敛速度。由于以上诸多优点,粒子群算法已经在工业生产,矿山,煤炭,水电调度等工业领域取得广泛应用。
[0003]在实现本公开构思的过程中,专利技术人发现相关技术中至少存在如下问题:粒子群优化算法在求解时局限于局部最优解,收敛精度较低,从而需要多次进行求解以得到全局最优解,进而导致计算机的能耗增加。

技术实现思路

[0004]有鉴于此,本公开实施例提供了一种粒子群优化算法模型的训练方法、粒子群优化方法、粒子群优化算法模型的训本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种由第一电子设备执行的粒子群优化算法模型的训练方法,包括:根据由所述第一电子设备生成的粒子训练种群确定适应度以及与所述适应度对应的初始最优位置,所述适应度用于评价所述粒子训练种群的解的品质,所述初始最优位置表征当前适应度下所述粒子训练种群位置坐标;在进行第t次迭代训练的过程中,根据动作网络和第t观测状态,确定所述粒子训练种群的第t选择动作,其中,所述第t观测状态是根据在进行所述第t次迭代训练后的已迭代次数和最大迭代次数得到的;根据所述粒子训练种群、所述初始最优位置以及所述第t选择动作确定所述粒子训练种群的第t奖励回报和第t+1观测状态;将所述第t观测状态、所述第t选择动作、所述第t奖励回报和所述第t+1观测状态确定为与所述第t次迭代训练对应的一个状态转移信息并存储于缓存中;根据从所述缓存中获取的一个状态转移信息和价值网络的损失函数,计算第t损失结果;根据所述第t损失结果调整所述价值网络的网络参数,生成经初始训练的初始价值网络;根据所述获取的一个状态转移信息中的选择动作和所述初始价值网络,训练所述动作网络,生成经初始训练的初始动作网络;在所述已迭代次数小于或等于所述最大迭代次数的情况下,迭代地根据所述第t+1观测状态确定第t+1选择动作,以调整所述初始价值网络的网络参数和训练所述初始动作网络;在所述已迭代次数大于所述最大迭代次数的情况下,根据经过网络参数调整的所述初始价值网络和所述初始动作网络,生成所述粒子群优化算法模型。2.根据权利要求1的方法,其中,所述根据所述粒子训练种群、所述初始最优位置以及所述第t选择动作确定所述粒子训练种群的第t奖励回报和第t+1观测状态,包括:利用位于所述初始最优位置的所述粒子训练种群执行所述第t选择动作,得到所述第t奖励回报和所述第t+1观测状态,其中,所述第t奖励回报表征所述粒子训练种群经过所述第t选择动作后的适应度变化情况。3.根据权利要求2的方法,其中,所述根据从所述缓存中获取的一个状态转移信息和价值网络的损失函数,计算第t损失结果,包括:根据从所述缓存中随机获取的所述状态转移信息,计算粒子训练种群的目标价值;利用所述价值网络的损失函数处理所述随机获取的所述状态转移信息和所述目标价值,输出所述第t损失结果。4.根据权利要求1的方法,其中,所述根据动作网络和第t观测状态,确定所述粒子训练种群的第t选择动作,包括:将所述第t观测状态和所述动作网络的权重输入所述动作网络,输出处理结果;根据所述处理结果和探索噪声,得到所述第t选择动作。5.根据权利要求4的方法,其中,所述第t选择动作a
t
的计算如下所示:a
t
=μ(s
t

μ
)+N
t
其中,θ
μ
表征所述动作网络的权重,μ(s
t

μ
)表征观测状态s
t
下的动作网络输出的处理
结果;N
t
表征探索噪声,探索噪声为均值为第一预设值、方差为第二预设值的系列随机数。6.根据权利要求1的方法,其中,所述根据所述获取的一个状态转移信息中的选择动作和所述初始价值网络,训练所述动作网络,生成经初始训练的初始动作网络,包括:根据所述动作网络的网络参数确定所述网络参数的第一导数;根据所述第t损失结果计算所述第t损失结果中价值网络的网络参数的第二导数;根据所述第一导数和所述第二导数确...

【专利技术属性】
技术研发人员:尹世远龚国良鲁华祥申荣铉陈刚金敏毛文宇
申请(专利权)人:中国科学院半导体研究所
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1