解决图组合优化问题的方法、装置、电子设备及存储介质制造方法及图纸

技术编号：34289250 阅读：31 留言：0更新日期：2022-07-27 09:03

本发明专利技术涉及一种解决图组合优化问题的方法、装置、电子设备及存储介质。本发明专利技术所述的解决图组合优化问题的方法包括：获取真实数据对应的实例图，生成所述实例图对应的图数据结构；将所述图数据结构输入到图神经网络中进行编码处理，得到所述图数据结构的每个节点的特征向量；用所述每个节点的特征向量定义用来进行强化学习训练的Q函数，得到Q函数的参数化表示；迭代执行使用经过强化学习训练的Q函数计算各节点的Q值，根据所述各节点的Q值对所述图信息进行状态更新；直至状态更新后的图信息是否达到终止条件，输出当前图信息为最优解。本发明专利技术所述的解决图组合优化问题的方法，提高了对经验的采样率，加快了Q函数的学习。加快了Q函数的学习。加快了Q函数的学习。

全部详细技术资料下载

【技术实现步骤摘要】
解决图组合优化问题的方法、装置、电子设备及存储介质

[0001]本专利技术涉及深度学习
，特别是涉及一种解决图组合优化问题的方法、装置、电子设备及存储介质。

技术介绍

[0002]最近，机器学习算法领域取得了重大进展，它们已迅速成为科学家工具箱中用于研究的工具之一。特别是强化学习领域，已经使得电脑在Atrai和GO游戏中超过了人类玩家的水平，而且完全不需要人的指导。在组合优化问题的研究邻域，随着问题的规模的不断扩大以及对求解速度的要求越来越高，像精确算法以及近似算法这类传统的运筹算法面临着很大的计算压力。
[0003]组合优化问题即在离散决策空间内进行决策变量的最优选择，这与强化学习的“动作选择”有非常相似的特征。正因此，利用深度神经网络自动的对图像的特征进行学习，代替了人类手工进行算法设计，深度强化学习根据当前的环境、问题状态做出动作选择，并根据动作的反馈不断调整自身的策略，从而达到设定的目标。目前基于DRL(Deep Reinforcement Learning)的组合优化方法主要分为基于DRL的端到端算法和基于DRL的局部搜索改进算法两大类，其中端到端算法主要包括基于Pointer network的端到端方法和基于图神经网络的端到端方法两类，端到端的方法具有求解速度快、泛化能力强的优势，但是解的最优性在大规模问题上很难被保证；局部搜索改进类算法在一定程度上还依赖于手工制作的启发式算法来获得更好的优化效果。在构造图组合优化问题的解这个过程中，主要是通过逐步添加节点来构造解，当节点数过大且奖励稀疏、中...

【技术保护点】

【技术特征摘要】
1.一种解决图组合优化问题的方法，其特征在于，包括以下步骤：获取真实数据对应的实例图，并根据所述真实数据，生成所述实例图对应的图数据结构；将所述图数据结构输入到图神经网络中进行编码处理，得到所述图数据结构的每个节点的特征向量，所述每个节点的特征向量组成所述图数据结构对应的图信息；用所述每个节点的特征向量定义用来进行强化学习训练的Q函数，得到Q函数的参数化表示；使用经过强化学习训练的Q函数计算各节点的Q值，根据所述各节点的Q值对所述图信息进行状态更新；判断状态更新后的图信息是否达到终止条件；如果达到终止条件，输出当前图信息为最优解；如果未达到终止条件，迭代执行状态更新和判断步骤，直至达到终止条件。2.根据权利要求1所述的一种解决图组合优化问题的方法，其特征在于：所述图神经网络为Graphmer；所述Graphmer图神经网络用于通过Aggregate和combine部分生成节点特征向量：其中，x
v
表示节点是否被选择，表示邻节点N(v)的信息，{w(v,u)}
u∈N(v)
表示邻边的权重信息，Θ为模型参数；所述Graphmer图神经网络还用于通过非线性激活函数更新节点特征向量。3.根据权利要求2所述的一种解决图组合优化问题的方法，其特征在于：所述Q函数的参数化表示为Q(S
t
,v；Θ)；其中，S
t
表示当前实例的状态、v表示可选取的节点，Θ为模型参数。4.根据权利要求3所述的一种解决图组合优化问题的方法，其特征在于，对所述Q函数进行强化学习训练，包括：使用HER
‑
DQN对所述Q函数进行强化学习训练；采用拟合Q迭代的方式更新Q函数，采用随机梯度下降法更新Q函数中的参数Θ，以最小化损失函数：Loss＝(y
‑
Q(S
t
,v
t
；Θ))2；其中，y为DQN中目标网络的逼近函数y＝γmax
v'
Q(h(S
t+1
),v'；Θ)+r(S
t
,v
t
)，γ为Q值得折扣系数，r为从经验池中采样得到的动作奖励函数；训练至Loss值减少趋于稳定，得到训...

【专利技术属性】
技术研发人员：杜志斌，叶家豪，黄银豪，徐英秋，
申请(专利权)人：华南师范大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人