解决图组合优化问题的方法、装置、电子设备及存储介质制造方法及图纸

技术编号:34289250 阅读:31 留言:0更新日期:2022-07-27 09:03
本发明专利技术涉及一种解决图组合优化问题的方法、装置、电子设备及存储介质。本发明专利技术所述的解决图组合优化问题的方法包括:获取真实数据对应的实例图,生成所述实例图对应的图数据结构;将所述图数据结构输入到图神经网络中进行编码处理,得到所述图数据结构的每个节点的特征向量;用所述每个节点的特征向量定义用来进行强化学习训练的Q函数,得到Q函数的参数化表示;迭代执行使用经过强化学习训练的Q函数计算各节点的Q值,根据所述各节点的Q值对所述图信息进行状态更新;直至状态更新后的图信息是否达到终止条件,输出当前图信息为最优解。本发明专利技术所述的解决图组合优化问题的方法,提高了对经验的采样率,加快了Q函数的学习。加快了Q函数的学习。加快了Q函数的学习。

【技术实现步骤摘要】
解决图组合优化问题的方法、装置、电子设备及存储介质


[0001]本专利技术涉及深度学习
,特别是涉及一种解决图组合优化问题的方法、装置、电子设备及存储介质。

技术介绍

[0002]最近,机器学习算法领域取得了重大进展,它们已迅速成为科学家工具箱中用于研究的工具之一。特别是强化学习领域,已经使得电脑在Atrai和GO游戏中超过了人类玩家的水平,而且完全不需要人的指导。在组合优化问题的研究邻域,随着问题的规模的不断扩大以及对求解速度的要求越来越高,像精确算法以及近似算法这类传统的运筹算法面临着很大的计算压力。
[0003]组合优化问题即在离散决策空间内进行决策变量的最优选择,这与强化学习的“动作选择”有非常相似的特征。正因此,利用深度神经网络自动的对图像的特征进行学习,代替了人类手工进行算法设计,深度强化学习根据当前的环境、问题状态做出动作选择,并根据动作的反馈不断调整自身的策略,从而达到设定的目标。目前基于DRL(Deep Reinforcement Learning)的组合优化方法主要分为基于DRL的端到端算法和基于DRL的局部搜索改进算法两大类,其中端到端算法主要包括基于Pointer network的端到端方法和基于图神经网络的端到端方法两类,端到端的方法具有求解速度快、泛化能力强的优势,但是解的最优性在大规模问题上很难被保证;局部搜索改进类算法在一定程度上还依赖于手工制作的启发式算法来获得更好的优化效果。在构造图组合优化问题的解这个过程中,主要是通过逐步添加节点来构造解,当节点数过大且奖励稀疏、中间步骤的奖励函数难以定义的时候,对强化学习算法的收敛性是个很大的考验。强化学习作用于图组合优化问题需要有良好的问题表示能力,由于图的状态和节点的上下文非常复杂,较难描述,并且可能会需要用到图的全局/局部度的分布、到标记节点的距离等特性,这些信息都直接影响到神经网络能否更好地理解当前要解决的问题。

技术实现思路

[0004]基于此,本专利技术的目的在于,提供一种解决图组合优化问题的方法、装置、电子设备及存储介质,本专利技术所述的解决图组合优化问题的方法,提高了对经验的采样率,加快了Q函数的学习。
[0005]第一方面,本专利技术提供一种解决图组合优化问题的方法,包括以下步骤:
[0006]获取真实数据对应的实例图,并根据所述真实数据,生成所述实例图对应的图数据结构;
[0007]将所述图数据结构输入到图神经网络中进行编码处理,得到所述图数据结构的每个节点的特征向量,所述每个节点的特征向量组成所述图数据结构对应的图信息;
[0008]用所述每个节点的特征向量定义用来进行强化学习训练的Q函数,得到Q函数的参数化表示;
[0009]使用经过强化学习训练的Q函数计算各节点的Q值,根据所述各节点的Q值对所述图信息进行状态更新;
[0010]判断状态更新后的图信息是否达到终止条件;
[0011]如果达到终止条件,输出当前图信息为最优解;
[0012]如果未达到终止条件,迭代执行状态更新和判断步骤,直至达到终止条件。
[0013]进一步地,所述图神经网络为Graphmer;
[0014]所述Graphmer图神经网络用于通过Aggregate和combine部分生成节点特征向量:
[0015]其中,x
v
表示节点是否被选择,表示邻节点N(v)的信息,{w(v,u)}
u∈N(v)
表示邻边的权重信息,Θ为模型参数;
[0016]所述Graphmer图神经网络还用于通过非线性激活函数更新节点特征向量。
[0017]进一步地,所述Q函数的参数化表示为Q(S
t
,v;Θ);
[0018]其中,S
t
表示当前实例的状态、v表示可选取的节点,Θ为模型参数。
[0019]进一步地,对所述Q函数进行强化学习训练,包括:
[0020]使用HER

DQN对所述Q函数进行强化学习训练;
[0021]采用拟合Q迭代的方式更新Q函数,采用随机梯度下降法更新Q函数中的参数Θ,以最小化损失函数:Loss=(y

Q(S
t
,v
t
;Θ))2;
[0022]其中,y为DQN中目标网络的逼近函数y=γmax
v'
Q(h(S
t+1
),v';Θ)+r(S
t
,v
t
),γ为Q值得折扣系数,r为从经验池中采样得到的动作奖励函数;
[0023]训练至Loss值减少趋于稳定,得到训练好的Q函数。
[0024]进一步地,生成所述实例图对应的图数据结构,包括:
[0025]当所述实例图为目标图结构,生成所述实例图对应的布尔表达式;
[0026]当所述实例图为MVC和/或TSP问题,生成所述实例图对应的稀疏矩阵。
[0027]进一步地,根据所述各节点的Q值对所述图信息进行状态更新,包括:
[0028]根据Q函数计算得到每个动作的Q值,基于贪心策略选取节点;
[0029]如果是求解MVC和/或TSP问题,则选择一个节点到最优解点集中;
[0030]如果是生成未知图结构问题,则选择与Q值最大的节点连接一条边。
[0031]进一步地,状态更新后的图信息达到终止条件,包括:
[0032]当前的节点集合和/或图结构能够解决当前图组合优化问题;
[0033]和/或,
[0034]当前的节点集合和/或图结构不能再添加节点。
[0035]第二方面,本专利技术还提供一种解决图组合优化问题的装置,包括:
[0036]图数据结构生成模块,用于获取真实数据对应的实例图,并根据所述真实数据,生成所述实例图对应的图数据结构;
[0037]编码模块,用于将所述图数据结构输入到图神经网络中进行编码处理,得到所述图数据结构的每个节点的特征向量,所述每个节点的特征向量组成所述图数据结构对应的图信息;
[0038]Q函数定义模块,用于用所述每个节点的特征向量定义用来进行强化学习训练的Q
函数,得到Q函数的参数化表示;
[0039]状态更新模块,用于使用经过强化学习训练的Q函数计算各节点的Q值,根据所述各节点的Q值对所述图信息进行状态更新;
[0040]终止条件判断模块,用于判断状态更新后的图信息是否达到终止条件;
[0041]图信息输出模块,用于如果达到终止条件,输出当前图信息为最优解;
[0042]迭代模块,用于如果未达到终止条件,迭代执行状态更新和判断步骤,直至达到终止条件。
[0043]第三方面,本专利技术还提供一种电子设备,其特征在于,包括:
[0044]至少一个存储器以及至少一个处理器;
[0045]所述存储器,用于存储一个或多个程序;
[0046]当所述一个或多个程序被所述至少一个本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种解决图组合优化问题的方法,其特征在于,包括以下步骤:获取真实数据对应的实例图,并根据所述真实数据,生成所述实例图对应的图数据结构;将所述图数据结构输入到图神经网络中进行编码处理,得到所述图数据结构的每个节点的特征向量,所述每个节点的特征向量组成所述图数据结构对应的图信息;用所述每个节点的特征向量定义用来进行强化学习训练的Q函数,得到Q函数的参数化表示;使用经过强化学习训练的Q函数计算各节点的Q值,根据所述各节点的Q值对所述图信息进行状态更新;判断状态更新后的图信息是否达到终止条件;如果达到终止条件,输出当前图信息为最优解;如果未达到终止条件,迭代执行状态更新和判断步骤,直至达到终止条件。2.根据权利要求1所述的一种解决图组合优化问题的方法,其特征在于:所述图神经网络为Graphmer;所述Graphmer图神经网络用于通过Aggregate和combine部分生成节点特征向量:其中,x
v
表示节点是否被选择,表示邻节点N(v)的信息,{w(v,u)}
u∈N(v)
表示邻边的权重信息,Θ为模型参数;所述Graphmer图神经网络还用于通过非线性激活函数更新节点特征向量。3.根据权利要求2所述的一种解决图组合优化问题的方法,其特征在于:所述Q函数的参数化表示为Q(S
t
,v;Θ);其中,S
t
表示当前实例的状态、v表示可选取的节点,Θ为模型参数。4.根据权利要求3所述的一种解决图组合优化问题的方法,其特征在于,对所述Q函数进行强化学习训练,包括:使用HER

DQN对所述Q函数进行强化学习训练;采用拟合Q迭代的方式更新Q函数,采用随机梯度下降法更新Q函数中的参数Θ,以最小化损失函数:Loss=(y

Q(S
t
,v
t
;Θ))2;其中,y为DQN中目标网络的逼近函数y=γmax
v'
Q(h(S
t+1
),v';Θ)+r(S
t
,v
t
),γ为Q值得折扣系数,r为从经验池中采样得到的动作奖励函数;训练至Loss值减少趋于稳定,得到训...

【专利技术属性】
技术研发人员:杜志斌叶家豪黄银豪徐英秋
申请(专利权)人:华南师范大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1