基于局部注意力机制的旅行商问题生成式求解方法技术

技术编号:38340045 阅读:10 留言:0更新日期:2023-08-02 09:20
本发明专利技术涉及神经组合优化技术领域,具体涉及一种基于局部注意力机制的旅行商问题生成式求解方法,包括搭建基于局部注意力机制的旅行商问题生成式求解模型;基于可变情节长度和改进的策略算法对所述旅行商问题生成式求解模型进行训练,得到最优模型;将城市节点集合输入所述最优模型后使用带有基于旅行商问题数据的改进遮蔽操作的局部注意力机制进行注意力权重以及注意力输出计算,得到决策结果,本发明专利技术利用旅行商问题数据在逻辑上的排列顺序,改进了原本Transformer中使用的遮蔽方法,实现了一种局部注意力机制,降低了模型的训练成本,从而适用于对旅行商数据的处理,解决了深度学习数据处理方法对于旅行商数据不适用的问题。的问题。的问题。

【技术实现步骤摘要】
基于局部注意力机制的旅行商问题生成式求解方法


[0001]本专利技术涉及神经组合优化
,尤其涉及一种基于局部注意力机制的旅行商问题生成式求解方法。

技术介绍

[0002]旅行商问题(Traveling Salesman Problem,TSP)是数学领域中的一个经典问题。
[0003]局部注意力机制是指:只计算输入的查询对于与查询最相关的那部分的键的注意力权重,而不是将查询与所有位置的键计算兼容性函数,从而在保留权重准确性的同时减少了计算注意力权重所需要的大量计算和需要被保存在内存中的参数的数量。而如何提取与查询最相关的键就是想要利用局部性特征所需要解决的问题。
[0004]在图像数据中,局部通常被定义为像素的一个小邻域,在文本数据中,局部通常被定义为字符的上下文。而在旅行商问题数据中,由于问题只提供了节点的无序集合,导致节点数据在张量中的位置分布情况与节点的实际位置分布情况并不相关,这使得许多常用的深度学习(Deep Learning,DL)数据处理方法对于旅行商问题数据并不适用。

技术实现思路

[0005]本专利技术的目的在于提供一种基于局部注意力机制的旅行商问题生成式求解方法,旨在解决深度学习数据处理方法对于旅行商问题数据不适用的问题。
[0006]为实现上述目的,本专利技术提供了一种基于局部注意力机制的旅行商问题生成式求解方法,包括以下步骤:
[0007]搭建基于局部注意力机制的旅行商问题生成式求解模型;
[0008]基于可变情节长度和改进的策略算法对所述旅行商问题生成式求解模型进行训练,得到最优模型;
[0009]将城市节点集合输入所述最优模型后使用带有基于旅行商问题数据的改进遮蔽操作的局部注意力机制进行注意力权重以及注意力输出计算,得到决策结果。
[0010]其中,所述旅行商问题生成式求解模型包括编码器和解码器。
[0011]其中,所述基于可变情节长度和改进的策略算法对所述旅行商问题生成式求解模型进行训练,得到最优模型,包括:
[0012]对REINFORCE算法进行改进,得到改进的策略算法;
[0013]构建可变情节长度;
[0014]基于所述可变情节长度和所述改进的策略算法对所述旅行商问题生成式求解模型进行训练,得到最优模型。
[0015]其中,所述对REINFORCE算法进行改进,得到改进的策略算法,包括:
[0016]将批评者网络作为基线引入REINFORCE算法,得到带基线的REINFORCE算法;
[0017]滚动策略更新所述带基线的REINFORCE算法中的基线网络的参数,得到改进的策略算法。
[0018]其中,所述将城市节点集合输入所述最优模型后使用带有基于旅行商问题数据的改进遮蔽操作的局部注意力机制进行注意力权重以及注意力输出计算,得到决策结果,包括;
[0019]将城市节点集合输入训练后的所述编码器求解注意力权重,输出城市图特征;
[0020]将所述城市图特征中的图嵌入或部分旅行终点嵌入与三角函数绝对位置编码相加,得到输入特征;
[0021]将所述输入特征输入训练后的所述解码器对旅行商问题数据进行遮蔽操作,得到决策结果。
[0022]本专利技术是一种基于局部注意力机制的旅行商问题生成式求解方法,通过搭建基于局部注意力机制的旅行商问题生成式求解模型;基于可变情节长度和改进的策略算法对所述旅行商问题生成式求解模型进行训练,得到最优模型;将城市节点集合输入所述最优模型后使用带有基于旅行商问题数据的改进遮蔽操作的局部注意力机制进行注意力权重以及注意力输出计算,得到决策结果,本专利技术利用旅行商问题数据在逻辑上的排列顺序,改进了原本Transformer中使用的遮蔽方法,实现了一种局部注意力机制,降低了模型的训练成本,提高了模型一定的性能表现,从而适用于对旅行商问题数据的处理,解决了深度学习数据处理方法对于旅行商问题数据不适用的问题。
附图说明
[0023]为了更清楚地说明本专利技术实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本专利技术的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
[0024]图1是单个编码器块的结构图。
[0025]图2是整个解码器的结构图。
[0026]图3是本专利技术提供的一种基于局部注意力机制的旅行商问题生成式求解方法的流程图。
具体实施方式
[0027]下面详细描述本专利技术的实施例,所述实施例的示例在附图中示出,其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的,旨在用于解释本专利技术,而不能理解为对本专利技术的限制。
[0028]请参阅图1至图3,本专利技术提供一种基于局部注意力机制的旅行商问题生成式求解方法,包括以下步骤:
[0029]S1搭建基于局部注意力机制的旅行商问题生成式求解模型;
[0030]具体的,所述旅行商问题生成式求解模型包括编码器和解码器。
[0031]编码器:
[0032]编码器网络的输入是城市节点集合中所有节点的二维位置坐标的集合:
[0033]X={x
i
},i∈[1,N]ꢀꢀꢀ
(1)
[0034]其中,x
i
∈[0,1]2表示第i个城市的二维坐标,N是集合中节点的总数。在嵌入层中,
x
i
被线性投影(LinearProjection,LP)为节点嵌入h
i

[0035][0036]其中,d
m
是嵌入向量的维度。这些节点嵌入将作为编码器块的输入,整个编码器网络有L
enc
层编码器块,在每个编码器块中,输入首先被分别投影为查询Q
enc
、键K
enc
和值V
enc
:
[0037][0038][0039][0040]其中,在多头自注意力(Multi

Head Self

Attention,MHSA)模块中,查询和键被用来计算MHSA权重w
ij
:
[0041][0042]其中,w
ij
表示第i个城市在第j个注意力头中计算得到的注意力权重,N
h
是注意力头的总数。每个注意力头分别独立地计算注意力权重,在得到所有注意力头输出的注意力权重均值之后,经过一个归一化指数函数(SoftMax)得到这个编码器块的注意力权重:
[0043][0044]我们在注意力权重的计算中加入了带缩放的残差连接:
[0045]W
k+1
=W
k+1
+εW
k
,k∈[1,L
enc

本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于局部注意力机制的旅行商问题生成式求解方法,其特征在于,包括以下步骤:搭建基于局部注意力机制的旅行商问题生成式求解模型;基于可变情节长度和改进的策略算法对所述旅行商问题生成式求解模型进行训练,得到最优模型;将城市节点集合输入所述最优模型后使用带有基于旅行商问题数据的改进遮蔽操作的局部注意力机制进行注意力权重以及注意力输出计算,得到决策结果。2.如权利要求1所述的基于局部注意力机制的旅行商问题生成式求解方法,其特征在于,所述旅行商问题生成式求解模型包括编码器和解码器。3.如权利要求2所述的基于局部注意力机制的旅行商问题生成式求解方法,其特征在于,所述基于可变情节长度和改进的策略算法对所述旅行商问题生成式求解模型进行训练,得到最优模型,包括:对REINFORCE算法进行改进,得到改进的策略算法;构建可变情节长度;基于所述可变情节长度和所述改进的策略算法对所述旅行商问题生成式求解模型进行训...

【专利技术属性】
技术研发人员:李攸俊李笠
申请(专利权)人:桂林电子科技大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1