一种基于初始解优化的光片上网络映射方法技术

技术编号:38929930 阅读:23 留言:0更新日期:2023-09-25 09:35
本发明专利技术涉及一种基于初始解优化的光片上网络映射方法,包括:步骤1:利用核图和网络拓扑对DQN神经网络进行训练;步骤2:利用训练完成的DQN神经网络,得到待映射光片上网络的优化映射初始解,根据优化映射初始解利用启发式算法在解空间进行搜索,得到IP核映射最优解。本发明专利技术的光片上网络映射方法,利用给定的核图和网络拓扑对DQN神经网络进行训练,通过训练完成的DQN神经网络得到待映射光片上网络的优化映射初始解,与启发式算法结合在解空间进行搜索得到IP核映射最优解,相比于仅使用启发式算法解决IP核映射问题,本发明专利技术方法利用DQN神经网络对映射初始解进行优化后再进行解空间搜索,可以更快、更好地搜索到映射最优解,提高ONoC的性能和可靠性。ONoC的性能和可靠性。ONoC的性能和可靠性。

【技术实现步骤摘要】
一种基于初始解优化的光片上网络映射方法


[0001]本专利技术属于片上网络
,具体涉及一种基于初始解优化的光片上网络映射方法。

技术介绍

[0002]伴随半导体技术的发展,光片上网络(Optical Network

on

Chip,ONoC)逐渐代替传统的通信架构成为片上系统(System

on

Chip,SoC)上首选片上通信架构,ONoC是片上系统的一种新的通信方法,它是多核技术的主要组成部分。ONoC借鉴了并行计算和计算机网络的设计思想,不同拓扑节点连接到不同的片上路由器中。随着ONoC连接的拓扑节点数量的增加,拓扑节点连接到不同路由器极大影响着ONoC设计的性能。因此,应用核图中IP核到拓扑节点的映射问题是ONoC设计中的一个关键问题。
[0003]IP核映射指的是将IP核分配到ONoC拓扑节点上,以使得网络性能最优。这个问题已经被证明是一个NP难问题。随着问题规模的增大,整个解空间呈现爆炸增长。目前,有诸多学者对IP核映射问题展开了研究,并提出大量映射算法。最为广泛采用的映射算法是启发式算法,启发式算法在复杂度和求解时间方面具有优势,但是,启发式算法容易陷入局部最优,从而影响结果的准确性,会对ONoC的性能和可靠性产生影响。

技术实现思路

[0004]为了解决现有技术中存在的上述问题,本专利技术提供了一种基于初始解优化的光片上网络映射方法。本专利技术要解决的技术问题通过以下技术方案实现:
[0005]本专利技术提供了一种基于初始解优化的光片上网络映射方法,包括:
[0006]步骤1:利用核图和网络拓扑对DQN神经网络进行训练;
[0007]步骤2:利用训练完成的DQN神经网络,得到待映射光片上网络的优化映射初始解,根据所述优化映射初始解利用启发式算法在解空间进行搜索,得到IP核映射最优解。
[0008]在本专利技术的一个实施例中,所述步骤1包括:
[0009]步骤1.1:将所述网络拓扑作为与所述DQN神经网络进行交互的环境;其中,利用所述网络拓扑对应的状态向量表示所述核图中IP核的映射情况;
[0010]步骤1.2:构建DQN神经网络并进行初始化;其中,所述DQN神经网络包括网络结构相同的主网络和目标网络;所述DQN神经网络根据输入的当前的状态向量,得到下一映射动作的预测Q值;
[0011]步骤1.3:将所述网络拓扑对应的状态向量输入所述DQN神经网络进行训练,直至达到预设的训练截止条件,得到训练完成的DQN神经网络。
[0012]在本专利技术的一个实施例中,所述状态向量的维度与所述网络拓扑的节点数目一致,所述状态向量中的元素与所述网络拓扑的节点一一对应;
[0013]当所述状态向量中元素的取值为0,则该元素对应的网络拓扑的节点没有映射的IP核,否则,该元素对应的网络拓扑的节点已存在映射的IP核,且元素值表示映射的IP核的
索引。
[0014]在本专利技术的一个实施例中,所述DQN神经网络的映射动作的数量与所述网络拓扑的节点数目一致,每个映射动作与所述网络拓扑的节点一一对应,所述映射动作表示将IP核映射到该映射动作对应的网络拓扑的节点。
[0015]在本专利技术的一个实施例中,所述步骤1.3包括:
[0016]步骤1.31:初始化所述网络拓扑的状态向量,得到全零的初始状态向量,所述初始状态向量作为当前的状态向量;
[0017]步骤1.32:根据当前的状态向量,利用贪婪算法选择一个映射动作;
[0018]步骤1.33:根据选择的映射动作对当前的状态向量进行更新,得到下一状态向量,计算得到该选择的映射动作对应的奖励值和Q值偏差;
[0019]步骤1.34:将当前的状态向量、选择的映射动作、选择的映射动作对应的奖励值、下一状态向量和选择的映射动作对应的Q值偏差,组合成一条经验并存入经验池中;
[0020]步骤1.35:将下一状态向量作为当前的状态向量,重复步骤1.32

步骤1.34直至所述核图中的所有IP核一一对应地映射到所述网络拓扑的节点,得到结束状态向量,完成一次迭代训练;
[0021]步骤1.36:重复步骤1.31

步骤1.35利用所述网络拓扑对应的状态向量进行下一次迭代训练;
[0022]步骤1.37:每达到预设的迭代训练次数后,进入所述DQN神经网络的参数更新阶段,从所述经验池之中抽取预设数量的经验,对所述DQN神经网络的网络参数进行更新,使用更新的DQN神经网络继续迭代训练,直至达到预设的迭代训练截止次数,得到训练完成的DQN神经网络;
[0023]其中,在经验池存满时,按照先进先出的原则,将新生成的经验覆盖所述经验池中的旧经验。
[0024]在本专利技术的一个实施例中,所述步骤1.32包括:
[0025]步骤

:设置贪婪系数ε,其中,0<ε<1;
[0026]步骤

:生成一个随机数,若所述随机数小于ε,则在可选择的映射动作中随机选择一个映射动作,否则根据所述DQN神经网络的主网络的输出结果在可选择的映射动作中选择一个映射动作;
[0027]其中,所述可选择的映射动作为当前的状态向量中为零的元素值对应的网络拓扑的节点的映射动作;
[0028]根据所述DQN神经网络的主网络的输出结果在可选择的映射动作中选择一个映射动作;包括:
[0029]将所述当前的状态向量输入所述DQN神经网络的主网络中,在可选择的映射动作中选择所述主网络输出的最大的预测Q值对应映射动作。
[0030]在本专利技术的一个实施例中,当执行选择的映射动作后,所述核图中的IP核没有全部映射完成,则该选择的映射动作对应的奖励值为0;
[0031]当执行选择的映射动作后,所述核图中的所有IP核全部映射完成,则该选择的映射动作对应的奖励值为所述结束状态向量对应的光片上网络最坏情况下光信噪比。
[0032]在本专利技术的一个实施例中,所述选择的映射动作对应的Q值偏差按照下式计算得
到:
[0033]TD

error=Q
target

Q(S,a
j
;θ);
[0034][0035]其中,TD

error表示Q值偏差,Q
target
表示目标Q值,Q(S,a
j
;θ)表示将当前的状态向量输入主网络中,主网络输出的选择的映射动作对应的预测Q值,S表示当前的状态向量,a
j
表示选择的映射动作,θ表示主网络的参数,r表示奖励值,γ表示折扣系数,表示将下一状态向量输入目标网络中,在可选择的映射动作中目标网络输出的最大的预测Q值,S'表示下一状态向量,a
j
'表示目标网络根据输入的下一状态向量选择的下一映射动作,本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于初始解优化的光片上网络映射方法,其特征在于,包括:步骤1:利用核图和网络拓扑对DQN神经网络进行训练;步骤2:利用训练完成的DQN神经网络,得到待映射光片上网络的优化映射初始解,根据所述优化映射初始解利用启发式算法在解空间进行搜索,得到IP核映射最优解。2.根据权利要求1所述的基于初始解优化的光片上网络映射方法,其特征在于,所述步骤1包括:步骤1.1:将所述网络拓扑作为与所述DQN神经网络进行交互的环境;其中,利用所述网络拓扑对应的状态向量表示所述核图中IP核的映射情况;步骤1.2:构建DQN神经网络并进行初始化;其中,所述DQN神经网络包括网络结构相同的主网络和目标网络;所述DQN神经网络根据输入的当前的状态向量,得到下一映射动作的预测Q值;步骤1.3:将所述网络拓扑对应的状态向量输入所述DQN神经网络进行训练,直至达到预设的训练截止条件,得到训练完成的DQN神经网络。3.根据权利要求2所述的基于初始解优化的光片上网络映射方法,其特征在于,所述状态向量的维度与所述网络拓扑的节点数目一致,所述状态向量中的元素与所述网络拓扑的节点一一对应;当所述状态向量中元素的取值为0,则该元素对应的网络拓扑的节点没有映射的IP核,否则,该元素对应的网络拓扑的节点已存在映射的IP核,且元素值表示映射的IP核的索引。4.根据权利要求2所述的基于初始解优化的光片上网络映射方法,其特征在于,所述DQN神经网络的映射动作的数量与所述网络拓扑的节点数目一致,每个映射动作与所述网络拓扑的节点一一对应,所述映射动作表示将IP核映射到该映射动作对应的网络拓扑的节点。5.根据权利要求2所述的基于初始解优化的光片上网络映射方法,其特征在于,所述步骤1.3包括:步骤1.31:初始化所述网络拓扑的状态向量,得到全零的初始状态向量,所述初始状态向量作为当前的状态向量;步骤1.32:根据当前的状态向量,利用贪婪算法选择一个映射动作;步骤1.33:根据选择的映射动作对当前的状态向量进行更新,得到下一状态向量,计算得到该选择的映射动作对应的奖励值和Q值偏差;步骤1.34:将当前的状态向量、选择的映射动作、选择的映射动作对应的奖励值、下一状态向量和选择的映射动作对应的Q值偏差,组合成一条经验并存入经验池中;步骤1.35:将下一状态向量作为当前的状态向量,重复步骤1.32

步骤1.34直至所述核图中的所有IP核一一对应地映射到所述网络拓扑的节点,得到结束状态向量,完成一次迭代训练;步骤1.36:重复步骤1.31

步骤1.35利用所述网络拓扑对应的状态向量进行下一次迭代训练;步骤1.37:每达到预设的迭代训练次数后,进入所述DQN神经网络的参数更新阶段,从所述经验池之中抽取预设数量的经验,对所述DQN神经网络的网络参数进行更新,使用更新的DQN神经网络继续迭代训练,直至达到预设的迭代训练截止次数,得到训练完成的DQN神
经网络;其中,在经验池存满时,按照先进先出的原则,将新生成的经验覆盖所述经验池中的旧经验。6.根据权利要求5所述的基于初始解优化的光片上网络映射方法,其特征在于,所述步骤1.32包括:步骤

:设置贪婪系数ε,其中,0<ε<1;步骤

:生成一个随机数,若所述随机数小于ε,则在可选择的映射动作中随机选择一个映射动作,否则根据所述DQN神经网络的主网络的输出结果在可选择的映射动作中选择一个映射动作;其中,所述可选择的映射动作为当前的状态向量中为零的元素值对应的网络拓扑的节点的映射动作;根据所述DQN神经网络的主网络的输出结果在可选择的映射动作中选择一个映射动作;包括:将所...

【专利技术属性】
技术研发人员:李慧牛玉翔顾华玺
申请(专利权)人:西安电子科技大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1