一种混合强化学习和遗传算法的正交多边形宏模块布局规划方法技术

技术编号：40594717 阅读：3 留言：0更新日期：2024-03-12 21:56

本发明专利技术公开了一种混合强化学习和遗传算法的正交多边形宏模块布局规划方法，包括如下步骤：1、用强化学习模型生成基于正交多边形布局表示方法的初始种群；2、计算所有个体的适应度，并选取适应度值最高的个体作为种群中的最优个体；3、种群个体按适应度从高到低的顺序排序，选取种群中适应度最高的个体作为新种群的第一个个体；4、通过交叉操作和突变操作生成子代个体，并将子代个体添加到新种群中；5、新种群个体达到最大容量后，替代每次迭代开始时的原种群；6、达到终止条件后迭代结束，得到新种群最优个体。本发明专利技术高效地降低正交多边形布局规划的面积和线长。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术属于集成电路设计自动化，尤其涉及一种混合强化学习和遗传算法的正交多边形宏模块布局规划方法。

技术介绍

1、在超大规模集成电路物理设计流程中，布局规划是物理设计的首要环节。布局规划决定了芯片网表中各个模块之间的相对位置关系，这些位置关系决定了布局的总面积，布线长度和芯片的一些其他性能指标。随着深亚微米技术和新的封装技术(例如多芯片模块)的出现，电路模块往往不是矩形的，还会有一些l形或t形的正交多边形模块。如果用仅能处理矩形模块的布局算法来处理存在正交多边形模块情况，就会造成面积浪费，于是一些处理任意形状正交多边形模块的布局方法被陆续提出。这些方法一般将正交多边形模块划分为若干个矩形子模块，然后将子模块的相对位置关系作为约束，再使用启发式优化算法来优化布局。但是这些方法在优化过程中，减少约束违反(例如减少模块重叠)的步骤需要消耗较多的时间。

2、强化学习通过智能体与环境的交互实现自学习过程，智能体通过行为改变环境状态，并且从环境中得到奖励值反馈，并完成模型梯度更新。强化学习对于很多组合优化问题具有较好的求解能力，其通过将要解决的问题描述为一个马尔可夫决策过程，并根据求解目标设计奖励函数，从而使强化学习模型学习如何最大化一个训练周期内的累计奖励值。此前已经有研究者使用强化学习算法中的近端策略优化算法，训练一个能够完成宏模块布局的强化学习智能体，该智能体完成的布局被证实能够超过物理设计专家的设计，但是这种方法对于大规模的芯片网表来说，在算力有限的情况下，训练所需的时间非常长。另外，使用基于离线策略学习的强化学习算法

技术实现思路

1、本专利技术目的在于提供一种混合强化学习和遗传算法的正交多边形宏模块布局规划方法,以解决对更好地优化布局面积和线长的技术问题。

2、为解决上述技术问题，本专利技术的具体技术方案如下：

3、一种混合强化学习和遗传算法的正交多边形宏模块布局规划方法，包括以下步骤：

4、步骤s1：用强化学习模型生成基于正交多边形布局表示方法的初始种群；

5、步骤s2：计算所有个体的适应度，并选取适应度值最高的个体作为种群中的最优个体；

6、步骤s3：种群个体按适应度从高到低的顺序排序，选取种群中适应度最高的个体作为新种群的第一个个体；

7、步骤s4：通过交叉操作和突变操作生成子代个体，并将子代个体添加到新种群中；

8、步骤s5：新种群个体达到最大容量后，替代每次迭代开始时的原种群；

9、步骤s6：重复步骤s2-s5，达到终止条件后迭代结束，得到新种群最优个体。

10、优选的，步骤s1中所述的正交多边形布局表示方法为临界多边形布局表示方法；

11、强化学习模型的输入特征包括两个部分：一部分是表示模块放置顺序的一维列表，另一部分是包含每个模块信息的特征矩阵，以及表示模块互连关系的邻接矩阵，强化学习模型的输出为模块的编号，通过输出编号的顺序决定模块放置的顺序，进而确定每个模块的坐标；

12、强化学习奖励值分为外部奖励值和内部奖励值，其中外部奖励值的计算包括线长和面积两项，且线长项和面积项分别乘以不同的负常数，两个负常数作为权重，用于权衡线长和面积的重要性；

13、为避免强化学习奖励值的回合制和奖励值稀疏问题对强化学习模型性能的不利影响，引入了基于好奇心驱动机制的随机网络蒸馏法计算内部奖励值，随机网络蒸馏法的网络结构包括目标网络和预测网络，将模块放置顺序的一维列表作为目标网络和预测网络的输入，输出目标网络嵌入f(x)和预测网络嵌入再计算目标网络嵌入f(x)和预测网络嵌入的均方误差作为内部奖励值。

14、优选的，在所述步骤s2中，适应度值由式(1)计算，适应度函数fitness(f)与布局的代价函数cost(f)成反比：

15、

16、其中，f是一个压实的布局；

17、布局的代价函数cost(f)定义为式(2)：

18、

19、其中a代表面积，b代表线长，α是面积的权重，β是线长的权重，a*和b*分别为a和b在初始状态下的值；由于面积a与线长b的数值量级不同，因此将a和b分别除以a*和b*做标准化处理。

20、优选的，在所述步骤s3中，种群中的每组个体基因对应一个布局，每组个体基因由两个由一维向量表示的染色体组成，其中一个一维向量是放置顺序基因，用于保存模块的放置顺序，决定了每个模块的坐标，另一个一维向量是旋转角度基因，按照模块的序号，依次存放每个模块旋转的角度。

21、优选的，在所述步骤s4中，交叉操作包括以下步骤：从种群中选择一个父代个体基因和一个母代个体基因，首先复制一份父代个体基因，在复制的父代个体基因的长度范围内随机选择一个断点，并删除断点之后的父代个体基因的基因片段，在母代个体基因中按照从左往右的顺序，找到与父代个体基因中被切除部分相同的模块编号和角度，并添加到父代个体基因进行切除操作后的剩余基因片段之后，生成子个体1，母代个体也用同样的方式产生子个体2；突变操作包括两种操作方式：随机交换放置顺序基因中两个模块的放置顺序，以及随机改变一个模块的旋转角度。

22、优选的，在所述步骤s6中，若在一定连续的迭代周期数以内，新种群的最优个体都和所述步骤s2中每次迭代开始时的原种群中的最优个体相同，则停止迭代，并取新种群中的适应度最高的个体作为最优个体。

23、本专利技术的一种混合强化学习和遗传算法的正交多边形宏模块布局规划方法，具有以下优点：本专利技术能够在宏模块为非矩形形状条件下，基于本方法中提出的将强化学习和遗传算法相结合的布局规划算法，使用临界多边形方法构建布局，并基于此方法训练一个强化学习模型，并结合遗传算法对布局做优化。本方法使用基于边的图神经网络提取网表中节点和边的嵌入信息。强化学习为遗传算法提供了更好的初始解，在降低布局代价上比随机生成的初始解更有优势。

本文档来自技高网...

【技术保护点】

1.一种混合强化学习和遗传算法的正交多边形宏模块布局规划方法，其特征在于，包括以下步骤：

2.根据权利要求1所述的一种混合强化学习和遗传算法的正交多边形宏模块布局规划方法，其特征在于，步骤S1中所述的正交多边形布局表示方法为临界多边形布局表示方法；

3.根据权利要求1所述的一种混合强化学习和遗传算法的正交多边形宏模块布局规划方法，其特征在于，在所述步骤S2中，适应度值由式(1)计算，适应度函数fitness(F)与布局的代价函数cost(F)成反比：

4.根据权利要求2所述的一种混合强化学习和遗传算法的正交多边形宏模块布局规划方法，其特征在于，在所述步骤S3中，种群中的每组个体基因对应一个布局，每组个体基因由两个由一维向量表示的染色体组成，其中一个一维向量是放置顺序基因，用于保存模块的放置顺序，决定了每个模块的坐标，另一个一维向量是旋转角度基因，按照模块的序号，依次存放每个模块旋转的角度。

5.根据权利要求4所述的一种混合强化学习和遗传算法的正交多边形宏模块布局规划方法，其特征在于，在所述步骤S4中，交叉操作包括以下步骤：从种群中选

6.根据权利要求5所述的一种混合强化学习和遗传算法的正交多边形宏模块布局规划方法，其特征在于，在所述步骤S6中，若在一定连续的迭代周期数以内，新种群的最优个体都和所述步骤S2中每次迭代开始时的原种群中的最优个体相同，则停止迭代，并取新种群中的适应度最高的个体作为最优个体。

...

【技术特征摘要】

1.一种混合强化学习和遗传算法的正交多边形宏模块布局规划方法，其特征在于，包括以下步骤：

2.根据权利要求1所述的一种混合强化学习和遗传算法的正交多边形宏模块布局规划方法，其特征在于，步骤s1中所述的正交多边形布局表示方法为临界多边形布局表示方法；

3.根据权利要求1所述的一种混合强化学习和遗传算法的正交多边形宏模块布局规划方法，其特征在于，在所述步骤s2中，适应度值由式(1)计算，适应度函数fitness(f)与布局的代价函数cost(f)成反比：

4.根据权利要求2所述的一种混合强化学习和遗传算法的正交多边形宏模块布局规划方法，其特征在于，在所述步骤s3中，种群中的每组个体基因对应一个布局，每组个体基因由两个由一维向量表示的染色体组成，其中一个一维向量是放置顺序基因，用于保存模块的放置顺序，决定了每个模块的坐标，另一个一维向量是旋转角度基因，按照模块的序号，依次存放每个模块旋转的角度。

5.根据权利要...

【专利技术属性】
技术研发人员：朱自然，陆亦辰，刘科，
申请(专利权)人：东南大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人