【技术实现步骤摘要】
一种基于强化学习的集成电路布局优化方法
[0001]本专利技术涉及集成电路设计领域,具体涉及一种基于强化学习的集成电路布局优化方法。
技术介绍
[0002]现如今,超大规模集成电路成为衡量一个国家科学技术和工业发展水平的重要标志,是现代制作业中不可或缺的一部分。常见的应用场景如:中继器、交换机话路系统、传输线转换器、移动通信机、终端控制系统等,这些使用场景中通常要求的是集成电路的性能指标,如时延、功耗、热分配、以及可布性等指标。布局指确定集成电路单元在芯片中的具体位置,是集成电路设计流程中关注的重点,对集成电路的各项性能指标有着重大影响。随着芯片的规模、集成度和工艺技术的不断提升,给超大规模集成电路的自动化布局提出了更高的要求。如何运用快速的布局算法处理问题规模达到几万至几百万个单元,减少芯片设计所需的时间、提升布局质量,是本领域研究人员需要解决的问题。
[0003]为了求解超大规模集成电路的布局问题,学者们主要提出了三大类算法:基于模拟退火的算法、基于划分的算法和基于解析方法的算法。基于模拟退火的算法是一种迭代算法 ...
【技术保护点】
【技术特征摘要】
1.一种基于强化学习的集成电路布局优化方法,其特征在于,包括以下步骤:确定集成电路的布局区域、各宏单元和标准单元的信息和设计规则;根据布局区域和宏单元的信息,通过强化学习返回布局策略;根据返回的布局策略对所有宏单元进行布局;根据宏单元的布局结合基于电场能的布局方法对所有标准单元进行全局布局;根据得到的全局布局,利用总体布线器进行总体布线;判断强化学习的目标函数是否满足设计目标;不满足设计目标时,更新强化学习的网络参数。2.根据权利要求1所述的基于强化学习的集成电路布局优化方法,其特征在于,所述根据布局区域和宏单元的信息,通过强化学习返回布局策略,包括:选择基于策略梯度的强化学习方法;使用神经网络模型作为强化学习算法的智能体,智能体在决策过程执行的动作依赖于策略函数,通过神经网络模型计算策略函数,随机性策略作为策略函数的输出,累计奖励的期望值作为目标函数;强化学习通过策略梯度算法计算目标函数的梯度值,并选择Actor
‑
Critic算法优化更新神经网络模型的网络参数,将第m次迭代生成的输出序列U
m
作为所述的布局策略。3.根据权利要求1所述的基于强化学习的集成电路布局优化方法,其特征在于,所述强化学习包括:将神经网络模型作为强化学习算法的智能体,将所述的布局区域作为环境,布局区域内宏单元的布局情况作为状态,智能体持续地与环境交互,根据当前的状态选择行为,而环境会反馈给智能体新的状态和奖励;述神经网络模型采用指针网络模型,具体结构如下:指针网络模型包括循环神经网络以及注意力机制,其中,循环神经网络包括依次连接的嵌入层、注意力层和隐藏层;嵌入层用于接收输入到网络模型中的包含宏单元信息的输入序列,并使用一维卷积层对输入的宏单元信息进行嵌入,将输入的序列映射成D维的向量空间,得到嵌入式输入;注意力层用于接受解码器的输出,利用注意力机制获得每个输出的概率分布;隐藏层的状态向量由嵌入式输入和上一个时间点的隐藏层状态构成,隐藏层状态对每一个时间点解码器的输出做一个加权,确保每一个时间点的输出都被使用到;利用解码器保存输入序列的信息,并利用注意力机制将解码器的隐藏状态和嵌入的输入指向一个输入元素。4.根据权利要求1所述的基于强化学习的集成电路布局优化方法,其特征在于,基于所述指针网络模型,通过强化学习返回布局策略的过程为:将所有宏单元的信息作为输入集V={v
i
,i=1,...,N},v
i
表示第i个宏单元,总共有N个宏单元;其中v
i
=(w
i
,l
i
)是个元组,表示第i个宏单元对应的宽度w和长度l;输入集首先经过指针网络模型的嵌入层,得到嵌入式输入为过指针网络模型的嵌入层,得到嵌入式输入为是一个向量;然后结合隐藏层状态向量,再使用解码器进行解码,得到输出序列;t=0时刻,将所有宏单元进行随机排序,得到任意的输入V0,包含所有的宏单元;V
t
表示在t时刻向指针网络输入的宏单元的集合;每一次解码时刻t,指针u
t+1
将指向当前输入V
t
中
可以被摆放到布局区域的宏单元中的一个,并将其作为解码器下一个时刻的输入,用注意力机制生成下一个输入的概率分布;下一个解码时刻t+1,从V
t+1
集合中删除指针u
t+1
指向的宏单元;如此反复,直到输入集中的所有宏单元都被指针指向过,最终产生宏单元的布局顺序序列U。5.根据权利要求1所述的基于强化学习的集成电路布局优化方法,其特征在于,强化学习通过策略梯度算法计算目标函数的梯度值,并选择Actor
‑
Critic算法优化更新指针网络模型的网络参数,所述策略梯度算法的优化流程如下:训练数据集S;其中每个训练数据为宏单元的信息,迭代次数总共M次,一次迭代所选取的宏单元个数为N,构成输入集V;初始化Actor和critic的网络参数θ和ω,设置参数的梯度dθ=0和dω=0;对于第m次迭代,向指针网络输入在t时刻宏单元的集合V
t
,获得第m次迭代的每一个输出的概率分布,直到全部输入集V的所有元素被输出,得到第m次迭代生成的输出序列U
m
作为布局策略;表示第m次迭代时在t=0时刻将所有宏单元进行随机排序;计算在第m次迭代过程中获得的奖励值R
m
:其中,是在第m次...
【专利技术属性】
技术研发人员:陈学松,张苹,蔡述庭,张丽丽,
申请(专利权)人:广东工业大学,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。