一种基于强化学习的算子自动调优方法及相关装置制造方法及图纸

技术编号:39056864 阅读:21 留言:0更新日期:2023-10-12 19:50
本发明专利技术公开了一种基于强化学习的算子自动调优方法及相关装置,基于长短时记忆网络的策略网络,策略网络会顺序地选择各个待调优参数的值,调优参数组合对应的算子实现在目标硬件上的实测算力值将作为奖励信号,使用REINFORCE算法计算梯度来更新策略网络。为了加快策略网络的收敛,使用了小批量梯度下降训练的REINFORCE算法。为了减少不必要的硬件采样,本发明专利技术提出了一个可以预测样本和性能之间映射关系的开销模型,并使用该模型的推理预测代替真实的硬件采样,来加速自动调优的搜索过程。开销模型使用梯度提升树对历史采样数据进行回归拟合,根据核平滑方法处理后的标签值频率分布设置样本加权目标函数,减少了不平衡的训练集数据标签分布对预测精度的影响。训练集数据标签分布对预测精度的影响。训练集数据标签分布对预测精度的影响。

【技术实现步骤摘要】
一种基于强化学习的算子自动调优方法及相关装置


[0001]本专利技术属于神经网络
,涉及一种基于强化学习的算子自动调优方法及相关装置。

技术介绍

[0002]深度神经网络(Deep Neural Network,DNN)的蓬勃发展为许多应用领域带来了智能化的变革。然而,其巨大的算力需求也对计算硬件提出了新的挑战。然而,要最大限度地利用芯片算力,离不开软件的优化。DNN中的层可以被视为算子,算子在特定硬件上有多种不同的代码实现方式,它们具有不同的计算并行模式、内存使用模式和流水线等处理方式,这些因素都会影响对硬件算力的利用,因此,不同的算子实现方式对应了硬件上不同性能的可执行文件,软件编译过程中“优化”的目标就是从这些逻辑上等价的算子实现方案中找到性能最优的一种。
[0003]算子优化是一种硬件相关的优化,要实现对硬件资源的充分利用不仅需要考虑计算本身的特性还需要深入了解目标硬件的架构和指令集特性。由于优化需要覆盖每一种不同输入参数的算子,同时底层硬件在不断迭代发展出新的特性,巨大的工作量让手工算子实现的方式由于缺乏灵活性和泛化性而本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种基于强化学习的算子自动调优方法,其特征在于,包括以下步骤:建立卷积算子自动调优的搜索空间;将自动调优问题建模为马尔科夫决策过程MDP;基于马尔科夫决策过程MDP,构建LSTM策略网络;根据LSTM策略网络,设置RLTune的行动奖励;根据RLTune的行动奖励,使用小批量梯度下降方式的REINFORCE算法训练策略网络;基于训练好的策略网络,建立能够模拟硬件采样的开销模型。2.根据权利要求1所述的基于强化学习的算子自动调优方法,其特征在于,所述建立卷积算子自动调优的搜索空间,包括:算子自动调优的搜索空间Λ和目标obj如下:Λ=Λ1×
Λ2×
Λ3×…
Λ
n
ꢀꢀꢀꢀ
(1)其中,P为算子自动调优问题的调优参数集合,|P|=n;
×
为笛卡尔积;Λ
i
为第i个调优参数P
i
的取值集合;n为调优参数个数;s为样本,是一个长度为n的向量,表示搜索空间Λ中的一个调优参数组合;F(s)为样本s对应的算子实现在目标硬件上的运行性能。3.根据权利要求1所述的基于强化学习的算子自动调优方法,其特征在于,所述将自动调优问题建模为马尔科夫决策过程MDP,包括:设时间序列t=0,1,2,...,n,在时刻t,基于当前的状态S
t
,智能体根据某个策略,从第t+1个超参数空间Λ
t+1
中选定一个值作为A
t
,记作select(Λ
t+1
);之后得到一个来自环境的奖励R
t+1
,同时智能体进入一个新的状态S
t+1
;该MDP对应的行动轨迹序列为:S0,A0,R1,S1,A1,R2,S2,...,A
n
‑1,R
n
,S
n
;在这个的MDP中,RLTune为智能体,目标硬件为环境,同时反馈行动对应的奖励。4.根据权利要求1所述的基于强化学习的算子自动调优方法,其特征在于,所述构建LSTM策略网络,包括:与算子待调优参数的个数对应,策略网络的输入视为n个时间序列数据;在每个时刻,策略网络包括一个输入input、两个全连接层Full Connection、一个LSTM循环模块Cell、一个Softmax层和一个输出output;每一时刻的LSTM循环模块Cell为同一个,共享网络的结构和权重。5.根据权利要求1所述的基于强化学习的算子自动调优方法,其特征在于,所述设置RLTune的行动奖励,包括:当t<n时,行动奖励值R
t
视为0;当t=n时,调优参数集合P中的最后一个调优参数选择结束,n次行动A0,A1,

A
n
‑1分别对应了每个调优参数的选择值,构成一个样本,记作A
0:n
‑1;目标硬件及其编译环境是MDP中的环境,其反馈的样本A
0:n
‑1对应的算子实现在硬件上采样的算力值F(A
0:n
‑1)作为n时刻的奖励值R
n
;在t=n时,若一系列的随机行动A
0:n
‑1为不合法样本,样本A
0:n
‑1对应的reward值为0;RLTune的行动奖励值如下:
其中,R
t
为RLTune的行动奖励值。6.根据权利要求1所述的基...

【专利技术属性】
技术研发人员:张宇汪义华金莉姜沛林
申请(专利权)人:西安交通大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1