深度学习框架的算子融合方法、装置制造方法及图纸

技术编号:29927522 阅读:15 留言:0更新日期:2021-09-04 18:50
本公开提供了一种深度学习框架的算子融合方法、装置,涉及人工智能技术领域,具体为深度学习技术领域。深度学习框架的算子融合方法包括:确定在深度学习框架中运行的至少一个神经网络模型,获取对应所述至少一个神经网络模型的算子集合;根据算子的执行顺序与融合标签,确定所述算子集合中与预设融合模式对应的至少一个算子子集合;分别将所述至少一个算子子集合中的各算子进行融合,得到至少一个融合算子。本公开能够降低算子融合的成本,并提升算子融合的准确性,且极大地减少了代码编译结果中的代码数量,提升了深度学习框架的运行效率。率。率。

【技术实现步骤摘要】
深度学习框架的算子融合方法、装置


[0001]本公开涉及人工智能
,尤其涉及深度学习
提供了一种深度学习框架的算子融合方法、装置、电子设备与可读存储介质。

技术介绍

[0002]随着深度学习在各个行业领域中的应用越来越广泛,对于深度学习框架在进行推理时的速度要求也越来越高。现有技术在优化深度学习框架的性能时,通常采用的方法就是算子融合。但是,现有技术通常是基于算子的算子类型来进行算子融合,由于算子类型的数量较大,因此导致算子融合时的步骤较为复杂,算子融合的效率较低。

技术实现思路

[0003]根据本公开的第一方面,提供了一种深度学习框架的算子融合方法,包括:确定在深度学习框架中运行的至少一个神经网络模型,获取对应所述至少一个神经网络模型的算子集合;根据算子的执行顺序与融合标签,确定所述算子集合中与预设融合模式对应的至少一个算子子集合;分别将所述至少一个算子子集合中的各算子进行融合,得到至少一个融合算子。
[0004]根据本公开的第二方面,提供了一种深度学习框架的算子融合装置,包括:获取单元,用于确定在深度学习框架中运行的至少一个神经网络模型,获取对应所述至少一个神经网络模型的算子集合;确定单元,用于根据算子的执行顺序与融合标签,确定所述算子集合中与预设融合模式对应的至少一个算子子集合;融合单元,用于分别将所述至少一个算子子集合中的各算子进行融合,得到至少一个融合算子。
[0005]根据本公开的第三方面,提供了一种电子设备,包括:至少一个处理器;以及与所述至少一个处理器通信连接的存储器;其中,所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行如上所述的方法。
[0006]根据本公开的第四方面,提供了一种存储有计算机指令的非瞬时计算机可读存储介质,其中,所述计算机指令用于使所述计算机执行如上所述的方法。
[0007]根据本公开的第五方面,提供了一种计算机程序产品,包括计算机程序,所述计算机程序在被处理器执行时实现如上所述的方法。
[0008]由以上技术方案可以看出,本公开对深度学习框架中的特定算子进行了融合,极大地减少了代码编译结果中的代码数量,因此提升了深度学习框架的运行效率,且通过结合算子的执行顺序与融合标签的方式来融合算子,能够在提升算子融合的准确性的同时,降低算子融合的成本。
[0009]应当理解,本部分所描述的内容并非旨在标识本公开的实施例的关键或重要特征,也不用于限制本公开的范围。本公开的其它特征将通过以下的说明书而变得容易理解。
附图说明
[0010]附图用于更好地理解本方案,不构成对本公开的限定。其中:
[0011]图1是根据本公开第一实施例的示意图;
[0012]图2是根据本公开第二实施例的示意图;
[0013]图3是用来实现本公开实施例的深度学习框架的算子融合方法的电子设备的框图。
具体实施方式
[0014]以下结合附图对本公开的示范性实施例做出说明,其中包括本公开实施例的各种细节以助于理解,应当将它们认为仅仅是示范性的。因此,本领域普通技术人员应当认识到,可以对这里描述的实施例做出各种改变和修改,而不会背离本公开的范围和精神。同样,为了清楚和简明,以下的描述中省略了对公知功能和机构的描述。
[0015]图1是根据本公开第一实施例的示意图。如图1所示,本实施例的深度学习框架的算子融合方法,具体可以包括如下步骤:
[0016]S101、确定在深度学习框架中运行的至少一个神经网络模型,获取对应所述至少一个神经网络模型的算子集合;
[0017]S102、根据算子的执行顺序与融合标签,确定所述算子集合中与预设融合模式对应的至少一个算子子集合;
[0018]S103、分别将所述至少一个算子子集合中的各算子进行融合,得到至少一个融合算子。
[0019]本实施例的深度学习框架的算子融合方法,在确定与在深度学习框架中运行的至少一个神经网络模型对应的算子(operator)集合之后,首先根据算子的执行顺序与算子的融合标签,确定算子集合中与预设的融合模式对应的至少一个算子子集合,然后融合算子子集合中的算子得到融合算子,由于本实施例对深度学习框架中的特定算子进行了融合,极大地减少了代码编译结果中的代码数量,因此提升了深度学习框架的运行效率,且通过结合算子的执行顺序与融合标签的方式来融合算子,能够在提升算子融合的准确性的同时,降低算子融合的成本。
[0020]本实施例执行S101所确定的在深度学习框架中运行的至少一个神经网络模型,具体为由深度学习框架所构建、且通过训练已确定参数的神经网络模型,所确定的至少一个神经网络模型用于共同完成特定的推理任务,例如图像分类任务、语音识别任务、图像识别任务等。
[0021]目前主流的深度学习框架有Tensorflow、PyTorch、PaddlePaddle、Caffe、Theano等。
[0022]本实施例在执行S101确定了至少一个神经网络模型之后,再获取与所确定的至少一个神经网络模型对应的算子集合。
[0023]由于神经网络模型是由不同算子组成的计算网络,每个算子完成相应的计算,因此在神经网络模型中使用的卷积算子、池化算子、激活函数算子、采样算子、全连接算子等,是运行神经网络模型的深度学习框架的基本计算单元,将输入数据输入深度学习框架之后,由多个算子依次进行计算,从而输出相应的推理结果。
[0024]本实施例执行S101获取的算子集合中包含所确定的至少一个神经网络模型所使用的全部算子;另外,本实施例执行S101所获取的算子集合中,除了算子本身之外,还进一步包含不同算子之间的连接关系。
[0025]本实施例在执行S101获取了算子集合之后,执行S102根据算子的执行顺序与融合标签,确定算子集合中与预设融合模式对应的至少一个算子子集合,所确定的每个算子子集合中包含多个待融合算子。
[0026]本实施例在执行S102确定算子子集合时所使用的算子的融合标签,是预先根据算子的输入张量(tensor)与输出张量的维度是否相同、算子是否为从第三方库所调用的算子等属性信息来定义的,具有相同算子类型的算子可能与不同的融合标签相对应。
[0027]本实施例在执行S102根据算子的执行顺序与融合标签,确定所获取的算子集合中与预设的融合模式对应的至少一个算子子集合时,可以采用的可选实现方式为:将算子的属性信息在预设的对应关系表中进行匹配,将匹配结果作为算子的融合标签;根据算子的执行顺序与所确定的融合标签,确定算子集合中与预设的融合模式对应的至少一个算子子集合。
[0028]其中,本实施例执行S102所使用的预设的对应关系表中,包含多个属性信息与多个属性信息对应的融合标签。另外,本实施例也可以将算子的融合标签设置为算子的一种属性信息,从而实现在获取算子的同时,无需进行匹配即可确定该算子的融合标签。
[0029]本实施例中的融合标本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种深度学习框架的算子融合方法,包括:确定在深度学习框架中运行的至少一个神经网络模型,获取对应所述至少一个神经网络模型的算子集合;根据算子的执行顺序与融合标签,确定所述算子集合中与预设融合模式对应的至少一个算子子集合;分别将所述至少一个算子子集合中的各算子进行融合,得到至少一个融合算子。2.根据权利要求1所述的方法,其中,所述根据算子的执行顺序与融合标签,确定所述算子集合中与预设融合模式对应的至少一个算子子集合包括:将算子的属性信息在预设的对应关系表中进行匹配,将匹配结果作为算子的融合标签;根据算子的执行顺序与所确定的融合标签,确定所述算子集合中与预设的融合模式对应的至少一个算子子集合。3.根据权利要求2所述的方法,其中,所述确定所述算子集合中与预设的融合模式对应的至少一个算子子集合包括:将所述算子集合中满足预设融合模式的多个算子,作为待融合算子;按序将对应不同的预设融合模式的待融合算子进行组合,得到至少一个算子子集合。4.根据权利要求1所述的方法,其中,所述分别将所述至少一个算子子集合中的各算子进行融合包括:针对每个算子子集合,在确定该算子子集合中预设算子的输出仅为与其连接的下一个算子的输入的情况下,融合该算子子集合中的各算子。5.根据权利要求1所述的方法,其中,所述分别将所述至少一个算子子集合中的各算子进行融合包括:针对每个算子子集合,获取该算子子集合中各算子的算子类型;在确定所获取的算子类型中不包含预设算子类型的情况下,融合该算子子集合中的各算子。6.根据权利要求1所述的方法,还包括,在得到至少一个融合算子之后,针对每个融合算子,将算子子集合中各算子的输入作为融合算子的输入,将算子子集合中最后一个算子的输出作为融合算子的输出;根据所确定的融合算子的输入与输出进行编译,得到融合算子的代码。7.一种深度学习框架的算子融合装置,包括:获取单元,用于确定在深度学习框架中运行的至少一个神经网络模型,获取对应所述至少一个神经网络模型的算子集合;确定单元,用于根据算子的执行顺序与融合标签,确定所述算子集合中与预设融合模式对应的至少一个算子子集合;融合单元,用于分别将所述至少一个算子子集合中的各算子进行融合,得到至少一个融合算子。8.根据权利要求7所述的装置,其中,...

【专利技术属性】
技术研发人员:陈浩泽
申请(专利权)人:北京百度网讯科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1