机器学习计算优化方法和编译器技术

技术编号：33703685 阅读：8 留言：0更新日期：2022-06-06 08:21

本发明专利技术公开了一种机器学习计算优化方法和编译器。该方法包括：识别机器学习计算图中的访存密集型算子，得到多个子图；识别子图中包括的骨干算子，并基于骨干算子对子图进行分组；将索引信息从每个分组的骨干算子向其前序算子进行传播；并将访存密集型算子子图中的算子融合到一个GPU核函数中。本发明专利技术的编译优化方案通过计算图的依赖关系特性、GPU多层次存储架构上的数据局部性、以及不同数据尺寸之下的线程并发性等方面的联合考虑，自动化地为大粒度的复杂访存密集算子子图生成高效的GPU代码，降低GPU核函数的调用及框架层算子调度的额外开销，避免不必要的重复计算，减少片外访存，同时适配各种数据尺寸以得到优化的并行效率。率。率。

全部详细技术资料下载

【技术实现步骤摘要】
机器学习计算优化方法和编译器

[0001]本专利技术涉及机器学习领域，尤其涉及一种机器学习计算优化方法和编译器。

技术介绍

[0002]近年来，随着具有高度并行能力的芯片及其配套计算架构的提出，诸如卷积和矩阵乘的高强度并行计算已经不再成为机器学习模型的掣肘。在现有技术中，由于自动优化能力有限，难以针对复杂的访存密集算子子图高效生成代码，使得算子调度和数据存取带来的额外开销降低了整体计算效率。换句话说，访存密集型的计算由于其频繁的存取而变为当今机器学习模型的一个性能瓶颈。
[0003]为此，需要一种改进的机器学习计算优化方案。

技术实现思路

[0004]为了解决上述至少一个问题，本专利技术提出了一种针机器学习计算优化方案。该方案利用计算图的依赖关系特性和GPU多层次存储架构上的数据局部性，将一个访存密集型子图融合为一个GPU核函数，以降低深度计算模型实际使用过程中GPU核函数的调用及框架层算子调度的额外开销，由此提升整体计算效率。
[0005]根据本公开的第一方面，提出了一种机器学习计算优化方法，包括：识别机器学习计算图中的访存密集型算子，得到多个访存密集型算子子图；识别所述访存密集型算子子图中包括的骨干算子，并对所述访存密集型算子子图进行分组，其中，将骨干算子及其前序算子归为一个分组中；以及将索引信息从每个分组的骨干算子向其前序算子进行传播；以及将所述访存密集型算子子图中的算子融合到一个GPU核函数中。
[0006]可选地，所述访存密集型算子包括机器学习计算图中计算密集型算子之...

【技术保护点】

【技术特征摘要】
1.一种机器学习计算优化方法，包括：识别机器学习计算图中的访存密集型算子，得到访存密集型算子子图；识别所述访存密集型算子子图中包括的骨干算子，并基于所述骨干算子对所述访存密集型算子子图进行分组，其中，将骨干算子及其前序算子归为一个分组中；将索引信息从每个分组的骨干算子向其前序算子进行传播；以及将所述访存密集型算子子图中的算子融合到一个GPU核函数中。2.如权利要求1所述的方法，其中，所述访存密集型算子包括机器学习计算图中计算密集型算子之外的其他算子，并且得到的访存密集型算子子图包括由计算密集型算子隔开的多个访存密集型算子子图。3.如权利要求1所述的方法，其中，识别所述访存密集型算子子图中包括的骨干算子包括：识别所述访存密集型算子子图中包括的reduce算子作为骨干算子。4.如权利要求3所述的方法，其中，识别所述访存密集型算子子图中包括的骨干算子，并基于所述骨干算子对所述访存密集型算子子图进行分组还包括：判定两个骨干算子之间是否包括能够进行索引信息传播的其他路径；响应于判定两个骨干算子之间包括能够进行索引信息传播的其他路径，将所述两个骨干算子之一识别为次骨干算子；以及将这两个算子以及这两个算子的前序算子分入同一个分组。5.如权利要求1所述的方法，其中，将索引信息从每个分组的骨干算子向其前序算子进行传播包括：骨干算子根据待处理的数据形状，自适应地生成线程映射策略；以及将所述线程映射策略传播给同一分组内的其他算子。6.如权利要求5所述的方法，其中，骨干算子根据待处理的数据形状，自适应地生成线程映射策略包括：设置线程映射规则，所述线程映射规则用于根据数...

【专利技术属性】
技术研发人员：郑祯，朱凯，林伟，
申请(专利权)人：阿里云计算有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人