自动激活值检查点搜索和自动张量并行搜索的融合系统技术方案

技术编号：37443165 阅读：9 留言：0更新日期：2023-05-06 09:15

本发明专利技术公开了自动激活值检查点搜索和自动张量并行搜索的融合系统，涉及深度学习技术领域，包括网络线性化、元信息抽取、自动激活值检查点求解器、自动张量并行求解器、两阶段求解器，通过使用元信息抽取为自动张量并行求解器提供所需的内存开销和运算开销信息，自动张量并行求解器根据所给的内存预算和元信息进行求解，两阶段求解器将一系列张量并行策略进行网络线性化，将线性化网络传给自动激活值检查点求解器，自动激活值检查点求解器将内存开销控制在真实内存预算之下，将自动张量并行和自动激活值检查点的策略复合起来，进一步减缓深度学习训练中遇到的内存墙问题，同时两阶段求解器也能保证解决内存问题的同时兼顾模型训练的性能。训练的性能。训练的性能。

全部详细技术资料下载

【技术实现步骤摘要】
自动激活值检查点搜索和自动张量并行搜索的融合系统

[0001]本专利技术涉及深度学习
，具体为自动激活值检查点搜索和自动张量并行搜索的融合系统。

技术介绍

[0002]随深度学习模型逐渐变得越来越大以达到更佳的精度要求。深度学习模型的参数量已经达到百亿级别，甚至千亿级别。智源悟道2.0模型甚至有1.75万亿的参数规模。
[0003]在这一背景下，使用多种技术减缓GPU内存压力是深度学习大模型训练的关键。激活值检查点和张量并行是两种行之有效的方法，很多相关工作也给出了基于动态规划和整数规划的策略搜索来给出更好的优化策略。然而，尚未有系统将这两者有机的结合起来。
[0004]当前的主流自动激活值检查点搜索方案有rotor和checkmate
[0005]rotor：该搜索系统提供了一套完整的线性化网络自动激活值检查点搜索框架，
[0006]系统假设
[0007]网络线性化：该系统假设网络可以被视为一个线性化的执行序列，即前向传播中，每一个网络层只和前一层的输出有关。内存一致性：决定保存的激活值会留存于内存之中，在被反向计算使用之前不会在中途被丢弃。
[0008]系统流程
[0009]通过测试获得计算序列中每一层的各项开销(激活值存储带来的内存开销、计算时间)
[0010]在线性化假设之下，将内存开销进行离散化，可以将最优激活值检查点的安排建模为一个动态规划问题，在多项式时间内进行求解，论文地址：https://proceedings.neurips.c...

【技术保护点】

【技术特征摘要】
1.自动激活值检查点搜索和自动张量并行搜索的融合系统，其特征在于：包括网络线性化、元信息抽取、自动激活值检查点求解器、自动张量并行求解器、两阶段求解器、优化计算图，还包括以下步骤：S1：初始化模型，S2：使用元信息抽取为自动张量并行求解器提供所需的内存开销和运算开销信息；S3：自动张量并行求解器根据所给的内存预算和元信息进行求解；S4：两阶段求解器将一系列张量并行策略进行网络线性化，将线性化网络传给自动激活值检查点求解器；S5：自动激活值检查点求解器将内存开销控制在真实内存预算之下，得到一系列策略，从中选取估算运行时间最短的策略；S6：根据给出的复合策略优化计算图，编译执行。2.根据权利要求1所述的自动激活值检查点搜索和自动张量并行搜索的融合系统，其特征在于：所述网络线性化包括以下步骤：通过元跟踪来获取网络的计算图根据用户标注(例如语言模型的注意力掩码)，以及节点特性来查找图中的通用型节点；根据节点的依赖关系(忽略通用型节点)，来获取可以线性化网络计算图分割点。3.根据权利要求1所述的自动激活值检查点搜索和自动张量并行搜索的融合系统，其特征在于：所述元信息抽取在不真实执行的情况下，通过pytorch的__torch_dispatch__机制，来获取张量在我们希望的设备上(GPU、CPU)进行运行时的底层算子，并由此估算运行时的内存开销和计算量；使用__torch_dispatch__机制获取各个算子的底层算子...

【专利技术属性】
技术研发人员：刘育良，李升桂，姚博远，邵彦骏，方佳瑞，卞正达，柳泓鑫，李永彬，麦思琪，吴俊铭，陈巍文，黄海晨，路广阳，娄宇轩，
申请(专利权)人：北京潞晨科技有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人