一种模型切分方法及其相关设备技术

技术编号:34044793 阅读:33 留言:0更新日期:2022-07-06 14:21
本申请实施例公开了一种模型切分方法及其相关设备,在进行模型切分时,可避免过多的人为干预,且考虑的因素较为全面,可对各种结构的神经网络模型实现模型切分,且可为各类结构的神经网络模型制定贴合实际应用的最优切分策略。本申请的方法包括:获取第一模型的第一计算图;通过第二模型对第一计算图进行处理,得到处理结果,处理结果用于确定第一计算图的第一切分策略;基于计算图、切分策略与损耗之间的对应关系,确定第一切分策略作用于第一计算图后所需付出的第一损耗;若第一损耗小于预置阈值,则基于第一切分策略对第一计算图进行切分,得到多个子计算图。得到多个子计算图。得到多个子计算图。

A model segmentation method and its related equipment

【技术实现步骤摘要】
一种模型切分方法及其相关设备


[0001]本申请实施例涉及人工智能(artificial intelligence,AI)
,尤其涉及一种模型切分方法及其相关设备。

技术介绍

[0002]随着技术的快速发展,越来越多的领域可使用AI技术的神经网络模型来实现数据处理,例如,可利用神经网络模型实现图像分类、文本摘要生成,语音识别以及函数求解等各类数据处理。
[0003]神经网络模型可以计算图的形式进行表示,计算图可通常包含相互连接的多个节点,一个节点对应于模型中某一层的至少一个神经元,故一个节点可表示神经网络模型所能实现的一部分计算。当使用某个神经网络模型的计算图进行数据处理时,通常会逐个运行计算图的多个节点,可能造成排队拥堵的情况发生,导致数据处理的效率低下。为了解决该问题,可对计算图进行切分,得到多个子计算图,故可并行运算这多个子计算图,从而提高数据处理的效率。
[0004]目前,通常基于专家经验来制定计算图的切分策略,涉及较多的人为干预,考虑的因素往往较为单一,导致切分策略往往仅能针对表示某些特定结构的神经网络模型的计算本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种模型切分方法,其特征在于,包括:获取第一模型的第一计算图;通过第二模型对所述第一计算图进行处理,得到处理结果,所述处理结果用于确定所述第一计算图的第一切分策略;确定所述第一切分策略作用于所述第一计算图后所需付出的第一损耗;若所述第一损耗小于预置阈值,则基于所述第一切分策略对所述第一计算图进行切分,得到多个子计算图。2.根据权利要求1所述的方法,其特征在于,所述第一计算图包含多个节点,一个节点表示所述第一模型可实现的一部分计算,所述方法还包括:对所述第一计算图的多个节点进行编码,得到与所述多个节点一一对应的多个第一编码;所述通过第二模型对所述第一计算图进行处理,得到处理结果包括:通过第二模型对所述多个第一编码进行处理,得到处理结果。3.根据权利要求2所述的方法,其特征在于,所述确定所述第一切分策略作用于所述第一计算图后所需付出的第一损耗包括:基于计算图、切分策略与损耗之间的对应关系,确定所述第一切分策略作用于所述第一计算图后所需付出的第一损耗。4.根据权利要求3所述的方法,其特征在于,所述计算图、切分策略与损耗之间的对应关系为编码与损耗之间的对应关系,所述处理结果用于确定第二编码,所述第二编码用于指示所述第一计算图的第一切分策略,所述基于计算图、切分策略与损耗之间的对应关系,确定所述第一切分策略作用于所述第一计算图后所需付出的第一损耗包括:对所述多个第一编码和所述第二编码进行融合,得到第三编码;基于所述编码与损耗之间的对应关系以及所述第三编码,确定所述第一切分策略作用于所述第一计算图后所需付出的第一损耗。5.根据权利要求4所述的方法,其特征在于,所述对所述多个第一编码和所述第二编码进行融合,得到第三编码包括:通过图核算法对所述多个第一编码和所述第二编码进行迭代运算,得到第三编码。6.根据权利要求1至5任意一项所述的方法,其特征在于,所述计算图、切分策略与损耗之间的对应关系基于第三模型的第二计算图、所述第二计算图的第二切分策略以及所述第二切分策略作用于所述第二计算图后所需付出的第二损耗构建,所述第二计算图为获取所述第二模型的训练数据,所述第二切分策略和所述第二损耗为已知的数据。7.根据权利要求1至6任意一项所述的方法,其特征在于,所述第一模型用于实现数据处理,所述第一损耗为通过所述多个子计算图实现所述数据处理所需的时间。8.根据权利要求1至7任意一项所述的方法,其特征在于,所述方法还包括:若所述第一损耗大于或等于所述预置阈值,则不对所述第一计算图进行切分。9.一种模型的切分策略评价方法,其特征在于,所述方法包括:获取第三模型的第二计算图、所述第二计算图的第二切分策略以及所述第二切分策略作用于所述第二计算图后所需付出的第二损耗,所述第二计算图为获取第二模型的训练数据,所述第二切分策略和所述第二损耗为已知的数据;
基于所述第二计算图、所述第二切分策略以及所述第二损耗,构建所述计算图、切分策略与损耗之间的对应关系,所述对应关系用于获取第一切分策略作用于第一模型的第一计算图后所需付出的第一损耗,所述第一切分策略由所述第二模型对所述第一计算图进行处理得到。10.根据权利要求9所述的方法,其特征在于,所述第二计算图包含多个节点,一个节点表示所述第三模型可实现的一部分运算,所述基于所述第二计算图、所述第二切分策略以及所述第二损耗,构建所述计算图、切分策略与损耗之间的对应关系包括:对所述第二计算图的多个节点进行编码,得到与所述多个节点一一对应的多个第四编码,并对所述第二切分策略进行编码,得到第五编码;对所述多个第四编码和所述第五编码进行融合,得到第六编码;基于所述第六编码以及所述第二损耗,构建编码与损耗之间的对应关系。11.根据权利要求10所述的方法,其特征在于,所述对所述多个第四编码和所述第五编码进行融合,得到第六编码包括:通过图核算法对所述多个第四编码和所述第五编码进行迭代运算,得到第六编码。12.根据权利要求9至11任意一项所述的方法,其特征在于,所述方法还包括:通过第四模型对所述第二计算图进行处理,得到处理结果,所述处理结果用于确定所述第二计算图的第三切分策略;基于所述第二切分策略以及所述第三切分策略,获取目标损失,所述目标损失用于指示所述第二切分策略与所述第三切分策略之间的差异;基于所述目标损失,对所述第四模型的参数进行更新,直至满足模型训练条件,得到所述第二模型。13.根据权利要求9至12任意一项所述的方法,其特征在于,所述第三模型用于实现数据处理,所述第二损耗为通过多个子计算图实现所述数据处理所需的时间,所述多个子计算图基于所述第二切分策略对所述第二子计算图进行切分得到。14.一种模型切分装置,其特征在于,所述装置包括:获取模块,用于获取第一模型的第一计算图;处理模块,用于通过第二模型对所述第一计算图进行处理,得到处理结果,所述处理结果用于确定所...

【专利技术属性】
技术研发人员:唐振韬王滨钱俊范礼
申请(专利权)人:华为技术有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1