一种端边协作模型推理方法、装置和相关设备制造方法及图纸

技术编号:38435039 阅读:6 留言:0更新日期:2023-08-11 14:20
本申请公开了一种端边协作模型推理方法、装置和相关设备,涉及通信技术领域,以解决现有端边协作推理方案未考虑终端和网络侧分别拥有的不同计算资源的区别,导致模型推理性能较差。该方法包括:向网络设备发送携带模型信息的推理请求消息;接收网络设备发送的推理回复消息;在推理回复消息指示网络设备同意协作推理的情况下,根据网络设备的状态信息和终端的状态信息,生成终端的第一决策动作和网络设备的第二决策动作;对第一决策动作中指示的终端负责计算的第一模型部分分配计算资源,进行第一模型部分的模型推理计算;向网络设备发送第二决策动作。本申请实施例可提高模型推理性能。能。能。

【技术实现步骤摘要】
一种端边协作模型推理方法、装置和相关设备


[0001]本申请涉及通信
,尤其涉及一种端边协作模型推理方法、装置和相关设备。

技术介绍

[0002]基于模型分割的端边协作推理,是指当终端需完成一项智能模型推理任务,而自身算力又不够时,通过网络侧算力资源的协助,共同完成推理任务。目前,网络侧协助方式通常是将智能模型进行切分,终端和网络各完成一部分计算,再由网络将推理结果返回给终端。
[0003]然而,现有端边协作推理方案的关注点在于模型切分点的决策,即只决定了将哪部分计算任务放在终端,哪部分计算任务放在网络侧,而未考虑终端和网络侧分别拥有的不同计算资源的区别,导致模型推理性能较差。

技术实现思路

[0004]本申请实施例提供一种端边协作模型推理方法、装置和相关设备,以解决现有端边协作推理方案未考虑终端和网络侧分别拥有的不同计算资源的区别,导致模型推理性能较差的问题。
[0005]第一方面,本申请实施例提供了一种端边协作模型推理方法,由终端执行,所述方法包括:
[0006]向网络设备发送携带模型信息的推理请求消息;
[0007]接收所述网络设备发送的推理回复消息,其中,所述推理回复消息中指示所述网络设备是否同意协作推理,在所述推理回复消息指示所述网络设备同意协作推理的情况下,所述推理回复消息中还携带有所述网络设备的状态信息;
[0008]在所述推理回复消息指示所述网络设备同意协作推理的情况下,根据所述网络设备的状态信息和所述终端的状态信息,生成所述终端的第一决策动作和所述网络设备的第二决策动作,所述决策动作包括负责计算的模型部分和对应的计算资源分配信息,所述状态信息至少包括计算资源状态信息;
[0009]对所述第一决策动作中指示的所述终端负责计算的第一模型部分分配计算资源,进行所述第一模型部分的模型推理计算;
[0010]向所述网络设备发送所述第二决策动作,以使所述网络设备对所述第二决策动作中指示的所述网络负责计算的第二模型部分分配计算资源,进行所述第二模型部分的模型推理计算。
[0011]可选地,所述向所述网络设备发送所述第二决策动作之后,所述方法还包括:
[0012]接收所述网络设备在更改所述第二决策动作的情况下,发送的计算资源分配更新消息,其中,所述计算资源分配更新消息中携带有所述网络设备更新的第三决策动作;
[0013]根据所述第三决策动作,调整所述第一决策动作,得到第四决策动作;
[0014]根据所述第四决策动作,重新确定所述终端负责计算的第三模型部分,并对所述第三模型部分分配计算资源,进行所述第三模型部分的模型推理计算。
[0015]可选地,所述对所述第一决策动作中指示的所述终端负责计算的第一模型部分分配计算资源,进行所述第一模型部分的模型推理计算,包括:
[0016]向所述终端的计算资源管理模块发送第一计算资源分配建议消息,其中,所述第一计算资源分配建议消息中携带有所述第一模型部分的参数、所述第一模型部分中每层的计算资源类型和计算资源数量、层间计算的时序和数据传输关系;
[0017]通过所述计算资源管理模块根据所述第一计算资源分配建议消息,将所述第一模型部分中不同层的计算任务分配至所述终端的不同类型的计算资源,并配置各类计算资源之间的数据传输关系。
[0018]可选地,所述方法还包括:
[0019]向所述网络设备发送所述第一模型部分的模型推理中间结果,以使所述网络设备整合所述第一模型部分的模型推理中间结果和所述第二模型部分的模型推理中间结果,得到模型协作推理结果;
[0020]接收所述网络设备发送的所述模型协作推理结果。
[0021]可选地,所述方法还包括:
[0022]获取模型推理性能参数,所述模型推理性能参数包括推理准确度、平均推理时延和平均单次推理能耗中的至少一项;
[0023]基于所述模型推理性能参数,计算奖励信息;
[0024]收集每次协作推理中的状态信息、决策动作和奖励信息,作为所述终端与所述网络设备进行模型协作推理所采用的强化学习模型的训练样本,训练优化所述强化学习模型。
[0025]可选地,所述获取模型推理性能参数,包括:
[0026]统计所述终端在预设时长内的推理准确度、平均推理时延和平均单次推理能耗;
[0027]接收所述网络设备发送的推理能耗信息,其中,所述推理能耗信息包括所述网络设备在所述预设时长内的平均单次推理能耗值或者所述网络设备平均单次推理消耗的算力值。
[0028]可选地,所述方法还包括:
[0029]接收所述网络设备发送的状态更新消息,其中,所述状态更新消息包括所述网络设备更新的状态信息;
[0030]和/或,在监测到所述终端的状态信息发生变化的情况下,向所述网络设备发送状态更新请求消息;接收所述网络设备发送的最新状态信息;
[0031]根据所述终端和/或所述网络设备更新后的状态信息,重新生成所述终端的决策动作和所述网络设备的决策动作;
[0032]在重新生成的所述网络设备的决策动作有更新的情况下,向所述网络设备发送所述网络设备更新后的决策动作。
[0033]第二方面,本申请实施例还提供一种端边协作模型推理方法,由网络设备执行,所述方法包括:
[0034]接收终端发送的携带模型信息的推理请求消息;
[0035]获取所述网络设备的状态信息,其中,所述状态信息至少包括计算资源状态信息;
[0036]根据所述网络设备的状态信息,生成推理回复消息,所述推理回复消息中指示所述网络设备是否同意协作推理;
[0037]向所述终端发送所述推理回复消息,其中,在所述网络设备同意协作推理的情况下,所述推理回复消息中还携带有所述网络设备的状态信息;
[0038]在所述网络设备同意协作推理的情况下,接收所述终端发送的第二决策动作,其中,所述第二决策动作是所述终端根据所述网络设备的状态信息和所述终端的状态信息生成的所述网络设备的决策动作,所述决策动作包括负责计算的模型部分和对应的计算资源分配信息;
[0039]对所述第二决策动作中指示的所述网络设备负责计算的第二模型部分分配计算资源,进行所述第二模型部分的模型推理计算。
[0040]可选地,所述获取所述网络设备的状态信息,包括:
[0041]向所述网络设备的无线资源管理RRM模块发送无线信道质量信息请求消息;接收所述RRM模块返回的携带所述终端的上下行无线信道质量信息的无线信道质量信息回复消息;
[0042]向所述网络设备的计算资源管理CRM模块发送携带计算任务信息的计算资源信息请求消息;接收所述CRM模块返回的携带所述网络设备的计算资源状态信息的计算资源信息回复消息;
[0043]向所述网络设备的计算性能模型管理CPMM模块发送计算性能模型请求消息,其中,所述计算性能模型请求消息中携带有所述网络设备的剩余计算资源类型信息和模型层类型信息;接收所述本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种端边协作模型推理方法,其特征在于,由终端执行,所述方法包括:向网络设备发送携带模型信息的推理请求消息;接收所述网络设备发送的推理回复消息,其中,所述推理回复消息中指示所述网络设备是否同意协作推理,在所述推理回复消息指示所述网络设备同意协作推理的情况下,所述推理回复消息中还携带有所述网络设备的状态信息;在所述推理回复消息指示所述网络设备同意协作推理的情况下,根据所述网络设备的状态信息和所述终端的状态信息,生成所述终端的第一决策动作和所述网络设备的第二决策动作,所述决策动作包括负责计算的模型部分和对应的计算资源分配信息,所述状态信息至少包括计算资源状态信息;对所述第一决策动作中指示的所述终端负责计算的第一模型部分分配计算资源,进行所述第一模型部分的模型推理计算;向所述网络设备发送所述第二决策动作,以使所述网络设备对所述第二决策动作中指示的所述网络负责计算的第二模型部分分配计算资源,进行所述第二模型部分的模型推理计算。2.根据权利要求1所述的方法,其特征在于,所述向所述网络设备发送所述第二决策动作之后,所述方法还包括:接收所述网络设备在更改所述第二决策动作的情况下,发送的计算资源分配更新消息,其中,所述计算资源分配更新消息中携带有所述网络设备更新的第三决策动作;根据所述第三决策动作,调整所述第一决策动作,得到第四决策动作;根据所述第四决策动作,重新确定所述终端负责计算的第三模型部分,并对所述第三模型部分分配计算资源,进行所述第三模型部分的模型推理计算。3.根据权利要求1所述的方法,其特征在于,所述对所述第一决策动作中指示的所述终端负责计算的第一模型部分分配计算资源,进行所述第一模型部分的模型推理计算,包括:向所述终端的计算资源管理模块发送第一计算资源分配建议消息,其中,所述第一计算资源分配建议消息中携带有所述第一模型部分的参数、所述第一模型部分中每层的计算资源类型和计算资源数量、层间计算的时序和数据传输关系;通过所述计算资源管理模块根据所述第一计算资源分配建议消息,将所述第一模型部分中不同层的计算任务分配至所述终端的不同类型的计算资源,并配置各类计算资源之间的数据传输关系。4.根据权利要求1所述的方法,其特征在于,所述方法还包括:向所述网络设备发送所述第一模型部分的模型推理中间结果,以使所述网络设备整合所述第一模型部分的模型推理中间结果和所述第二模型部分的模型推理中间结果,得到模型协作推理结果;接收所述网络设备发送的所述模型协作推理结果。5.根据权利要求1所述的方法,其特征在于,所述方法还包括:获取模型推理性能参数,所述模型推理性能参数包括推理准确度、平均推理时延和平均单次推理能耗中的至少一项;基于所述模型推理性能参数,计算奖励信息;收集每次协作推理中的状态信息、决策动作和奖励信息,作为所述终端与所述网络设
备进行模型协作推理所采用的强化学习模型的训练样本,训练优化所述强化学习模型。6.根据权利要求5所述的方法,其特征在于,所述获取模型推理性能参数,包括:统计所述终端在预设时长内的推理准确度、平均推理时延和平均单次推理能耗;接收所述网络设备发送的推理能耗信息,其中,所述推理能耗信息包括所述网络设备在所述预设时长内的平均单次推理能耗值或者所述网络设备平均单次推理消耗的算力值。7.根据权利要求1所述的方法,其特征在于,所述方法还包括:接收所述网络设备发送的状态更新消息,其中,所述状态更新消息包括所述网络设备更新的状态信息;和/或,在监测到所述终端的状态信息发生变化的情况下,向所述网络设备发送状态更新请求消息;接收所述网络设备发送的最新状态信息;根据所述终端和/或所述网络设备更新后的状态信息,重新生成所述终端的决策动作和所述网络设备的决策动作;在重新生成的所述网络设备的决策动作有更新的情况下,向所述网络设备发送所述网络设备更新后的决策动作。8.一种端边协作模型推理方法,其特征在于,由网络设备执行,所述方法包括:接收终端发送的携带模型信息的推理请求消息;获取所述网络设备的状态信息,其中,所述状态信息至少包括计算资源状态信息;根据所述网络设备的状态信息,生成推理回复消息,所述推理回复消息中指示所述网络设备是否同意协作推理;向所述终端发送所述推理回复消息,其中,在所述网络设备同意协作推理的情况下,所述推理回复消息中还携带有所述网络设备的状态信息;在所述网络设备同意协作推理的情况下,接收所述终端发送的第二决策动作,其中,所述第二决策动作是所述终端根据所述网络设备的状态信息和所述终端的状态信息生成的所述网络设备的决策动作,所述决策动作包括负责计算的模型部分和对应的计算资源分配信息;对所述第二决策动作中指示的所述网络设备负责计算的第二模型部分分配计算资源,进行所述第二模型部分的模型推理计算。9.根据权利要求8所述的方法,其特征在于,所述获取所述网络设备的状态信息,包括:向所述网络设备的无线资源管理RRM模块发送无线信道质量信息请求消息;接收所述RRM模块返回的携带所述终端的上下行无线信道质量信息的无线信道质量信息回复消息;向所述网络设备的计算资源管理CRM模块发送携带计算任务信息的计算资源信息请求消息;接收所述CRM模块返回的携带所述网络设备的计算资源状态信息的计算资源信息回复消息;向所述网络设备的计算性能模型管理CPMM模块发送计算性能模型请求消息,其中,所述计算性能模型请求消息中携带有所述网络设备的剩余计算资源类型信息和模型层类型信息;接...

【专利技术属性】
技术研发人员:邓娟刘光毅
申请(专利权)人:中国移动通信集团有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1