一种降低多模型任务排队时延的方法和装置制造方法及图纸

技术编号：36603601 阅读：20 留言：0更新日期：2023-02-04 18:22

本申请提供了一种降低多模型任务排队时延的方法和装置，包括：接收插入的新模型任务指令；继续执行当前的第一模型任务，直到遇到当前第一模型任务指令中的取消点后中断第一模型任务，取消点为预先在第一模型任务指令中编译的标记点；根据取消点，获取第一模型任务目标数据在芯片内部的目标存储地址；目标数据为取消点之前的指令执行处理数据；根据目标存储地址，将目标数据转存至外部存储器；执行新模型任务的指令；当新模型任务的指令执行完毕后，根据目标存储地址，将目标数据恢复存储至芯片内部，继续执行第一模型任务。采用本申请的技术方案，可以显著降低小模型等待大模型带来的延迟开销。来的延迟开销。来的延迟开销。

全部详细技术资料下载

【技术实现步骤摘要】
一种降低多模型任务排队时延的方法和装置

[0001]本专利技术涉及机器学习领域，尤其涉及一种能降低多模型任务排队时延的方法和装置。

技术介绍

[0002]在使用机器学习加速器硬件的应用场景中，通常硬件厂商会提供一套工具链软件，应用开发者使用这套工具链来定义、训练、编译和部署机器学习模型，最终在嵌入式软件中实现对模型功能的调用。
[0003]对于目前常见的工具链，嵌入式软件环境中的机器学习模型是一个“黑箱”，软件调用模型的过程是“原子的”，一个模型一旦启动以后就不可中断，或者中断以后就不可恢复。这对于类似智能驾驶这样的延迟敏感型的应用场景来说会造成一些问题。当软件每次启动一个模型时，由于硬件正在处理其他任务，新的任务必须排队等待直到硬件进入空闲状态。排队会导致完整工作流的延迟显著延长，让关键场景的性能和可用性受到影响。例如智能驾驶场景中可能导致紧急情况下刹车反应时间变长，影响系统的安全性和用户体验。
[0004]如何根据运行时需求，以较小的代价实时切换和调度多个神经网络模型，避免指令依赖性分析带来的开销，减少硬件资源的闲置和浪费，目前尚未提出有效的解决方案。

技术实现思路

[0005]为了解决上述技术问题，本专利技术提供了一种降低多模型任务排队时延的方法和装置。
[0006]本专利技术提供的技术方案如下：
[0007]一方面，本方案提出一种降低多模型任务排队时延的方法，包括：
[0008]接收插入的新模型任务指令及暂停执行指令；
[0009]在接收到所述暂...

【技术保护点】

【技术特征摘要】
1.一种降低多模型任务排队时延的方法，其特征在于，包括：接收插入的新模型任务指令及暂停执行指令；在接收到所述暂停执行指令后，继续执行当前的第一模型任务，直到遇到当前第一模型任务指令中的取消点后中断所述第一模型任务，所述取消点为预先在所述第一模型任务指令中编译的标记点；根据所述取消点，获取所述第一模型任务目标数据在芯片内部的目标存储地址；所述目标数据为所述取消点之前的指令执行处理数据；根据所述目标存储地址，将所述目标数据转存至外部存储器；执行所述新模型任务的指令；当所述新模型任务的指令执行完毕后，根据所述目标存储地址，将存储在外部存储器中的目标数据恢复存储至所述芯片内部，继续执行所述第一模型任务。2.根据权利要求1所述的降低多模型任务排队时延的方法，其特征在于，在所述第一模型任务启动执行之前，还包括：将第一模型及其参数编译为硬件可识别的二进制指令序列；在所述二进制执行序列中插入若干取消点，生成第一模型任务指令。3.根据权利要求2所述的降低多模型任务排队时延的方法，其特征在于，在所述二进制指令序列中插入若干取消点，生成第一模型指令具体包括：获取所述二进制指令序列中的转储位置；所述转储位置为临时数据总量超出第一数据量时将数据转储到外部存储介质的位置，所述第一数据量小于芯片内部存储介质容量；在所述转储位置设置取消点。4.根据权利要求2所述的降低多模型任务排队时延的方法，其特征在于，在所述二进制指令序列中插入若干取消点，生成第一模型指令具体包括：在所述二进制指令执行序列中，每隔预设的执行时间间隔插入一个取消点。5.根据权利要求1所述的降低多模型任务排队时延的方法，其特征在于，还包括：当未接收到暂停执行指令时，继续执行当前的所述第一模型任务，且在遇到所述第一模型任务指令中的取消点后仍执行后续的指令序列。6.一种降低多模型任务排队时延的装置，其特征在于，包括：命令接收模块，用于接收插入的新模型任务指令及...

【专利技术属性】
技术研发人员：曹博，陈韫韬，赵季，
申请(专利权)人：辉羲智能科技上海有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人