【技术实现步骤摘要】
一种温度约束下的终端设备异构处理器推断加速方法
[0001]本专利技术属于边缘计算与工业互联网领域,具体涉及一种温度约束下的终端设备异构处理器推断加速方法。
技术介绍
[0002]随着硬件技术的快速发展,目前,智能手机、智能摄像头、可穿戴设备、无人机等多种多样的智能终端设备已经广泛应用于人们生产生活的各个领域,这些智能设备往往配备有摄像头、雷达等传感器,以及中央处理器、图形处理器等多种处理器,在某些设备中甚至配备有用于特定领域计算的处理器,如AMD研发用于加速图像处理的加速处理器,谷歌研发用于加速人工智能算法的神经网络处理器等。这些处理器具有较强的计算能力,在传感器采集到图像、声音等信息后,能够对采集到的数据进行分析计算。然而,一方面,深度神经网络层数不断加深,数据量和计算量不断增多;另一方面,绝大多数被广泛使用的智能终端设备受功耗、处理器性能等限制,并不具备传统用于深度神经网络训练和推断的计算机、服务器所具有的强大的计算能力。因此,智能终端设备的训练和推断时延不断提升,对于一些时延敏感性的任务,传统的智能终端设备计算方式已 ...
【技术保护点】
【技术特征摘要】 【专利技术属性】
1.一种温度约束下的终端设备异构处理器推断加速方法,其特征在于,包括以下步骤:步骤一:构建温度约束下的终端设备动态频率设定模型,分析工业生产环境下的终端设备功耗控制与时钟频率约束关系,通过实际测量环境温度、设备功耗建模;步骤二:神经网络单层粒度并行方式选择,刻画深度神经网络各层的计算量,分析卷积层、池化层、全连接层这三类常见层的数据结构与计算量,结合异构处理器的计算方式和结构特性,估算每一层在各处理器上的计算延迟,从而确定深度神经网络单层并行方法;步骤三:以步骤一、二为基础,提供深度神经网络推断过程的单层粒度计算负载划分,具体包括:首先,考虑工业生产的高温环境,根据步骤一建立的温度约束下的终端设备动态频率模型,设定设备处理器频率,从而实现对设备功耗的限制以保持设备的温度在合理工况区间;之后,根据步骤二中设计的深度神经网络单层并行方法,选定不同层及其组合的单层粒度并行模式,可选模式为数据并行与模型并行,进一步考虑每层来自于将两个处理器的输出结果合并造成的计算时间,即并行后额外时延;最后,实现异构处理器的深度神经网络单层计算任务分配,任务分配的目标为实现终端设备推断总时延最小;将温度约束下的终端设备异构处理器推断加速问题转化为一个遵从一定约束的优化问题,并使用温度感知的动态频率算法TADF与单层异构处理器负载分配算法HSWD算法对每层的计算任务进行负载分配,使得每一层的推断时延最低。2.根据权利要求1所述的温度约束下的终端设备异构处理器推断加速方法,其特征在于,所述步骤一中构建温度约束下的终端设备动态频率设定模型时,基于建模关键参数终端设备中异构处理器的频率f
processor
、异构处理器功耗P
processor
,得出终端设备总功耗P;基于建模关键参数t时刻环境温度T
eno
(t)与设备温度T(t),得出设备稳态运行温度T(∞);异构处理器的浮点运算速度与设备稳态运行温度遵循一定约束。3.根据权利要求2所述的温度约束下的终端设备异构处理器推断加速方法,其特征在于,所述步骤一具体包括如下过程:首先对智能终端设备特征进行建模,对于一个配备有CPU和GPU的智能终端设备D,该设备中异构处理器的频率由处理器时钟频率f
clock
和每时钟周期浮点运算次数n
processor
表示,即和处理器功耗与该处理器的时钟频率有关,其中P
processor
=Ψ(f
clock
)3,Ψ(W/((周期/s))3)是一个由处理器架构决定的系数,故处理器功耗有如下表示:其中,Υ
C
=Ψ
C
/(n
C
)3,Υ
G
=Ψ
G
/(n
G
)3;另外,设备待机功耗通过一个线性模型高精度地估计设备的待机功耗与环境以及设备电压之间的关系,即P
idle
=V(β1T
eno
+β0),系数β1和β0与设备的性能有关,故终端设备总功耗为:P=P
idle
+P
C
+P
G
=V(β1T
eno
+β0)+Υ
C
(f
C
)3+Υ
G
(f
G
)3由于环境温度T
eno
(t)与设备自身热功耗因素影响,刻画当设备的处理器工作频率以及环境温度保持稳定时,设备长时间持续工作后将会达到稳定温度模型T(t
→
∞);根据热电
路模型,将设备的温度表示为与设备功耗有关的函数,当设备D以功率P运行时,t时刻设备的温度表示为:其中,R(℃/W)和C(J/K)分别表示热阻和热容;由此可得,当t
→
技术研发人员:张竞慧,黄天宇,王宇晨,金嘉晖,东方,张毅晔,徐波,
申请(专利权)人:江苏省未来网络创新研究院,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。