【技术实现步骤摘要】
一种暗硅系统组合优化功耗预算估计与分配方法
[0001]本专利技术涉及芯片动态热管理
,具体涉及一种基于片上网络结构的暗硅系统组合优化功耗预算估计与分配方法。
技术介绍
[0002]由于量子隧穿效应愈专利技术显,登纳德缩放定律已于2006年左右开始失效。漏电流产生的静态功耗随着芯片工艺的进步不减反增,同时也带来很大的热能转换。由于受到功耗限制,芯片上所有核心不能同时处于正常工作状态,而总是部分核心开启,其他核心关闭,此类被彻底关闭的芯片核心或模块称之为暗硅(Dark Silicon)。未来诸如深度学习、虚拟现实、大数据等高计算强度应用对系统大规模并行计算能力的更高要求,功耗密度和暗硅比例还将进一步提升。根据ARM公司首席技术官Mike Muller 预测,当工艺尺寸达到11纳米时,芯片上可能仅有10%的资源能够在同一时间被激活。
[0003]随着暗硅时代的到来,多核系统芯片设计模式的优化目标已转变为:在热约束条件下,估计芯片的功耗上限值(称之为功耗预算),并将其分配至各个核心或功能单元,从而使系统的整体性能达到 ...
【技术保护点】
【技术特征摘要】
1.一种暗硅系统组合优化功耗预算估计与分配方法,其特征在于包括下述步骤:步骤1:将应用程序映射定义为应用子任务放置在不同核心的一一对应过程,并将寻求最小化温度阈值与芯片均温之差以及最小化平均加权曼哈顿距离作为组合优化功耗预算问题的目标;步骤2:根据应用任务间的通信关系,基于图论中Prim算法将任务图转换为最大生成树的形式;为减小通信损失,在考虑高通信量的同时,选择对后期映射影响较小的任务率先进行映射,因此,制定同时考虑树中层数和后代最大路径长度的映射规则,基于该规则建立模型,通过定量计算的优先级值大小决定映射顺序;详细步骤如下:采用图论中的普里姆算法将原始任务图转换为最大生成树的形式,选择平均通信需求最大的任务为根进行转换;以V(k
i
)表示k
i
的连接边缘数,任务平均通信需求A(k
i
)表示为:以P(k
i
)的大小表示k
i
任务基于生成树获得的任务映射优先级:其中,ω(k
i
)表示生成树中该任务与其父任务间的通信量,S(k
i
)表示该任务在生成树中的层数,C(k
i
)表示该任务到其后代的最大路径长度,并以β参数决定其对映射顺序的影响;步骤3:建立可靠性分析框架;首先,使用二元素窗口不断迭代以了解温度随时间的变化趋势,若趋势发生改变,则识别出该温度轨迹中的一个波峰或波谷,并进而得出所有波峰波谷值组成的折线图;接着,对该折线图采用雨流计数法获得由单位时间内温度快速变化导致的热循环;最后,基于Coffin
‑
Mason公式和Miner准则对热循环失效机制进行定量分析;步骤4:基于电学特性和热传导之间的二元特性,采用RC热阻网络模型对功耗和温度的关系进行建模;针对系统在恒定的输入功耗下长时间运行情况,去除RC热阻网络模型中温度的一阶微分项,将其转换为稳态温度模型;针对系统功耗处于实时变化的情况,考虑RC热阻网络中的热容对温度变化的影响,将其视为线性系统处理,以建立瞬态温度模型;基于稳态和瞬态两种模型,提出一种能综合考虑功耗预算、通信能耗与可靠性约束的组合优化方法进行核心映射选择;步骤5:基于确定的映射核心位置,以凸二次规划问题形式,对此时的功耗预算进行求解。2.根据权利要求1所述的一种暗硅系统组合优化功耗预算估计与分配方法,其特征在于:所述步骤1中,应用程序均以通信任务图(Communication Task Graph,CTG)描述,定义为一个由三元组G=G(K,D,ω)描述的有向无环图(Directed Acyclic Graph,DAG);其中,K、D、ω分别表示应用中子任务、有向边缘、边缘权重的集合,基于NoC的暗硅系统被定义为架构特征图(Architecture Characterization graph,ACG)G
′
=G
′
(N,L),其中N、L分别表示NoC系统中核心集合和路由间的链路集合;每个核心模块包括一个可用处理单元(PE)和
一个路由单元(R);同时,网络上完成一次数据传输所需能耗与数据的传输距离和任务本身通信量的大小有关;定义平均加权曼哈顿距离(Average Weighted Manhattan Distance,AWMD)作为评估通信成本的指标,表示为:其中,对于一个通信量为ω
i,j
的有向边d
i,j
∈D,h(n
m
,n
n
)表示其连接的任务k
i
和k
j
所对应核心位置n
m
和n
n
之间的曼哈顿距离;当前系统最佳功耗预算以及映射选择描述为寻求最小化温度阈值与芯片均温之差,以及最小化AWMD:其中,T为各核心位置的温度向量,T
th
为各核心的阈值温度向量,“<”为向量不等号。3.根据权利要求1所述的一种暗硅系统组合优化功耗预算估计与分配方法,其特征在于:所述步骤3中,可靠性分析框架分为三个模块:峰谷识别模块、雨流计数模块和可靠性计算模块;峰谷识别模块基于温度轨迹的变化趋势识别所有波峰和波谷,将温度随时间的变化曲线变为一系列波峰波谷组成的折线,雨流计数模块则基于波峰波谷温度与时间的二维平面直角坐标系;顺时针旋转90
°
,将数据变化的折线视为一系列屋面,定义雨水从每个峰值或谷点出发,顺着屋面往时间坐标轴竖直向下方向流动,配成完整热循环;计算温度轨迹中完整的热循环数后将其输入可靠性计算模块,可靠性计算模块是基于失效时间ξ具有Weibull分布的假设(ξ~Weibull(η,β)),其中η和β分别是缩放和形状参数;因此,平均失效时间E[ξ]表示如下:其中,Γ是伽玛函数,将应用程序的整个周期τ划分为z个时间间隔δt
i
,在每个时间间隔δt
i
内,对应的η
i
是一个常数,表示为:其中θ
i
是第i个时间间隔的平均失效时间,为确定第i个时间间隔的θ
i
,首先通过Coffin
‑
Mason公式(疲劳寿命计算公式)推导每个热循环失效的循环次数N
c
(i),表示为:其中,A为经验常数,δT
i
为第i个热循环的温度幅度,T0为弹性形变开始的温度幅度,b为Coffin
‑
Mason指数常数,E
a
为活化能,K是玻尔兹曼常数,T
max
(i)为第i个热循环中的最高温度;每个热循环都有自己的持续时间δt
i
;对于热循环中一个以故障循环数N
c
(i)和持续时间δt
i
为特征的故障模型,计算θ
i
表示为:
θ
i
=N
c
(i)δt
i
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(8)运行的应用程序工作负载周期比系统寿命短得多,将当前已...
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。