【技术实现步骤摘要】
针对AI计算集群的运行频率控制方法、系统及相关设备
[0001]本专利技术涉及人工智能处理器控制
,尤其涉及的是一种针对AI计算集群的运行频率控制方法、系统及相关设备。
技术介绍
[0002]随着科学技术的发展,尤其是人工智能(AI,Artificial Intelligence)技术的发展,人工智能计算集群(即AI计算集群)的应用越来越广泛。AI计算集群是指使用了AI处理器(即AI计算芯片)的具有强大AI算力的计算集群系统,能够满足日益增长的AI算力需求。
[0003]在AI计算集群的使用过程中,需要对其中的AI 处理器进行运行频率的控制。现有技术中,通常以性能优先为目标对AI计算集群进行运行频率控制,即将AI处理器的运行频率设置为设备支持的最高数值,这样可以最高程度释放系统的算力。现有技术的问题在于,以性能优先为目标进行控制时,牺牲了功耗和能效比,不利于降低AI计算集群的功耗和提高AI计算集群的能效比。
[0004]因此,现有技术还有待改进和发展。
技术实现思路
[0005]本专利技 ...
【技术保护点】
【技术特征摘要】
1.一种针对AI计算集群的运行频率控制方法,其特征在于,所述方法包括:采集获取AI计算集群中各AI处理器对应的处理器状态数据集合,其中,一个AI处理器对应的处理器状态数据集合中包括该AI处理器在不同运行频率下获得的多组硬件状态数据,一组所述硬件状态数据包括功耗和硬件指标数据;根据各所述AI处理器对应的处理器状态数据集合分别构建各所述AI处理器对应的频率关系模型,其中,一个AI处理器对应的频率关系模型体现该AI处理器的运行频率、性能和功耗之间的关系;根据各所述AI处理器对应的频率关系模型,分别获取各所述AI处理器对应的最优运行频率,其中,一个AI处理器对应的最优运行频率是该AI处理器对应的所有候选运行频率中能效比最高的一个候选运行频率,一个AI处理器对应的候选运行频率包括根据该AI处理器对应的频率关系模型获取的满足预设性能约束条件的运行频率,所述能效比是性能与功耗的比值;根据各所述AI处理器对应的最优运行频率,分别对所述AI计算集群中的各所述AI处理器进行运行频率控制。2.根据权利要求1所述的针对AI计算集群的运行频率控制方法,其特征在于,所述采集获取AI计算集群中各AI处理器对应的处理器状态数据集合,包括:获取各所述AI处理器对应的采样间隔;根据各所述AI处理器对应的采样间隔分别对各所述AI处理器的运行频率进行多次调整,在每一次调整所述AI处理器的运行频率后采集获取所述AI处理器对应的一组硬件状态数据;根据各所述AI处理器对应的所有硬件状态数据获取各所述AI处理器对应的处理器状态数据集合。3.根据权利要求2所述的针对AI计算集群的运行频率控制方法,其特征在于,所述采样间隔根据对应的AI处理器的硬件采样延迟确定。4.根据权利要求1所述的针对AI计算集群的运行频率控制方法,其特征在于,所述AI计算集群中的AI处理器包括图形处理器、嵌入式神经网络处理器和张量处理器中的至少一种。5.根据权利要求1所述的针对AI计算集群的运行频率控制方法,其特征在于,所述硬件指标数据包括计算单元利用率、内存利用率、内存带宽利用率、内存占用大小、算数单元利用率、指令通道占用比、内存读写带宽、缓存读写带宽和资源冲突占比中的至少一种。6.根据权利要求1所述的针对AI计算集群的运行频率控制方法,其特征在于,所述频率关系模型包括频率性能子模型和频率功耗子模型。7.根据权利要求6所述的针对AI计算集群的运行频率控制方法,其特征在于,一个AI处理器对应的频率功耗子模型根据如下步骤构建:根据预设的第一数据拟合方式,对所述AI处理器的功耗以及各所述功耗对应的运行频率进行数据拟合获得所述频率功耗子模型;其中,所述第一数据拟合方式是线性拟合或二次函数拟合。8.根据权利要求7所述的针对AI计算集群的运行频率控制方法,其特征在于,一个AI处理器对应的频率性能子模型根据如下步骤构建:获取预设的硬件指标性能关系,其中,所述硬件指标性能关系是所述AI处理器的硬件
指标数据与性能之间的对应关系,所述性能是所述AI处理器中应用程序在所述AI计算集群中的运行速度;根据预设的第二数据拟合方式,对所述AI处理器的硬件指标数据以及各所述硬件指标数据对应的运行频率进行数据拟合获得频率硬件指标关系,其中,...
【专利技术属性】
技术研发人员:章弋嘉,林哲,王丙强,徐鹏翔,田永鸿,
申请(专利权)人:鹏城实验室,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。