AI硬件在大模型千卡场景下的多维度评测方法和装置制造方法及图纸

技术编号:42213577 阅读:27 留言:0更新日期:2024-07-30 18:55
本发明专利技术公开了AI硬件在大模型千卡场景下的多维度评测方法和装置,属于人工智能技术领域。方法包括功能正确性测试、性能测试、稳定性测试和资源消耗性测试;在功能正确性测试中,根据训练过程的损失值进行评价;在性能测试中,根据吞吐量、功耗和显存占用情况进行评价;在稳定性测试中,根据故障次数和恢复时间以及功耗和显存占用情况进行评价;在资源消耗性测试中,根据在性能测试和稳定性测试中监控的各指标项,以及各指标项监控结果的时间序列均值和标准差进行评价。本发明专利技术对AI硬件在软件栈组合(模型+框架+编译器)下的实际能力进行评测,能够更全面地评估AI芯片对于大模型的支持能力,弥补了目前大模型领域评测方案覆盖面不足的问题。

【技术实现步骤摘要】

本专利技术涉及人工智能,尤其涉及一种ai硬件在大模型千卡场景下的多维度评测方法和装置。


技术介绍

1、ai硬件群雄逐鹿的局面之下,ai硬件评测是必做任务。首先,ai硬件制造商需要一个客观的坐标系度量自身创新进程;再者,产业落地需要公正的评测基准和方式,采购方迫切需要公正的、适应场景需求的评测来指导实际的生产环境搭建。然而,由于ai软硬件技术栈异构程度高、兼容性差,再加上应用场景复杂多变,由图灵奖得主david patterson联合顶尖学术机构发起的mlperf评测项目,允许各厂商针对特定任务进行极致优化,体现自身能力,但是对用户实际使用ai芯片进行模型训练、推理等任务的指导意义有限。另外,国内评测方案也都局限于白皮书阶段,缺乏直接上手可实操的方案,ai芯片评测还停留在书面和琐碎的项目中尚未成体系。


技术实现思路

1、为了解决现有技术中存在的问题,本专利技术提供了如下技术方案。

2、本专利技术第一方面提供了一种ai硬件在大模型千卡场景下的多维度评测方法,包括:功能正确性测试、性能测试、稳定性测试和本文档来自技高网...

【技术保护点】

1.一种AI硬件在大模型千卡场景下的多维度评测方法,其特征在于,包括:功能正确性测试、性能测试、稳定性测试和资源消耗性测试;

2.如权利要求1所述的AI硬件在大模型千卡场景下的多维度评测方法,其特征在于,所述功能正确性测试包括:采用固定超参数、固定随机数和固定初始权重,在设定的初始条件下计算芯片在训练过程中的损失值。

3.如权利要求2所述的AI硬件在大模型千卡场景下的多维度评测方法,其特征在于,所述在所述功能正确性测试中,根据训练过程的损失值进行评价包括:将计算得到的损失值与预设的基准损失值进行比较,若比较结果在预设的误差范围内,则满足功能正确性测试要求;否则,不...

【技术特征摘要】

1.一种ai硬件在大模型千卡场景下的多维度评测方法,其特征在于,包括:功能正确性测试、性能测试、稳定性测试和资源消耗性测试;

2.如权利要求1所述的ai硬件在大模型千卡场景下的多维度评测方法,其特征在于,所述功能正确性测试包括:采用固定超参数、固定随机数和固定初始权重,在设定的初始条件下计算芯片在训练过程中的损失值。

3.如权利要求2所述的ai硬件在大模型千卡场景下的多维度评测方法,其特征在于,所述在所述功能正确性测试中,根据训练过程的损失值进行评价包括:将计算得到的损失值与预设的基准损失值进行比较,若比较结果在预设的误差范围内,则满足功能正确性测试要求;否则,不满足功能正确性测试要求。

4.如权利要求3所述的ai硬件在大模型千卡场景下的多维度评测方法,其特征在于,所述功能正确性测试要求包括:前10步计算得到的损失值与预设的基准损失值使用numpy.isclose接口,在fp16场景使用atol=1e-3和rtol=2e-4;在bf16场景使用atol=1e-2和rtol=2e-3,观察结果是否为真;前5000步,计算得到的损失值与预设的基准损失值的相对误差均值小于等于2%。

5.如权利要求1所述的ai硬件在大模型千...

【专利技术属性】
技术研发人员:石浤澔敖玉龙吴文莉田燕林咏华
申请(专利权)人:北京智源人工智能研究院
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1