【技术实现步骤摘要】
一种浮点计算性能监测装置及其监测方法
[0001]本专利技术涉及一种浮点计算性能监测装置及其监测方法,属于浮点计算性能监测
技术介绍
[0002]随着深度学习模型深度越来越深,巨量的参数使得模型的尺寸越来越大,计算量也随之上升,实际工程应用中,大部分深度学习模型并不需要64位的浮点数精度,甚至32位。为了提升计算速度,减少模型占用空间,BF16(BFloat16)格式的浮点数应运而生,并且已经逐步成为深度学习的一种标准。
[0003]由于受计算机存储空间和字长的限制,绝大部分计算机都在电气和电子工程师协会(ieee)754浮点算术标准下执行科学计算(如数值核反应堆模拟程序等),舍入误差在浮点计算中是不可避免的,且舍入误差的积累效应可能会对计算结果带来严重影响,甚至造成灾难性后果,为此要对计算机的浮点数性能进行监测。
[0004]现有的对于浮点数的监测方法一般是:首先实时的获取浮点性能数据,其次利用监测装置确定浮点性能数据是否出现异常,随后判断出现异常的浮点性能数据的节点位置,以便后续对数据进行修复处理,在对浮点性能数据进行监控时,通常的做法是首先设置一个阈值,然后每次获取一个要监测的浮点性能数据,就比较该浮点性能数据值与设定阈值之间的大小关系,比如规定大于阈值的浮点性能数据属于正常数据;否则,属于异常数据,对异常数据就要进行告警。当出现多个连续异常数据时,那么每出现一个异常数据都要进行告警。但每发现一个异常数据就进行告警,会导致告警过于频繁和过度浪费告警资源的问题;而且对于浮点性能数据进行采 ...
【技术保护点】
【技术特征摘要】
1.一种浮点计算性能监测装置,其特征在于:包括:数据采集模块(1):接收由客户端发送的指令,实时采集CPU运行时生成的浮点计算数据信息;特征提取模块(2):包括提取单元,根据数据采集模块(1)生成的浮点计算数据信息提取浮点计算数据信息特征,预设浮点寄存器,在所述浮点寄存器中设定数据队列,在所述数据队列中设置多个主信元,所述浮点计算数据信息特征分类存储在对应的数据队列的主信元中;数据调度模块(3):包括队列调度器与队列管理器,所述队列调度器与队列管理器以及所述浮点寄存器相互连接,所述队列调度器向所述队列管理器发送调度请求,所述队列管理器生成调度信息传输至所述浮点寄存器,对相应的浮点计算数据信息特征数据进行调取;数据监测模块(4):包括用于对浮点计算数据信息特征进行监测的监测单元,所述监测单元对浮点计算数据信息特征进行监测,所述监测单元中设定有阈值,通过对比浮点计算数据信息特征与阈值,判断浮点计算数据信息是否出现异常,并将异常浮点计算数据信息传输至服务器数据库中进行存储;数据恢复模块(5):包括用于获取目标浮点计算数据信息数据集的第一统计单元以及用于获取被调取浮点计算数据信息数据集的第二统计单元,所述第一统计单元与所述浮点寄存器相连接,所述第二统计单元与所述队列管理器相连接,通过所述第一统计单元中的目标浮点计算数据信息数据集与第二统计单元中的被调取浮点计算数据信息数据集进行对比,获得遗漏信息数据,设置传输单元,将遗漏信息数据插入其对应所在的队列的主信元中。2.根据权利要求1所述的一种浮点计算性能监测装置,其特征在于:还包括数据分析模块(6),所述数据分析模块(6)用于对浮点计算数据信息进行分析处理,并将经过处理后的数据通过接口传输至特征提取模块(2)。3.根据权利要求2所述的一种浮点计算性能监测装置,其特征在于:所述浮点计算数据信息特征包括浮点计算数据信息的符号位、指数位、尾数位以及浮点计算时长,所述数据队列有多组,多组所述数据队列根据浮点计算数据的符号位对其指数位进行分组存储,使其放入对应的主信元中,且每组所述数据队列中均设定有两个子数据队列,每个所述子数据队列中均设有多个顺序排列的子信元,对所述浮点计算数据信息的尾数位以及浮点计算时间进行分类存储,每个所述子信元与其对应的主信元间均建立关联。4.根据权利要求3所述的一种浮点计算性能监测装置,其特征在于:所述监测单元中设有标记部分以及比较部分,所述标记部分用于对每个所述数据队列进行标记,并建立与浮点计算数据信息特征相对应的四个子索引号,且四个所述子索引号中相邻两个之间均设有相关性,所述比较部分用于判断浮点计算时长是否大于阈值。5.根据权利要求4所述的一种浮点计算性能监测装置,其特征在于:针对多个所述数据队列建立与其对应的二级索引号,每个所述浮点计算数据信息特征的四个子索引号均与其所在数据队列的二级索引号相关联,所述数据恢复模块(5)中设有位图,所述位图中包括多个位图单元,且每个所述位图单元具有唯一的一级索引号,每个所述一级索引号与二级索引号相关联,所述遗漏信息数据存储在对应的位图单元中。
6.根据权利要求1或5所述的一种浮点计算性能监测装置,其特征在于:所述数据恢复模块(5)还包括对比单元以及计算单元...
【专利技术属性】
技术研发人员:甘润东,龙玉江,卫薇,王策,卢仁猛,钟掖,王杰峰,陈卿,袁捷,吴忠,李洵,
申请(专利权)人:贵州电网有限责任公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。