一种浮点计算性能监测装置及其监测方法制造方法及图纸

技术编号:36693360 阅读:49 留言:0更新日期:2023-02-27 20:02
本发明专利技术公开了一种浮点计算性能监测装置及其监测方法,涉及计算机技术领域,具体包括数据采集模块:接收由客户端发送的指令,实时采集CPU运行时生成的浮点计算数据信,特征提取模块:包括提取单元,提取浮点计算数据信息特征,数据调度模块:包括队列调度器与队列管理器,队列调度器与队列管理器以及浮点寄存器相互连接,数据监测模块:对浮点计算数据信息特征进行监测,数据恢复模块:包括用于获取目标浮点计算数据信息数据集的第一统计单元以及用于获取被调取浮点计算数据信息数据集的第二统计单元。本发明专利技术通过数据监测模块对多个数据队列进行监测,提高了监测效率,对丢失的浮点计算数据信息进行恢复。浮点计算数据信息进行恢复。浮点计算数据信息进行恢复。

【技术实现步骤摘要】
一种浮点计算性能监测装置及其监测方法


[0001]本专利技术涉及一种浮点计算性能监测装置及其监测方法,属于浮点计算性能监测


技术介绍

[0002]随着深度学习模型深度越来越深,巨量的参数使得模型的尺寸越来越大,计算量也随之上升,实际工程应用中,大部分深度学习模型并不需要64位的浮点数精度,甚至32位。为了提升计算速度,减少模型占用空间,BF16(BFloat16)格式的浮点数应运而生,并且已经逐步成为深度学习的一种标准。
[0003]由于受计算机存储空间和字长的限制,绝大部分计算机都在电气和电子工程师协会(ieee)754浮点算术标准下执行科学计算(如数值核反应堆模拟程序等),舍入误差在浮点计算中是不可避免的,且舍入误差的积累效应可能会对计算结果带来严重影响,甚至造成灾难性后果,为此要对计算机的浮点数性能进行监测。
[0004]现有的对于浮点数的监测方法一般是:首先实时的获取浮点性能数据,其次利用监测装置确定浮点性能数据是否出现异常,随后判断出现异常的浮点性能数据的节点位置,以便后续对数据进行修复处理,在对浮点性能数据进行监控时,通常的做法是首先设置一个阈值,然后每次获取一个要监测的浮点性能数据,就比较该浮点性能数据值与设定阈值之间的大小关系,比如规定大于阈值的浮点性能数据属于正常数据;否则,属于异常数据,对异常数据就要进行告警。当出现多个连续异常数据时,那么每出现一个异常数据都要进行告警。但每发现一个异常数据就进行告警,会导致告警过于频繁和过度浪费告警资源的问题;而且对于浮点性能数据进行采集时,由于服务器断开连接等原因,会导致无法采集到该服务器中存储的数据,致使部分浮点计算数据信息丢失,导致监测数据不完善,监测结果精确度较低。因此,有必要提供一种浮点计算性能监测装置及其监测方法。

技术实现思路

[0005]本专利技术要解决的技术问题是:提供一种浮点计算性能监测装置及其监测方法,可以有效解决
技术介绍
对于浮点数的监测方法存在的告警过于频繁和过度浪费告警资源的问题以及对于浮点性能数据进行采集存在无法采集到该服务器中存储的数据、致使部分浮点计算数据信息丢失、导致监测数据不完善、监测结果精确度较低的问题。
[0006]本专利技术采取的技术方案为:一种浮点计算性能监测装置,包括:数据采集模块:接收由客户端发送的指令,实时采集CPU运行时生成的浮点计算数据信息;特征提取模块:包括提取单元,根据数据采集模块生成的浮点计算数据信息提取浮点计算数据信息特征,预设浮点寄存器,在浮点寄存器中设定数据队列,在数据队列中设置多个主信元,浮点计算数据信息特征分类存储在对应的数据队列的主信元中;数据调度模块:包括队列调度器与队列管理器,队列调度器与队列管理器以及浮
点寄存器相互连接,队列调度器向队列管理器发送调度请求,队列管理器生成调度信息传输至浮点寄存器,对相应的浮点计算数据信息特征数据进行调取;数据监测模块:包括用于对浮点计算数据信息特征进行监测的监测单元,监测单元对浮点计算数据信息特征进行监测,监测单元中设定有阈值,通过对比浮点计算数据信息特征与阈值,判断浮点计算数据信息是否出现异常,并将异常浮点计算数据信息传输至服务器数据库中进行存储;数据恢复模块:包括用于获取目标浮点计算数据信息数据集的第一统计单元以及用于获取被调取浮点计算数据信息数据集的第二统计单元,第一统计单元与浮点寄存器相连接,第二统计单元与队列管理器相连接,通过第一统计单元中的目标浮点计算数据信息数据集与第二统计单元中的被调取浮点计算数据信息数据集进行对比,获得遗漏信息数据,设置传输单元,将遗漏信息数据插入其对应所在的队列的主信元中。
[0007]优选地,上述一种浮点计算性能监测装置还包括数据分析模块,数据分析模块用于对浮点计算数据信息进行分析处理,并将经过处理后的数据通过接口传输至特征提取模块。
[0008]优选地,上述浮点计算数据信息特征包括浮点计算数据信息的符号位、指数位、尾数位以及浮点计算时长,数据队列有多组,多组数据队列根据浮点计算数据的符号位对其指数位进行分组存储,使其放入对应的主信元中,且每组数据队列中均设定有两个子数据队列,每个子数据队列中均设有多个顺序排列的子信元,对浮点计算数据信息的尾数位以及浮点计算时间进行分类存储,每个子信元与其对应的主信元间均建立关联。
[0009]优选地,上述监测单元中设有标记部分以及比较部分,标记部分用于对每个数据队列进行标记,并建立与浮点计算数据信息特征相对应的四个子索引号,且四个子索引号中相邻两个之间均设有相关性,比较部分用于判断浮点计算时长是否大于阈值。
[0010]优选地,上述提取模块,针对多个数据队列建立与其对应的二级索引号,每个浮点计算数据信息特征的四个子索引号均与其所在数据队列的二级索引号相关联,数据恢复模块中设有位图,位图中包括多个位图单元,且每个位图单元具有唯一的一级索引号,每个一级索引号与二级索引号相关联,遗漏信息数据存储在对应的位图单元中。
[0011]优选地,上述数据恢复模块还包括对比单元以及计算单元,对比单元用于将第一统计单元中的目标浮点计算数据信息数据集与第二统计单元中的被调取浮点计算数据信息数据集进行对比,计算单元根据对比信息计算得出遗漏信息数据,并计算遗漏信息数据与位图中的位图单元的相关性。
[0012]优选地,上述一种浮点计算性能监测装置还包括信息查询模块,信息查询模块包括配置单元、范围确定单元、转换单元以及导出单元,配置单元用于对服务器数据库中源数据与目标查询数据的匹配关系以及数据校验规则进行配置,生成配置文件,范围确定单元用于读取配置文件,并相应数据选择指令,在服务器数据库中确定目标数据范围,转换单元用于执行转换指令,将目标数据的格式与目标查询数据匹配,导出单元用于执行导出指令,将与目标查询数据匹配的目标数据导出。
[0013]一种浮点计算性能监测装置的监测方法,包括以下步骤:S1、使用时,用户通过客户端发送指令,数据采集模块接收指令并实时采集CPU运行时生成的浮点计算数据信息,通过数据分析模块对浮点计算数据信息进行处理,并将经
过处理后的数据通过接口传输至特征提取模块;S2、通过特征提取模块中的提取单元对浮点计算数据信息特征进行提取,并根据浮点计算数据的符号位将浮点计算数据信息的指数位、尾数位以及浮点计算时长分类存储在对应的数据队列、主信元以及子信元中;S3、通过数据调度模块中的队列调度器向队列管理器发送调度请求,队列管理器根据调度请求生成调度信息,并将调度信息传输至浮点寄存器,对浮点寄存器中的每个数据队列中的数据进行调取;S4、通过数据监测模块中的监测单元对浮点计算数据信息进行监测,通过标记部分对每个数据队列进行标记,并建立与浮点计算数据信息特征相对应的四个子索引号,通过比较部分判断每个数据队列中的最高浮点计算时长是否大于设定阈值,若最高浮点计算时长大于设定阈值,则该数据队列中浮点计算数据信息出现异常,将该数据队列中最高浮点计算时长所对应的浮点计算数据信息传输至服务器数据库中存储为一类日志文件,若最高浮点计算时长小本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种浮点计算性能监测装置,其特征在于:包括:数据采集模块(1):接收由客户端发送的指令,实时采集CPU运行时生成的浮点计算数据信息;特征提取模块(2):包括提取单元,根据数据采集模块(1)生成的浮点计算数据信息提取浮点计算数据信息特征,预设浮点寄存器,在所述浮点寄存器中设定数据队列,在所述数据队列中设置多个主信元,所述浮点计算数据信息特征分类存储在对应的数据队列的主信元中;数据调度模块(3):包括队列调度器与队列管理器,所述队列调度器与队列管理器以及所述浮点寄存器相互连接,所述队列调度器向所述队列管理器发送调度请求,所述队列管理器生成调度信息传输至所述浮点寄存器,对相应的浮点计算数据信息特征数据进行调取;数据监测模块(4):包括用于对浮点计算数据信息特征进行监测的监测单元,所述监测单元对浮点计算数据信息特征进行监测,所述监测单元中设定有阈值,通过对比浮点计算数据信息特征与阈值,判断浮点计算数据信息是否出现异常,并将异常浮点计算数据信息传输至服务器数据库中进行存储;数据恢复模块(5):包括用于获取目标浮点计算数据信息数据集的第一统计单元以及用于获取被调取浮点计算数据信息数据集的第二统计单元,所述第一统计单元与所述浮点寄存器相连接,所述第二统计单元与所述队列管理器相连接,通过所述第一统计单元中的目标浮点计算数据信息数据集与第二统计单元中的被调取浮点计算数据信息数据集进行对比,获得遗漏信息数据,设置传输单元,将遗漏信息数据插入其对应所在的队列的主信元中。2.根据权利要求1所述的一种浮点计算性能监测装置,其特征在于:还包括数据分析模块(6),所述数据分析模块(6)用于对浮点计算数据信息进行分析处理,并将经过处理后的数据通过接口传输至特征提取模块(2)。3.根据权利要求2所述的一种浮点计算性能监测装置,其特征在于:所述浮点计算数据信息特征包括浮点计算数据信息的符号位、指数位、尾数位以及浮点计算时长,所述数据队列有多组,多组所述数据队列根据浮点计算数据的符号位对其指数位进行分组存储,使其放入对应的主信元中,且每组所述数据队列中均设定有两个子数据队列,每个所述子数据队列中均设有多个顺序排列的子信元,对所述浮点计算数据信息的尾数位以及浮点计算时间进行分类存储,每个所述子信元与其对应的主信元间均建立关联。4.根据权利要求3所述的一种浮点计算性能监测装置,其特征在于:所述监测单元中设有标记部分以及比较部分,所述标记部分用于对每个所述数据队列进行标记,并建立与浮点计算数据信息特征相对应的四个子索引号,且四个所述子索引号中相邻两个之间均设有相关性,所述比较部分用于判断浮点计算时长是否大于阈值。5.根据权利要求4所述的一种浮点计算性能监测装置,其特征在于:针对多个所述数据队列建立与其对应的二级索引号,每个所述浮点计算数据信息特征的四个子索引号均与其所在数据队列的二级索引号相关联,所述数据恢复模块(5)中设有位图,所述位图中包括多个位图单元,且每个所述位图单元具有唯一的一级索引号,每个所述一级索引号与二级索引号相关联,所述遗漏信息数据存储在对应的位图单元中。
6.根据权利要求1或5所述的一种浮点计算性能监测装置,其特征在于:所述数据恢复模块(5)还包括对比单元以及计算单元...

【专利技术属性】
技术研发人员:甘润东龙玉江卫薇王策卢仁猛钟掖王杰峰陈卿袁捷吴忠李洵
申请(专利权)人:贵州电网有限责任公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1