一种PCIe带宽实时监控系统及其监控方法技术方案

技术编号:31082401 阅读:18 留言:0更新日期:2021-12-01 12:29
本申请公开了一种PCIe带宽实时监控系统及其监控方法,包括:CPU、加速卡和数据处理模块,CPU端设置有发送寄存器、接收寄存器、第一计数器、第二计数器、中断发生器和中断计数器;发送寄存器接收来自缓存的数据,并通过PCIe总线发送给加速卡;接收寄存器接收加速卡发送来的数据,等待CPU进行读取;第一计数器记录发送寄存器的发送次数;第二计数器记录接收寄存器的接收次数;中断发生器在发生溢出事件后,产生中断信号;中断计数器记录中断发生过的次数;数据处理模块根据第一计数器和第二计数器的存储单元数值、设定的采样间隔、中断计数器的数值,获取带宽值。这样可以实现AI计算运行时CPU与加速卡之间的实时带宽监控。时CPU与加速卡之间的实时带宽监控。时CPU与加速卡之间的实时带宽监控。

【技术实现步骤摘要】
一种PCIe带宽实时监控系统及其监控方法


[0001]本专利技术涉及服务器
,特别是涉及一种PCIe带宽实时监控系统及其监控方法。

技术介绍

[0002]近年来人工智能(Artificial Intelligence,简称AI)领域发展特别迅速,对计算力的需求持续增加,由此诞生了专门针对AI计算设计的AI服务器。AI服务器大多采用异构计算系统,由中央处理器(central processing unit,简称CPU)负责操作系统的运行及管理,专用的计算加速卡则负责执行AI计算,CPU和计算加速卡之间通过PCIe(peripheral component interconnect expres)总线进行互联。由于AI计算对CPU和计算加速卡之间的通信带宽要求较高,如果特定机型的服务器PCIe带宽低于实际应用的需求时,就会形成性能瓶颈,从而造成计算效率偏低,浪费计算资源。
[0003]目前,一般通过理论计算而非实时监控来评估CPU与加速卡之间的运行时带宽。具体而言,通过计算AI模型的参数量以及数据量来大致估算,其缺点是,在AI应用实际本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种PCIe带宽实时监控系统,其特征在于,包括:CPU、加速卡和数据处理模块,所述CPU端设置有发送寄存器、接收寄存器、第一计数器、第二计数器、中断发生器和中断计数器;其中,所述发送寄存器,用于接收来自缓存的数据,并通过PCIe总线发送给所述加速卡;所述接收寄存器,用于接收所述加速卡发送来的数据,等待所述CPU进行读取;所述第一计数器,用于记录所述发送寄存器的发送次数;所述第二计数器,用于记录所述接收寄存器的接收次数;所述中断发生器,用于在发生所述第一计数器或所述第二计数器溢出事件后,产生中断信号;所述中断计数器,用于周期性记录中断发生过的次数;所述数据处理模块,用于根据所述第一计数器和所述第二计数器的存储单元中的数值、设定的采样间隔、记录的所述中断计数器的数值,获取带宽值。2.根据权利要求1所述的PCIe带宽实时监控系统,其特征在于,所述第一计数器和所述第二计数器均包括自动增加单元和所述存储单元;所述自动增加单元和所述存储单元的位数相等;所述存储单元中的数值,用于与所述自动增加单元的增加次数进行对比。3.根据权利要求2所述的PCIe带宽实时监控系统,其特征在于,在所述第一计数器中,所述自动增加单元中的增加次数和所述存储单元中的数值相等时,发生所述第一计数器溢出事件;在所述第二计数器中,所述自动增加单元中的增加次数和所述存储单元中的数值相等时,发生所述第二计数器溢出事件。4.根据权利要求3所述的PCIe带宽实时监控系统,其特征在于,所述发送寄存器中的内容在所述第一计数器每次计数后自动清零;所述接收寄存器中的内容在所述第二计数器每次计数后自动清零。5.根据权利要求4所述的PCIe带宽实时监控系统,其特征在于,所述中断计数器在每次溢出事件发生后自动增加1,在每次被读取后自动清零。6.根据权利要求5所述的PCIe...

【专利技术属性】
技术研发人员:李磊王月
申请(专利权)人:苏州浪潮智能科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1