动态优化Caffe的性能的方法、系统、设备及介质技术方案

技术编号:24352860 阅读:57 留言:0更新日期:2020-06-03 01:57
本发明专利技术公开了一种动态优化Caffe的性能的方法、系统、设备和存储介质,方法包括以下步骤:每隔第一预定时间获取CPU和GPU的利用率和温度,并根据CPU和GPU的温度判断是否满足散热要求;响应于满足散热要求,判断CPU的利用率是否小于或等于利用率阈值;响应于CPU的利用率小于或等于利用率阈值,计算第二预定时间内的GPU利用率的变异系数,并基于变异系数判断是否存在性能瓶颈;以及响应于存在性能瓶颈,增大批量大小和数据传输线程数。本发明专利技术提出的动态优化Caffe的性能的方法、系统、设备及介质通过监控系统资源运行情况,发现并消除瓶颈,保证运行在GPU上的caffe性能达到最佳状态。

Methods, systems, equipment and media for dynamic optimization of Caffe performance

【技术实现步骤摘要】
动态优化Caffe的性能的方法、系统、设备及介质
本专利技术涉及服务器领域,更具体地,特别是指一种动态优化Caffe的性能的方法、系统、计算机设备及可读介质。
技术介绍
近年来,AI(ArtificialIntelligence,人工智能)技术在图像识别、自然语言处理、推荐系统等领域取得了巨大突破,为商业领域落地提供了无限可能。AI模型首先需要进行大量的数据训练,才能够达到较高的精度,从而在实际生产中发挥作用。AI技术的突破,除了算法本身之外,最重要的原因是计算力的快速增长,GPU加速卡起到了至关重要的作用。Caffe可以运行在CPU或者GPU之上,在模型训练阶段,GPU是当前性能最强大的计算部件,但GPU发挥最大的计算性能,仍需要CPU、内存系统、PCIE系统、散热系统以及其它IO系统的配合。现有技术仅仅只关注于GPU利用率。但是,caffe性能优化并不仅是优化GPU即可,还需要动态监控CPU、内存系统、PCIE系统、散热系统以及IO系统,找出性能瓶颈,进而提出行之有效的优化方案。
技术实现思路
有鉴于此,本专利技术实施例的目的在于提出一种动态优化Caffe的性能的方法、系统、计算机设备及计算机可读存储介质,通过监控系统资源运行情况,发现并消除瓶颈,保证运行在GPU上的caffe性能达到最佳状态。基于上述目的,本专利技术实施例的一方面提供了一种动态优化Caffe的性能的方法,包括如下步骤:每隔第一预定时间获取CPU和GPU的利用率和温度,并根据所述CPU和GPU的温度判断是否满足散热要求;响应于满足散热要求,判断所述CPU的利用率是否小于或等于利用率阈值;响应于所述CPU的利用率小于或等于所述利用率阈值,计算第二预定时间内的GPU利用率的变异系数,并基于所述变异系数判断是否存在性能瓶颈;以及响应于存在性能瓶颈,增大批量大小和数据传输线程数。在一些实施方式中,所述根据所述CPU和GPU的温度判断是否满足散热要求包括:判断所述CPU的温度是否小于第一温度阈值;以及判断所述GPU的温度是否小于第二温度阈值。在一些实施方式中,还包括:响应于不满足散热要求,根据所述CPU和GPU的温度调整风扇的占空比。在一些实施方式中,还包括:响应于所述CPU的利用率大于所述利用率阈值,判断所述CPU的利用率是否小于或等于第二利用率阈值;以及响应于所述CPU的利用率小于或等于第二利用率阈值,提高所述CPU的运行频率。在一些实施方式中,还包括:获取并基于磁盘输入输出速率、内存和训练数据集的大小判断训练数据集是否已经缓存到内存中。在一些实施方式中,所述判断训练数据集是否已经缓存到内存中包括:判断磁盘输入输出速率是否小于输入输出速率阈值;以及响应于磁盘输入输出速率小于输入输出速率阈值,判断内存中缓存的大小是否停止增长并大于训练数据集的大小。本专利技术实施例的另一方面,还提供了一种动态优化Caffe的性能的系统,包括:采样模块,配置用于每隔第一预定时间获取CPU和GPU的利用率和温度,并根据所述CPU和GPU的温度判断是否满足散热要求;判断模块,配置用于响应于满足散热要求,判断所述CPU的利用率是否小于或等于利用率阈值;分析模块,配置用于响应于所述CPU的利用率小于或等于所述利用率阈值,计算第二预定时间内的GPU利用率的变异系数,并基于所述变异系数判断是否存在性能瓶颈;以及处理模块,配置用于响应于存在性能瓶颈,增大批量大小和数据传输线程数。在一些实施方式中,所述采样模块还配置用于:判断所述CPU的温度是否小于第一温度阈值;以及判断所述GPU的温度是否小于第二温度阈值。本专利技术实施例的又一方面,还提供了一种计算机设备,包括:至少一个处理器;以及存储器,所述存储器存储有可在所述处理器上运行的计算机指令,所述指令由所述处理器执行时实现如上方法的步骤。本专利技术实施例的再一方面,还提供了一种计算机可读存储介质,计算机可读存储介质存储有被处理器执行时实现如上方法步骤的计算机程序。本专利技术具有以下有益技术效果:通过监控系统资源运行情况,发现并消除瓶颈,保证运行在GPU上的caffe性能达到最佳状态。附图说明为了更清楚地说明本专利技术实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本专利技术的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的实施例。图1为本专利技术提供的动态优化Caffe的性能的方法的实施例的示意图;图2为本专利技术提供的动态优化Caffe的性能的方法的实施例的硬件结构示意图。具体实施方式为使本专利技术的目的、技术方案和优点更加清楚明白,以下结合具体实施例,并参照附图,对本专利技术实施例进一步详细说明。需要说明的是,本专利技术实施例中所有使用“第一”和“第二”的表述均是为了区分两个相同名称非相同的实体或者非相同的参量,可见“第一”“第二”仅为了表述的方便,不应理解为对本专利技术实施例的限定,后续实施例对此不再一一说明。基于上述目的,本专利技术实施例的第一个方面,提出了一种动态优化Caffe的性能的方法的实施例。图1示出的是本专利技术提供的动态优化Caffe的性能的方法的实施例的示意图。如图1所示,本专利技术实施例包括如下步骤:S1、每隔第一预定时间获取CPU和GPU的利用率和温度,并根据CPU和GPU的温度判断是否满足散热要求;S2、响应于满足散热要求,判断CPU的利用率是否小于或等于利用率阈值;S3、响应于CPU的利用率小于或等于利用率阈值,计算第二预定时间内的GPU利用率的变异系数,并基于变异系数判断是否存在性能瓶颈;以及S4、响应于存在性能瓶颈,增大批量大小和数据传输线程数。Caffe(ConvolutionalArchitectureforFastFeatureEmbedding,快速特征嵌入的卷积架构)是一种开源软件框架,内部提供了一套基本的编程框架,或者说一个模板框架,用以实现GPU并行架构下的深度卷积神经网络深度学习等算法,我们可以按照框架定义各种各样的卷积神经网络的结构,并且可以再此框架下增加自己的代码,设计新的算法。目前,生产环境中部署的Caffe,用于推理作业,如人脸识别,基因信息提取,图像处理等。每隔第一预定时间获取CPU和GPU的利用率和温度,并根据所述CPU和GPU的温度判断是否满足散热要求。运行Caffe程序,启动模型训练作业。对系统进行监控,获取CPU核心的利用率以及运行频率,监控CPU的温度;获取内存使用状况,获取cache(缓存)的使用情况;获取磁盘IO(输入输出),获取磁盘数据读入内存的进程;获取内存带宽;获取GPU利用率和温度;进一步地,采样时间间隔不超过1s,采样数据将以excel表格数据进行存档,便于后续分析。在一些实施方式中,所述根据所述CPU和GPU的温度判断是否满足散热要求包括:判断所述CPU的温度是否小于第一温度阈值;以及判断本文档来自技高网...

【技术保护点】
1.一种动态优化Caffe的性能的方法,其特征在于,包括以下步骤:/n每隔第一预定时间获取CPU和GPU的利用率和温度,并根据所述CPU和GPU的温度判断是否满足散热要求;/n响应于满足散热要求,判断所述CPU的利用率是否小于或等于利用率阈值;/n响应于所述CPU的利用率小于或等于所述利用率阈值,计算第二预定时间内的GPU利用率的变异系数,并基于所述变异系数判断是否存在性能瓶颈;以及/n响应于存在性能瓶颈,增大批量大小和数据传输线程数。/n

【技术特征摘要】
1.一种动态优化Caffe的性能的方法,其特征在于,包括以下步骤:
每隔第一预定时间获取CPU和GPU的利用率和温度,并根据所述CPU和GPU的温度判断是否满足散热要求;
响应于满足散热要求,判断所述CPU的利用率是否小于或等于利用率阈值;
响应于所述CPU的利用率小于或等于所述利用率阈值,计算第二预定时间内的GPU利用率的变异系数,并基于所述变异系数判断是否存在性能瓶颈;以及
响应于存在性能瓶颈,增大批量大小和数据传输线程数。


2.根据权利要求1所述的方法,其特征在于,所述根据所述CPU和GPU的温度判断是否满足散热要求包括:
判断所述CPU的温度是否小于第一温度阈值;以及
判断所述GPU的温度是否小于第二温度阈值。


3.根据权利要求1所述的方法,其特征在于,还包括:
响应于不满足散热要求,根据所述CPU和GPU的温度调整风扇的占空比。


4.根据权利要求1所述的方法,其特征在于,还包括:
响应于所述CPU的利用率大于所述利用率阈值,判断所述CPU的利用率是否小于或等于第二利用率阈值;以及
响应于所述CPU的利用率小于或等于第二利用率阈值,提高所述CPU的运行频率。


5.根据权利要求1所述的方法,其特征在于,还包括:
获取并基于磁盘输入输出速率、内存和训练数据集的大小判断训练数据集是否已经缓存到内存中。


6.根据权利要求5所述的方法,其特征在于,所述判...

【专利技术属性】
技术研发人员:李磊
申请(专利权)人:苏州浪潮智能科技有限公司
类型:发明
国别省市:江苏;32

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1