【技术实现步骤摘要】
基于能量和算力的自适应深度学习系统及方法
[0001]本专利技术涉及人工智能
,尤其涉及一种基于能量和算力的自适应深度学习系统及方法。
技术介绍
[0002]随着人工智能技术迅猛发展,人工智能模型运行的硬件环境日益多样化,从包含27648个英伟达的V100GPU超级计算机Summit到功耗仅20毫瓦的Perceive Ergo边缘计算芯片,能耗相差6.5亿倍,算力更是差距更是超过千万亿倍。
[0003]目前业界深度学习的基础平台有以下两类问题:
[0004]1)无法根据硬件的能量状况自动调整模型的运行。如移动设备上运行,当设备电池电量低时,系统不能自动调整模型来保证服务质量可以接受的前提下降低功耗,可持续的提供服务。
[0005]2)不能根据硬件的算力差异自动调整模型的运行。如在云计算环境下,不同用户申请的计算资源相差非常大,但是运行相同的深度学习服务,目前的系统不能方便的根据算力调整模型来达到最佳的用户体验。
技术实现思路
[0006]本专利技术的技术问题是提供一种基于能量和算 ...
【技术保护点】
【技术特征摘要】
1.基于能量和算力的自适应深度学习系统,其特征在于,包括:模型运行平台、运行监控模块、策略库和中央控制模块;所述模型运行平台包括上层接口和下层接口;所述模型运行平台通过所述上层接口连接所述运行监控模块;所述模型运行平台通过所述下层接口连接硬件设备;所述模型运行平台上部署有若干模型,所述模型运行平台运行于硬件设备上;所述运行监控模块,用于监测所述模型在硬件设备上的运行状态参数和硬件设备的运行能力指标参数,并上传给所述中央控制模块;所述策略库,用于提供系统自带的运行策略,及用于用户上传自定义运行策略;所述中央控制模块,用于根据硬件设备的运行能力指标参数和模型运行状态参数,在所述策略库查找运行策略,控制所述模型运行平台调整或切换硬件设备上运行的模型。2.如权利要求1所述的基于能量和算力的自适应深度学习系统,其特征在于,所述运行监控模块包括第一监控单元和第二监控单元;所述第一监控单元,用于在硬件设备运行模型前检测硬件设备的能耗与算力,并持续在硬件设备运行模型的过程中检测硬件设备的能耗和硬件设备处理器的利用率;所述第二监控单元,用于在硬件设备运行模型时检测模型的延时和吞吐量。3.如权利要求2所述的基于能量和算力的自适应深度学习系统,其特征在于,所述中央控制模块包括数据处理单元和主控单元;所述数据处理单元,响应于所述第一监控单元获取硬件设备的能耗、算力和处理器利用率,所述第二监控单元获取模型延时和吞吐量,判断硬件设备的能耗与预设的能耗阈值的大小、硬件设备的算力与预设的算力阈值的大小、处理器利用率与利用率阈值的大小、模型延时与延时阈值的大小、模型吞吐量和吞吐量阈值的大小,评估模型运行存在的问题;生成评估结果;所述模型运行存在的问题包括:硬件设备算力不足、硬件能量不足、硬件设备的处理器利用率低、模型运行延时长和模型吞吐量小;所述主控单元,用于在所述策略库检索与评估结果相匹配的运行策略,并向所述模型运行...
【专利技术属性】
技术研发人员:袁静丰,
申请(专利权)人:深存科技无锡有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。