一种基于容器化管理的电力AI训练平台及其训练方法技术

技术编号：26033770 阅读：23 留言：0更新日期：2020-10-23 21:11

本发明专利技术公开的属于人工智能技术领域，具体为一种基于容器化管理的电力AI训练平台及其训练方法，包括硬件资源层、操作系统层、通信层、数据库层、算法层和任务层，所述硬件资源层包含GPU资源池和存储资源池，所述通信层采用RabbitMQ多语言通信，该种基于容器化管理的电力AI训练平台及其训练方法，以容器化技术为基础，通过Web界面访问的方式，实现了电力AI训练平台的定制化，平台可以满足多种业务场景的需求，利用强大的硬件资源配置实现了电力场景下算法的快速训练及应用部署，能够直观显示模型优化过程及性能指标，有效管理算法模型，具备迭代训练触发机制，能够做到快速迭代模型，支撑现场算法的动态更新。

全部详细技术资料下载

【技术实现步骤摘要】
一种基于容器化管理的电力AI训练平台及其训练方法
本专利技术涉及人工智能
，具体为一种基于容器化管理的电力AI训练平台及其训练方法。
技术介绍
近年来，随着计算机技术的进步，机器学习特别是深度学习获得了极大的发展，依然已经成为当前最火热的研究领域，在包括电力行业在内的很多其他领域都得到很大的推广和应用。深度学习的研究需要更大的数据集、更高的计算量，更久的运算时间，这个时候单台的计算机资源（CPU、GPU、内存、磁盘等）和性能很容易陷入瓶颈，无法满足深度学习任务的执行，目前GPU集群的训练方式是当前解决多卡多机AI算法训练的核心技术。以Docker为代表的容器化技术日渐成熟，使用镜像创建一个虚拟化的运行环境，运行环境中包含了所需要的所有依赖，其轻量级，易管理的特点受到了广泛的欢迎，因此使用Docker来部署AI训练平台的相关组件，来组合形成最终的AI训练平台可以减少很多工作，同时对平台的鲁棒性也提供了很大的支撑。本专利技术以容器化技术为基础，通过Web界面访问的方式，实现电力AI训练平台的定制化。目前市面上的AI训练平台，通常只能使用平台内置的模型进行训练与预测，无法让用户自己开发算法，无法支持可定制化的模型训练与预测，不能满足多种业务场景的需求。同时模型的部署应用与平台自带的产品绑定，无法做到灵活使用，另外缺乏对训练模型管理，无法直观显示模型优化过程及性能指标以及缺乏迭代训练触发机制，因此难以做到快速迭代模型，支撑现场算法的动态更新。
技术实现思路
本专利技术的目的在...

【技术保护点】
1.一种基于容器化管理的电力AI训练平台，其特征在于：包括硬件资源层、操作系统层、通信层、数据库层、算法层和任务层，所述硬件资源层包含GPU资源池和存储资源池，所述通信层采用RabbitMQ多语言通信，所述数据库层依据训练平台算法层和任务层设计了相应的数据库表结构及其关联关系，所述算法层基于Tensorflow、Pytorch、Caffe等深度学习框架，预置多种算法模型镜像文件，所述任务层包括图像分类、目标检测和图像分割三个深度学习领域，所述数据库层具备数据集管理及数据标定功能，具备上传下载功能，支持数据增强方式选择以及多增强方式图片对比显示。/n

【技术特征摘要】
1.一种基于容器化管理的电力AI训练平台，其特征在于：包括硬件资源层、操作系统层、通信层、数据库层、算法层和任务层，所述硬件资源层包含GPU资源池和存储资源池，所述通信层采用RabbitMQ多语言通信，所述数据库层依据训练平台算法层和任务层设计了相应的数据库表结构及其关联关系，所述算法层基于Tensorflow、Pytorch、Caffe等深度学习框架，预置多种算法模型镜像文件，所述任务层包括图像分类、目标检测和图像分割三个深度学习领域，所述数据库层具备数据集管理及数据标定功能，具备上传下载功能，支持数据增强方式选择以及多增强方式图片对比显示。

2.一种如权利要求1所述的基于容器化管理的电力AI训练平台的训练方法，其特征在于：该基于容器化管理的电力AI训练平台的训练方法包括如下步骤：
S1：创建项目，选择训练数据集，选择内置算法模型；
S2：算法训练，选择需要训练的数据集标签，GPU个数，上传算法配置文件，启动训练脚本；
S3：状态监控，对训练过程进行监控，展示当前训练批次及Loss曲线；
S4：训练完成，保存最...

【专利技术属性】
技术研发人员：张可，茆骥，黄文礼，康伟东，杨建旭，童旸，王柳，汪金礼，
申请(专利权)人：安徽南瑞继远电网技术有限公司，
类型：发明
国别省市：安徽;34

全部详细技术资料下载我是这个专利的主人