一种神经网络模型训练方法和装置制造方法及图纸

技术编号：26173086 阅读：36 留言：0更新日期：2020-10-31 13:54

本发明专利技术公开了一种神经网络模型训练方法和装置，方法包括：将训练使用的数据集上传到集中存储设备并提交训练任务；由主机根据训练任务确定具有计算力资源的多个节点，并将训练任务拆分为若干训练任务片段分别调度到多个节点；在每个节点上创建调用计算力资源的多个容器并部署深度学习框架和脚本接口；由每个节点从集中存储设备分别获取对应的训练任务片段的元数据信息，将与训练任务片段对应的数据集分片；依次对每个数据集分片下载到节点的本地缓存、加入本地缓存队列、加载到容器内存、加入容器内存队列、由容器调用计算力资源对深度学习框架执行通过脚本接口导入的脚本。本发明专利技术能够集中管理数据集，减少数据冗余，提升训练速度，减少资源成本。

全部详细技术资料下载

【技术实现步骤摘要】
一种神经网络模型训练方法和装置
本专利技术涉及人工智能领域，更具体地，特别是指一种神经网络模型训练方法和装置。
技术介绍
智能技术与实体经济结合与迭代过程中，算法、算力与数据都处在高高在上的位置，一般企业没有技术能力和成本去获取这些东西。对于大部分企业而言，招聘高级AI专家以及在研发时间上需要投入的成本太高，数据管理困难，数据冗余度高，训练速度慢。因此将复杂的AI技术进行封装，搭建一个零门槛的AI平台，用AI赋能不同的行业就变得非常有意义。针对现有技术中深度学习数据难以管理、高冗余、处理速度慢、成本高的问题，目前尚无有效的解决方案。
技术实现思路
有鉴于此，本专利技术实施例的目的在于提出一种神经网络模型训练方法和装置，能够集中管理数据集，减少数据冗余，提升训练速度，减少资源成本。基于上述目的，本专利技术实施例的第一方面提供了一种神经网络模型训练方法，包括执行以下步骤：将训练使用的数据集上传到集中存储设备，并基于数据集和执行训练使用的脚本提交训练任务；由主机根据训练任务确定具...

【技术保护点】
1.一种神经网络模型训练方法，其特征在于，包括执行以下步骤：/n将训练使用的数据集上传到集中存储设备，并基于所述数据集和执行训练使用的脚本提交训练任务；/n由主机根据所述训练任务确定具有计算力资源的多个节点，并将所述训练任务拆分为若干训练任务片段分别调度到多个所述节点；/n在每个所述节点上创建调用计算力资源的多个容器，并为每个所述容器部署深度学习框架和脚本接口；/n由每个所述节点从所述集中存储设备分别获取对应的所述训练任务片段的元数据信息，并根据所述元数据信息将与所述训练任务片段对应的数据集分片；/n依次对每个所述数据集分片执行以下步骤：下载到所述节点的本地缓存、加入本地缓存队列、加载到容器内...

【技术特征摘要】
1.一种神经网络模型训练方法，其特征在于，包括执行以下步骤：
将训练使用的数据集上传到集中存储设备，并基于所述数据集和执行训练使用的脚本提交训练任务；
由主机根据所述训练任务确定具有计算力资源的多个节点，并将所述训练任务拆分为若干训练任务片段分别调度到多个所述节点；
在每个所述节点上创建调用计算力资源的多个容器，并为每个所述容器部署深度学习框架和脚本接口；
由每个所述节点从所述集中存储设备分别获取对应的所述训练任务片段的元数据信息，并根据所述元数据信息将与所述训练任务片段对应的数据集分片；
依次对每个所述数据集分片执行以下步骤：下载到所述节点的本地缓存、加入本地缓存队列、加载到容器内存、加入容器内存队列、由容器调用计算力资源对所述深度学习框架执行通过所述脚本接口导入的所述脚本，其中，响应于前一个所述数据集分片的后一步骤和后一个所述数据集分片的前一步骤均执行完成而执行后一个所述数据集分片的后一步骤。

2.根据权利要求1所述的方法，其特征在于，由每个所述节点从所述集中存储设备分别获取对应的所述训练任务片段的元数据信息包括：获取对应的所述训练任务片段的数据集总大小、数据集中文件个数、数据集消息摘要；
根据所述元数据信息将与所述训练任务片段对应的数据集分片包括：根据所述数据集总大小和预设的单位分片大小将与所述训练任务片段对应的数据集分片。

3.根据权利要求2所述的方法，其特征在于，依次对每个所述数据集分片执行以下步骤：下载到所述节点的本地缓存、加入本地缓存队列、加载到容器内存、加入容器内存队列、由容器调用计算力资源对所述深度学习框架执行通过所述脚本接口导入的所述脚本包括：
由所述节点的节点代理进程控制所述本地缓存从所述集中存储设备读取所述数据集分片以下载并保存到所述本地缓存中；
由所述节点代理进程控制所述本地缓存将保存到所述本地缓存中的所述数据集分片以文件形式置入本地缓存队列；
由所述容器的环境代理进程通过所述节点代理进程确定所述本地缓存队列中具有所述数据集分片的文件，并控制所述容器内存从本地缓存队列中读取所述数据集分片的文件以加载并保存到所述容器内存中；
由所述环境代理进程控制所述容器内存将保存到所述容器内存中的所述数据集分片以文件形式从所述本地缓存队列移除并置入容器内存队列；
由所述环境代理进程使用预设的脚本数据库作为所述脚本接口以封装的形式导入并执行所述脚本，以使用所述数据集分片训练所述深度学习框架。

4.根据权利要求3所述的方法，其特征在于，使用所述数据集分片训练所述深度学习框架包括：
由所述深度学习框架将所述数据集分片的数据转化成张量，将所述张量发送到计算力资源执行矩阵计算，并使用所述矩阵计算的结果重构所述深度学习框架的参数。

5.根据权利要求3所述的方法，其特征在于，所述集中存储设备、所述本地缓存、和所述容器内存在数据平面上通信；所述节点代理进程和所述环境代理进程在不同于所述数...

【专利技术属性】
技术研发人员：赵仁明，
申请(专利权)人：苏州浪潮智能科技有限公司，
类型：发明
国别省市：江苏;32

全部详细技术资料下载我是这个专利的主人