模型发布方法、装置、设备及存储介质制造方法及图纸

技术编号：26170200 阅读：24 留言：0更新日期：2020-10-31 13:36

本申请公开了提供的模型发布方法，该方法提出了一种本地+分布式存储的模型发布方案，将一个完整的且空间较大的深度学习模型切分为稠密部分以及稀疏部分，将占用空间大的稀疏部分部署在分布式集群，占用空间小的稠密部分部署在本地计算集群，模型分散部分分散拉取，减少了模型对于内存的占用，这样在加载模型时，就缓解了本地计算集群的内存压力，也极大的减少了计算节点内存消耗。本申请还提供了一种模型发布装置、设备及一种可读存储介质，具有上述有益效果。

全部详细技术资料下载

【技术实现步骤摘要】
模型发布方法、装置、设备及存储介质
本申请涉及系统通信
，特别涉及一种模型发布方法、装置、设备及一种可读存储介质。
技术介绍
随着人工智能应用场景(例如语音、语义、图像、视频、搜索、网络等)的增多，深度学习模型的应用也越来越广泛。目前在深度学习模型发布时常用的模型发布方式为：将完整的深度学习模型部署到本地节点上，然后通过特定的通信协议，例如http协议，进行模型调用。但是该种模型发布方法对于规模较大的深度学习模型，如应用于推荐系统的模型，占用空间甚至可达上百G，此时，若直接将模型加载到本地节点的内存消耗极大，甚至出现存储资源严重不足的情况。例如，一台服务器的内存为256G,深度学习模型规模为200G，此时上述模型部署方式，加载过程的内存消耗很大，但是同时可能CPU和GPU的消耗并没有这么大，因此会造成了严重的CPU和GPU计算资源的浪费，内存资源成为限制算力的瓶颈；而且该服务器只能部署一个模型实例，训练效率很低。而且随着深度学习网络的发展，被应用于越来越多的领域，比如推荐系统中的自然语言处理，同时数据量...

【技术保护点】
1.一种模型发布方法，其特征在于，应用于深度学习推理平台，该方法包括：/n模型管理模块接收到深度学习训练平台发送的模型存储通知后，确定存储于存储系统中的深度学习模型；/n将所述深度学习模型中各文件根据内存占用大小划分为稠密部分和稀疏部分；其中，所述稠密部分的内存占用少，所述稀疏部分的内存占用多；/n当接收到模型发布指令后，将所述稠密部分部署在本地，并将所述稀疏部分部署于分布式存储中。/n

【技术特征摘要】
1.一种模型发布方法，其特征在于，应用于深度学习推理平台，该方法包括：
模型管理模块接收到深度学习训练平台发送的模型存储通知后，确定存储于存储系统中的深度学习模型；
将所述深度学习模型中各文件根据内存占用大小划分为稠密部分和稀疏部分；其中，所述稠密部分的内存占用少，所述稀疏部分的内存占用多；
当接收到模型发布指令后，将所述稠密部分部署在本地，并将所述稀疏部分部署于分布式存储中。

2.如权利要求1所述的模型发布方法，其特征在于，将所述深度学习模型中各文件根据内存占用大小划分为稠密部分和稀疏部分，包括：
解析所述深度学习模型的文件列表，并确定所述文件列表中各文件大小；
将所述文件列表中各文件根据所述文件大小划分为稠密部分和稀疏部分。

3.如权利要求1所述的模型发布方法，其特征在于，当接收到模型发布指令后，将所述稠密部分部署在本地，并将所述稀疏部分部署于分布式存储中，包括：
当接收到模型发布指令后，创建基于docker容器运行的服务；
调用所述服务将所述稠密部分部署在本地，并将所述稀疏部分部署于分布式存储中。

4.如权利要求1所述的模型发布方法，其特征在于，在将所述稠密部分部署在本地，并将所述稀疏部分部署于分布式存储中之后，还包括：
接收到待处理数据后，将所述待处理数据进行预处理，得到待输入数据；
将所述待输入数据输入至所述分布式存储中，调用所述稀疏部分进行数据处理，生成中间特征量；
将所述中间特征量输入至所述本地，调用所述稠密部分进行计算，得到输出结果。

5.如权利要求4所述的模型发布方法，其特征在于，在将所述中间特征量输入至所述本地之前，还包括：

【专利技术属性】
技术研发人员：郑玉会，
申请(专利权)人：苏州浪潮智能科技有限公司，
类型：发明
国别省市：江苏;32

全部详细技术资料下载我是这个专利的主人