一种分布式模型搜索方法及系统技术方案

技术编号：26342470 阅读：37 留言：0更新日期：2020-11-13 20:34

本申请公开了一种分布式模型搜索方法及系统，该方法包括：参数初始化，执行超网络训练并行化，执行控制器训练并行化，判断当前训练是否达到设定的epoch数目，如果达到设定的epoch数目，执行模型评估并行化，否则循环执行超网络训练并行化和控制器训练并行化，直到达到设定的epoch数目，根据模型评估并行化的结果，获取模型评估并行化输出的最高精度；将最高精度对应的子网络结构作为最佳子模型结构。该系统包括：初始化模块、超网络训练模块、控制器训练模块、判断模块、模型评估模块、最高精度获取模块和最佳子模型结构确定模块。通过本申请，能够提高模型搜索效率，还能够在不同的网络中实现分布式并行搜索，有利于提高网络灵活性。

A distributed model search method and system

全部详细技术资料下载

【技术实现步骤摘要】
一种分布式模型搜索方法及系统
本申请涉及神经网络深度学习
，特别是涉及一种分布式模型搜索方法及系统。
技术介绍
随着人工智能技术的发展，深度学习模型已经广泛应用到很多领域中，如图像识别、语音识别以及机器翻译等。在深度学习模型中，如何快速而有效地构建网络模型，构造面向神经网络结构的搜索空间，通过模型搜索，寻找适合于给定任务的模型结构，是个重要的技术问题。目前利用ENAS(EfficientNeuralArchitectureSearch，有效神经网络架构搜索)算法进行模型搜索的方法，该算法采用参数共享原理改进神经结构搜索，进行单卡模型搜索。具体地，如图1所示，是ENAS算法构建的一个超网络，即整个搜索空间。ENAS的超网络是NAS搜索空间中所有可能子模型的叠加，其中节点表征局部计算，边缘表征信息流。每一个节点的局部计算有其自己的参数，这些参数只有当特定计算被激活时才使用。因此在搜索空间中，ENAS的设计允许参数在所有子模型之间共享。然而，由于ENAS算法是在单卡上进行模型搜索，效率较低。经验证ENAS采用单卡NvidiaGT本文档来自技高网...

【技术保护点】
1.一种分布式模型搜索方法，其特征在于，所述方法包括：/n参数初始化，所述参数包括数据库和用户参数；/n执行超网络训练并行化；/n执行控制器训练并行化，所述控制器为设定的RNN网络；/n判断当前训练是否达到设定的epoch数目；/n如果没有达到设定的epoch数目，循环执行超网络训练并行化和控制器训练并行化，直到达到设定的epoch数目；/n如果达到设定的epoch数目，执行模型评估并行化；/n根据模型评估并行化的结果，获取模型评估并行化输出的最高精度；/n将所述最高精度对应的子网络结构作为最佳子模型结构。/n

【技术特征摘要】
1.一种分布式模型搜索方法，其特征在于，所述方法包括：
参数初始化，所述参数包括数据库和用户参数；
执行超网络训练并行化；
执行控制器训练并行化，所述控制器为设定的RNN网络；
判断当前训练是否达到设定的epoch数目；
如果没有达到设定的epoch数目，循环执行超网络训练并行化和控制器训练并行化，直到达到设定的epoch数目；
如果达到设定的epoch数目，执行模型评估并行化；
根据模型评估并行化的结果，获取模型评估并行化输出的最高精度；
将所述最高精度对应的子网络结构作为最佳子模型结构。

2.根据权利要求1所述的一种分布式模型搜索方法，其特征在于，所述参数初始化包括：
读入数据库；
配置用户参数，所述用户参数包括：数据集划分比例、超网络训练参数、控制器训练参数以及用于训练的设定的epoch数目。

3.根据权利要求1所述的一种分布式模型搜索方法，其特征在于，所述执行超网络训练并行化，具体为：采用多个GPU梯度求和的方式进行超网络训练。

4.根据权利要求3所述的一种分布式模型搜索方法，其特征在于，所述采用多个GPU梯度求和的方式进行超网络训练，包括：
每个GPU划分训练集，且不同GPU之间数据不重复，其中，N为并行GPU的数量；
将给定的控制器和超网络在N个GPU上进行分布式封装；
在不同的GPU上控制器采样生成不同的子模型结构；
将所述子模型结构和训练数据输入至超网络中进行并行计算，获取N个loss值，任一loss值与一个GPU相匹配；
任一GPU根据其所匹配的loss值计算超网络梯度；
利用所述超网络梯度，在各GPU之间根据All-Reduce算法计算得出每个GPU的梯度和；
判断任一GPU的输入数据是否为空；
如果否，重新在不同的GPU上控制器采样生成不同的子模型结构，并将所述子模型结构和训练数据输入至超网络中进行并行计算，直到所述任一GPU的输入数据为空。

5.根据权利要求1所述的一种分布式模型搜索方法，其特征在于，所述执行控制器训练并行化，具体为：采用多个GPU梯度求平均的方式进行控制器训练。

6.根据权利要求5所述的一种分布式模型搜索方法，其特征在于，所述采用多个GPU梯度求平均的方式进行控制器训练，包括：
每个GPU划分验证集，且不同GPU之间数据不重复，其中，N为并行GPU的数量；
将给定的控制器和超网络在N个GPU上进行分布式封装；
在不同的GPU上控制器采样生成不同的子模型结构；
将所述子模型结构和验证数据输入至超网络中进行并行计算，获取N个验证集精度值；
根据所述验证集精度值和logit，计算得出N个loss值，任一loss值与一个GPU相匹配；
任一GPU根据其所匹配的loss值计算控制器梯度；
利用所述控制器梯度，在各GPU之间根据All-Reduce算法，计算得出每个GPU的梯度平均值；
判断任一GPU的输入数据是否为空；
如果否，重新在不同的GPU上控制器采样生成不同的子模型结构，并将所述子模型结构和验证数据输入至超网络中进行并行计算，直到所述任一GPU的输入数据为空。

7.根据权利要求4或6所述的一种分布...

【专利技术属性】
技术研发人员：刘红丽，李峰，
申请(专利权)人：苏州浪潮智能科技有限公司，
类型：发明
国别省市：江苏;32

全部详细技术资料下载我是这个专利的主人