通过强化学习模型对业务预测模型进行压缩的方法和装置制造方法及图纸

技术编号：24686723 阅读：117 留言：0更新日期：2020-06-27 08:52

本说明书实施例提供一种通过强化学习模型对业务模型进行压缩的方法和装置。方法包括，首先获取通过神经网络实现的业务模型，其包含N个网络层。依次将各个网络层作为当前层进行剪枝操作，该操作包括，基于当前层的层特征确定环境状态，将环境状态输入强化学习模型，得到针对当前层的剪枝决策，据此进行剪枝；并在样本队列中添加当前层的剪枝记录，该记录包括环境状态和剪枝决策。然后，将验证数据集输入N个网络层均进行剪枝后的压缩模型，得到性能评估结果。根据该性能评估结果确定奖励分数，将奖励分数分别添加到N条剪枝记录中，形成N条训练样本。然后，根据样本队列中的训练样本，更新强化学习模型。

The method and device of business prediction model compression by reinforcement learning model

全部详细技术资料下载

【技术实现步骤摘要】
通过强化学习模型对业务预测模型进行压缩的方法和装置
本说明书一个或多个实施例涉及机器学习领域，尤其涉及模型压缩和强化学习领域。
技术介绍
深度学习使得很多业务可以通过机器学习模型来执行，例如，图像识别，基于音频的语音识别，自然语言处理，以及对很多业务对象（例如用户，商户等）的业务预测（例如用户分类）。为了提高模型执行性能，模型的规模变得越来越大。复杂的模型固然具有更好的性能，但是高额的存储空间，计算资源消耗是其难以有效地应用在各硬件平台在上的重要原因。例如，用于图像处理的卷积神经网络VGG-16，参数数量达到1亿3千多万，占用500MB空间，需要进行309亿次浮点运算才能完成一次图像识别任务。如此巨大的参数量和运算量，使得一般的平台难以执行这样的模型运算。为了解决这些问题，许多业界研究人员开始研究模型压缩方法，以最大限度的减小模型对于计算空间和时间的消耗。研究发现，在许多深度的神经网络中存在显著的冗余。例如，对于一些神经网络来说，实际上仅仅使用很少一部分（5%）权值就足以预测剩余的权值。也就是说，仅仅训练一小部分原来...

【技术保护点】
1.一种通过强化学习模型对业务预测模型进行压缩的方法，包括：/n获取经训练后的业务预测模型，所述业务预测模型通过神经网络实现，该神经网络包括N个网络层；/n对于所述N个网络层，从输入层开始，依次将各个网络层作为当前层进行剪枝操作，其中所述剪枝操作包括：基于所述当前层的层特征确定环境状态，将环境状态输入所述强化学习模型，得到针对当前层的剪枝决策，根据该剪枝决策对当前层进行剪枝，并在样本队列中添加针对当前层的剪枝记录，所述剪枝记录包括环境状态和剪枝决策；/n将所述N个网络层均进行剪枝后的业务预测模型作为压缩模型，将验证数据集输入所述压缩模型，得到该压缩模型的性能评估结果；/n根据所述性能评估结果确...

【技术特征摘要】
1.一种通过强化学习模型对业务预测模型进行压缩的方法，包括：
获取经训练后的业务预测模型，所述业务预测模型通过神经网络实现，该神经网络包括N个网络层；
对于所述N个网络层，从输入层开始，依次将各个网络层作为当前层进行剪枝操作，其中所述剪枝操作包括：基于所述当前层的层特征确定环境状态，将环境状态输入所述强化学习模型，得到针对当前层的剪枝决策，根据该剪枝决策对当前层进行剪枝，并在样本队列中添加针对当前层的剪枝记录，所述剪枝记录包括环境状态和剪枝决策；
将所述N个网络层均进行剪枝后的业务预测模型作为压缩模型，将验证数据集输入所述压缩模型，得到该压缩模型的性能评估结果；
根据所述性能评估结果确定奖励分数，将所述奖励分数分别添加到所述样本队列中最近的N条剪枝记录中，使其形成N条训练样本；
根据所述样本队列中至少一部分训练样本，更新所述强化学习模型。

2.根据权利要求1所述的方法，其中，所述当前层的层特征包括，该当前层在所述神经网络中的位置，该当前层的神经元数目，各个神经元对应的权值参数。

3.根据权利要求2所述的方法，其中，所述神经网络为卷积神经网络，所述当前层的层特征还包括，当前层的卷积核特征。

4.根据权利要求1所述的方法，其中，所述剪枝决策包括，针对当前层的剪枝比例；
根据该剪枝决策对当前层进行剪枝，包括：
从当前层中，修剪掉符合所述剪枝比例的神经元和/或权值参数。

5.根据权利要求1所述的方法，其中，所述剪枝决策包括，针对当前层中各个神经元和/或各个神经元的权重参数的取舍标识；
根据该剪枝决策对当前层进行剪枝，包括：
对于当前层中各个神经元和/或各个神经元的权重参数，根据对应的所述取舍标识予以保留或删除。

6.根据权利要求1所述的方法，其中，所述强化学习模型包括，动作价值Q网络和策略网络；
将环境状态输入所述强化学习模型，得到针对当前层的剪枝决策，包括：
将环境状态输入所述Q网络，所述Q网络确定在所述环境状态下备选动作空间中各个备选剪枝动作各自对应的估计Q值；
所述策略网络根据各个备选剪枝动作的估计Q值，从所述备选动作空间中选择一个动作作为针对当前层的剪枝决策。

7.根据权利要求6所述的方法，其中，从所述备选动作空间中选择一个动作作为针对当前层的剪枝决策，具体包括：
以第一概率，从所述备选动作空间中选择估计Q值最大的动作作为所述剪枝决策；以第二概率，从所述备选动作空间中随机选择一个动作作为所述剪枝决策，其中，第一概率与第二概率之和为1，且第一概率大于第二概率。

8.根据权利要求6所述的方法，其中，根据所述样本队列中至少一部分训练样本，更新所述强化学习模型，包括：
根据所述至少一部分训练样本，计算在所述各个网络层对应的环境状态下所述剪枝决策的实际Q值；
以减小所述估计Q值和实际Q值之间的差距为目标，更新所述Q网络；
以使得Q值期望值最大化为目标，更新所述策略网络。

9.根据权利要求1所述的方法，其中，所述强化学习模型包括实施网络和评论网络；
将环境状态输入所述强化学习模型，得到针对当前层的剪枝决策，包括：
将环境状态输入所述实施网络，所述实施网络输出在所述环境状态下选择的所述剪枝决策；
所述评论网络针对所述实施网络在所述环境状态下做出的所述剪枝决策，进行打分。

10.根据权利要求9所述的方法，其中，根据所述样本队列中至少一部分训练样本，更新所述强化学习模型，包括：
根据所述至少一部分训练样本，计算在所述各个网络层对应的环境状态下所述剪枝决策的环境反馈分数；
以使得所述打分接近于所述环境反馈分数为目标，更新所述评论网络；
以使得所述评论网络的打分增大为目标，更新所述实施网络。

11.根据权利要求1所述的方法，其中，在得到该压缩模型的性能评估结果之后，还包括：
根据所述性能评估结果判断是否达到预设结束条件；
在达到预设结束条件时，将此时得到的压缩模型作为最终经压缩的业务预测模型。

12.根据权利要求1所述的方法，其中，所述业务预测模型用于对业务样本进行业务预测，所述业务样本包括以下之一：图片样本，音频样本，文本样本，业务对象样本，其中所述业务对象样本包括以下之一：用户，商户，商品，事件。

【专利技术属性】
技术研发人员：杨新星，李龙飞，周俊，
申请(专利权)人：支付宝杭州信息技术有限公司，
类型：发明
国别省市：浙江;33

全部详细技术资料下载我是这个专利的主人