非暂态计算机可读记录介质、学习方法和信息处理设备技术

技术编号:31609769 阅读:21 留言:0更新日期:2021-12-29 18:37
提供了非暂态计算机可读记录介质、学习方法和信息处理设备。处理包括开始用于构建包括多个层的模型的学习处理,所述多个层中的每个层均包括参数。学习处理执行迭代,每个迭代包括使用训练数据计算模型的输出误差以及基于该输出误差更新参数值。该处理还包括基于学习处理的第一迭代的结果,选择两个或更多个候选层,所述两个或更多个候选层表示更新要被抑制的层的候选。该处理还包括基于直至第一迭代为止所执行的迭代的次数计算在所执行的迭代的次数较大时变得较大的比率值,以及在候选层之中确定更新要在第一迭代之后的第二迭代处被抑制的一个或更多个层。所述一个或更多个层的数量是根据比率值而确定的。数量是根据比率值而确定的。数量是根据比率值而确定的。

【技术实现步骤摘要】
非暂态计算机可读记录介质、学习方法和信息处理设备


[0001]本文中论述的实施方式涉及学习方法和信息处理设备。

技术介绍

[0002]有时采用机器学习作为使用信息处理设备的数据分析技术。在机器学习中,收集指示一些已知实例的训练数据。信息处理设备分析训练数据,从而构建归纳原因(有时称为一个或多个说明变量或自变量)与效果(有时称为目标变量或因变量)之间的关系的模型。信息处理设备使用所构建的模型来预测未知实例的结果。例如,构建用于确定在图像中捕获的对象的类别的图像识别模型。
[0003]信息处理设备可以生成包括多个层的模型。例如,机器学习可以是用于生成多层神经网络的深度学习。此时,信息处理设备运行迭代以搜索每个层中所包括的参数的最优值。在每次迭代中,信息处理设备可以通过使用训练数据来评估模型的输出中的误差并基于该误差来更新参数值。例如,误差反向传播(或简称为反向传播)被用于参数优化。
[0004]提出了一种用于自动消除来自机器学习的训练数据中所包括的多个说明变量中的一些说明变量的特征过滤方法。根据所提出的特征过滤,基于在先前迭代中计算的梯度来确定每个说明变量的值的过滤阈值。还提出了一种用于在生成多层神经网络的机器学习中自动删除一些层的学习设备。所提出的学习设备针对多个层中的每个层计算对多层神经网络的输出的贡献度,并且在删除贡献度低的层之后再次执行机器学习。
[0005]国际公开小册子第WO 2017/157183号;以及
[0006]日本公开特许公报第2019

185275号。
[0007]在用于构建包括多个层的模型的机器学习中,参数改进并不总是在所有层上均匀地进行。随着迭代次数的增加,一些层可以在其它层之前达到参数改进的收敛。例如,在多层神经网络中,与更靠近输出层的层相比,在更靠近输入层的层中,参数改进收敛可以发生得更快。
[0008]鉴于以上情况,可以认为采用基于最新迭代的执行结果抑制在随后迭代中的一些层中的参数更新的控制方法是合理的。然而,增量参数改进并不总是随着迭代次数的增加而单调地减小,并且它可能在短期内波动。出于这个原因,在最新迭代的执行结果满足收敛条件的所有层中立即抑制参数更新可能降低要建立的模型的准确度。

技术实现思路

[0009]实施方式的一个方面是在机器学习期间停止对模型中包括的一些层的参数更新的情况下减少准确度损失。
[0010]根据一个方面,提供一种非暂态计算机可读记录介质,在该非暂态计算机可读记录介质中存储有使计算机执行处理的计算机程序,该处理包括:开始用于构建包括多个层的模型的学习处理,多个层中的每个层均包括参数,该学习处理执行迭代,迭代中的每个迭代包括使用训练数据来计算模型的输出误差以及基于该输出误差更新多个层中的每个层
的参数的值;基于学习处理的第一迭代的执行结果,在多个层之中选择两个或更多个候选层,所述两个或更多个候选层表示下述层的候选,在所述层中的每个层中对参数的值的更新要被抑制;以及基于直至第一迭代为止所执行的迭代的次数来计算随所执行的迭代的次数的增加而增加的比率值并且在两个或更多个候选层之中确定一个或更多个层,在一个或更多个层中的每个层中,对参数的值的更新要在第一迭代之后的第二迭代被抑制,一个或更多个层的数量是根据比率值而确定的。
附图说明
[0011]图1示出了根据第一实施方式的信息处理器;
[0012]图2是示出根据第二实施方式的信息处理器的示例性硬件的框图;
[0013]图3示出了多层神经网络的示例性结构;
[0014]图4示出了机器学习的示例性学习阶段;
[0015]图5是示出机器学习中的预测准确度和误差梯度的示例性变化的曲线图;
[0016]图6示出了在多个层上的误差梯度的示例性变化;
[0017]图7示出了跳过一些层的参数更新的第一示例;
[0018]图8是示出误差梯度差的示例性计算的曲线图;
[0019]图9是表示跳过层采用率的示例性函数的曲线图;
[0020]图10示出了跳过一些层的参数更新的第二示例;
[0021]图11是示出信息处理器的示例性功能的框图;
[0022]图12示出了示例性误差梯度表;
[0023]图13是示出机器学习的示例性过程的流程图;
[0024]图14是示出从图13继续的机器学习的示例性过程的流程图;
[0025]图15是示出从图14继续的机器学习的示例性过程的流程图;
[0026]图16是示出跳过层提取的第一示例性过程的流程图;
[0027]图17是示出跳过层提取的第二示例性过程的流程图;以及
[0028]图18是示出跳过层提取的第三示例性过程的流程图。
具体实施方式
[0029]下面将参照附图描述若干实施方式。
[0030](一)第一实施方式
[0031]下文描述第一实施方式。
[0032]图1示出了根据第一实施方式的信息处理器。
[0033]信息处理器10通过机器学习使用训练数据来构建包括多个层的模型。信息处理器10可以是客户端设备或服务器设备。信息处理器10可以被称为例如计算机或机器学习设备。
[0034]信息处理器10包括存储单元11和处理单元12。存储单元11可以是易失性半导体存储器例如随机存取存储器(RAM),或者非易失性存储设备例如硬盘驱动器(HDD)或闪存。处理单元12例如是处理器,例如中央处理单元(CPU)、图形处理单元(GPU)或数字信号处理器(DSP)。然而,注意,处理单元12可以包括针对特定用途设计的电子电路,例如专用集成电路
(ASIC)或现场可编程门阵列(FPGA)。处理器执行存储在存储器例如RAM(或者存储单元11)中的程序。术语“多处理器”(或简称为“处理器”)可以用来指多个处理器的集合。
[0035]存储单元11存储模型13和训练数据15。
[0036]模型13是根据说明变量值预测目标变量值的预测模型。模型13可以是用于预测在输入图像中捕获的对象的类别的图像识别模型。模型13包括多个层,每个层包括参数。这些层可以串联连接。模型13可以是多层神经网络或卷积神经网络。通过机器学习确定每个层的参数值。参数可以是与多层神经网络的各个边相关联的权重。
[0037]例如,模型13包括层13a、13b和13c。层13b跟随层13a,以及层13c跟随层13b。层13a包括参数14a。层13b包括参数14b。层13c包括参数14c。训练数据15是用于模型13的参数优化的数据集。训练数据15包括多个样本,针对每个样本提供训练标签。训练数据15可以包括多个图像,针对每个图像给出指示对象类别的标签。
[0038]处理单元12执行学习过程16,以使用训练数据15来优化模型13的参数14a、14b和14c。在学习过程16中,处理单元12运行下述迭代。处理单元12可以对模型13执行反向传播。在每次迭代处,处理单元12将包括在训练本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种非暂态计算机可读记录介质,其中存储有使计算机执行处理的计算机程序,所述处理包括:开始用于构建包括多个层的模型的学习处理,所述多个层中的每个层均包括参数,所述学习处理执行迭代,所述迭代中的每个迭代包括:使用训练数据计算所述模型的输出误差;以及基于所述输出误差更新所述多个层中的每个层的所述参数的值;基于所述学习处理的第一迭代的执行结果,在所述多个层之中选择两个或更多个候选层,所述两个或更多个候选层表示下述层的候选:在所述层中的每个层中对所述参数的值的更新要被抑制;以及基于直至所述第一迭代为止所执行的迭代的次数来计算随所执行的迭代的次数的增加而增加的比率值并且在所述两个或更多个候选层之中确定一个或更多个层,在所述一个或更多个层中的每个层中,对所述参数的值的更新要在所述第一迭代之后的第二迭代被抑制,所述一个或更多个层的数量是根据所述比率值而确定的。2.根据权利要求1所述的非暂态计算机可读记录介质,其中:根据所述比率值确定的所述一个或更多个层的数量是通过将所述两个或更多个候选层的数量乘以所述比率值而计算的。3.根据权利要求1所述的非暂态计算机可读记录介质,其中:与所执行的迭代的次数相对应的比率值是基于S形曲线而计算的。4.根据权利要求1所述的非暂态计算机可读记录介质,其中:对所述参数的值的更新在所述第二迭代中在所述两个或更多个候选层之中的除了其数量根据所述比率值而确定的所述一个或更多个层之外的每个剩余层中执行。5.根据权利要求1所述的非暂态计算机可读记录介质,其中:所述学习处理中的每个迭代包括:计算指示所述输出误差相对于所述参数的梯度的误差梯度;以及基于所述误差梯度更新所述参数的值,并且所述选择两个或更多个候选层包括:针对所述误差梯度的迭代间变化来监测所述多个层中的每个层;以及选择其迭代间变化低于阈值的所述两个或更多个候选层中的每个候选层。6.根据权利要求1所述的非暂态计算机可读记录介质,其中:所述模型是多层神经网络。7.根据权利要求1所述的非暂态计算机可读记录介质,其中:所述学习处理中的每个迭代包括:计算指示所述输出误差相对于所述参数的梯度的误差梯度;以及基于所述误差梯度更新所述参数的值,所述处理还包括:针对所述多个层中的每个层,计算直至所述第一迭代为止所执行的迭代的所述误差梯度的平均值,以及基于所述误差梯度的平均值,确定其数量根据所述比率值确定的所述一个或更多个层中的每个层。8.根据权利要求1所述的非暂态计算机可读记录介质,其中:所述学习处理中的每个迭代包括:计算指示所述输出误差相对于所述参数的梯度的误差梯度;以及基于所述误差梯度更新所述参数的值,所述处理还包括:针对所述误差梯度的迭代间变化...

【专利技术属性】
技术研发人员:甲斐雄高笠置明彦
申请(专利权)人:富士通株式会社
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1