非暂态计算机可读记录介质、学习方法和信息处理设备技术

技术编号：31609769 阅读：21 留言：0更新日期：2021-12-29 18:37

提供了非暂态计算机可读记录介质、学习方法和信息处理设备。处理包括开始用于构建包括多个层的模型的学习处理，所述多个层中的每个层均包括参数。学习处理执行迭代，每个迭代包括使用训练数据计算模型的输出误差以及基于该输出误差更新参数值。该处理还包括基于学习处理的第一迭代的结果，选择两个或更多个候选层，所述两个或更多个候选层表示更新要被抑制的层的候选。该处理还包括基于直至第一迭代为止所执行的迭代的次数计算在所执行的迭代的次数较大时变得较大的比率值，以及在候选层之中确定更新要在第一迭代之后的第二迭代处被抑制的一个或更多个层。所述一个或更多个层的数量是根据比率值而确定的。数量是根据比率值而确定的。数量是根据比率值而确定的。

全部详细技术资料下载

【技术实现步骤摘要】
非暂态计算机可读记录介质、学习方法和信息处理设备

[0001]本文中论述的实施方式涉及学习方法和信息处理设备。

技术介绍

[0002]有时采用机器学习作为使用信息处理设备的数据分析技术。在机器学习中，收集指示一些已知实例的训练数据。信息处理设备分析训练数据，从而构建归纳原因(有时称为一个或多个说明变量或自变量)与效果(有时称为目标变量或因变量)之间的关系的模型。信息处理设备使用所构建的模型来预测未知实例的结果。例如，构建用于确定在图像中捕获的对象的类别的图像识别模型。
[0003]信息处理设备可以生成包括多个层的模型。例如，机器学习可以是用于生成多层神经网络的深度学习。此时，信息处理设备运行迭代以搜索每个层中所包括的参数的最优值。在每次迭代中，信息处理设备可以通过使用训练数据来评估模型的输出中的误差并基于该误差来更新参数值。例如，误差反向传播(或简称为反向传播)被用于参数优化。
[0004]提出了一种用于自动消除来自机器学习的训练数据中所包括的多个说明变量中的一些说明变量的特征过滤方法。根据所提出的特征过滤，基于在先前迭代中计算的梯度来确定每个说明变量的值的过滤阈值。还提出了一种用于在生成多层神经网络的机器学习中自动删除一些层的学习设备。所提出的学习设备针对多个层中的每个层计算对多层神经网络的输出的贡献度，并且在删除贡献度低的层之后再次执行机器学习。
[0005]国际公开小册子第WO 2017/157183号；以及
[0006]日本公开特许公报第2019
‑
18527...

【技术保护点】

【技术特征摘要】
1.一种非暂态计算机可读记录介质，其中存储有使计算机执行处理的计算机程序，所述处理包括：开始用于构建包括多个层的模型的学习处理，所述多个层中的每个层均包括参数，所述学习处理执行迭代，所述迭代中的每个迭代包括：使用训练数据计算所述模型的输出误差；以及基于所述输出误差更新所述多个层中的每个层的所述参数的值；基于所述学习处理的第一迭代的执行结果，在所述多个层之中选择两个或更多个候选层，所述两个或更多个候选层表示下述层的候选：在所述层中的每个层中对所述参数的值的更新要被抑制；以及基于直至所述第一迭代为止所执行的迭代的次数来计算随所执行的迭代的次数的增加而增加的比率值并且在所述两个或更多个候选层之中确定一个或更多个层，在所述一个或更多个层中的每个层中，对所述参数的值的更新要在所述第一迭代之后的第二迭代被抑制，所述一个或更多个层的数量是根据所述比率值而确定的。2.根据权利要求1所述的非暂态计算机可读记录介质，其中：根据所述比率值确定的所述一个或更多个层的数量是通过将所述两个或更多个候选层的数量乘以所述比率值而计算的。3.根据权利要求1所述的非暂态计算机可读记录介质，其中：与所执行的迭代的次数相对应的比率值是基于S形曲线而计算的。4.根据权利要求1所述的非暂态计算机可读记录介质，其中：对所述参数的值的更新在所述第二迭代中在所述两个或更多个候选层之中的除了其数量根据所述比率值而确定的所述一个或更多个层之外的每个剩余层中执行。5.根据权利要求1所述的非暂态计算机可读记录介质，其中：所述学习处理中的每个迭代包括：计算指示所述输出误差相对于所述参数的梯度的误差梯度；以及基于所述误差梯度更新所述参数的值，并且所述选择两个或更多个候选层包括：针对所述误差梯度的迭代间变化来监测所述多个层中的每个层；以及选择其迭代间变化低于阈值的所述两个或更多个候选层中的每个候选层。6.根据权利要求1所述的非暂态计算机可读记录介质，其中：所述模型是多层神经网络。7.根据权利要求1所述的非暂态计算机可读记录介质，其中：所述学习处理中的每个迭代包括：计算指示所述输出误差相对于所述参数的梯度的误差梯度；以及基于所述误差梯度更新所述参数的值，所述处理还包括：针对所述多个层中的每个层，计算直至所述第一迭代为止所执行的迭代的所述误差梯度的平均值，以及基于所述误差梯度的平均值，确定其数量根据所述比率值确定的所述一个或更多个层中的每个层。8.根据权利要求1所述的非暂态计算机可读记录介质，其中：所述学习处理中的每个迭代包括：计算指示所述输出误差相对于所述参数的梯度的误差梯度；以及基于所述误差梯度更新所述参数的值，所述处理还包括：针对所述误差梯度的迭代间变化...

【专利技术属性】
技术研发人员：甲斐雄高，笠置明彦，
申请(专利权)人：富士通株式会社，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人