信息处理设备、处理信息的方法和计算机可读记录介质技术

技术编号:27937617 阅读:35 留言:0更新日期:2021-04-02 14:18
提供了信息处理设备、处理信息的方法和计算机可读记录介质。信息处理设备包括:量化单元,其被配置成量化在神经网络中使用的变量中的至少一个变量;噪声添加单元,其被配置成向变量中的至少一个变量中的每个变量添加噪声;以及学习单元,其被配置成通过使用已经添加了预定噪声的经量化的变量中的至少一个经量化的变量来执行神经网络。

【技术实现步骤摘要】
信息处理设备、处理信息的方法和计算机可读记录介质
本文讨论的实施方式涉及信息处理设备、用于处理信息的方法和计算机可读记录介质。
技术介绍
在相关技术中,已知一种将在神经网络(NN)中使用的各种变量(权重参数、梯度信息、差值等)量化为固定的十进制值的方法,作为用于减少NN的执行时间的方法。相关技术在例如日本公开特许公报第2018-120441号中公开。
技术实现思路
[技术问题]然而,当通过量化各种变量来执行NN时,存在与不量化各种变量的情况下执行NN的情况相比准确度劣化的问题。实施方式的一方面的目的是抑制在通过量化神经网络中使用的变量来执行该神经网络的情况下的准确度的劣化。[问题的解决方案]根据实施方式的一方面,一种信息处理装置包括:量化单元,其被配置成量化在神经网络中使用的变量中的至少一个变量;噪声添加单元,其被配置成向变量中的至少一个变量中的每个变量添加预定噪声;以及学习单元,其被配置成通过使用已经添加了预定噪声的经量化的变量中的至少一个经量化的变量来执行神经网络。附图说明图1是示出信息处理设备的硬件配置的示例的图;图2是示出信息处理设备的功能配置的示例的图;图3是示出信息处理设备的学习单元的功能配置的示例的图;图4是示出由量化单元执行的处理的具体示例的图;图5是示出由噪声添加单元添加的噪声的特性的图;图6是示出由噪声添加单元执行的处理的具体示例的图;图7是示出由更新单元执行的处理的具体示例的图;图8A和图8B是示出设置处理和学习处理的过程的流程图;图9是示出向经量化的梯度信息添加噪声的效果的图;以及图10是示出学习处理的过程的流程图。[本专利技术的有益效果]在一个方面,可以抑制在通过量化在神经网络中使用的变量来执行神经网络的情况下的准确度的劣化。具体实施方式在下文中,将参照附图来描述相应的实施方式。在本说明书和附图中,具有基本相同的功能配置的部件将通过相同的附图标记表示并且将省略冗余的描述。[第一实施方式]<信息处理设备的硬件配置>首先,描述了包括通过使用用于深度学习的框架来执行神经网络(NN)的处理器的信息处理设备100的硬件配置。图1是示出信息处理设备的硬件配置的示例的图。如图1所示,信息处理设备100包括通用处理器101、存储器102和专用处理器103。通用处理器101、存储器102和专用处理器103构成所谓的计算机。信息处理设备100还包括辅助存储装置104、显示设备105、操作装置106和驱动装置107。信息处理设备100的硬件部件经由总线108彼此耦接。通用处理器101是诸如中央处理单元(CPU)的计算装置,并且执行安装在辅助存储装置104中的各种程序(例如,实现用于深度学习的框架的信息处理程序)。存储器102是主存储装置,包括非易失性存储器诸如只读存储器(ROM)和易失性存储器诸如随机存取存储器(RAM)。存储器102存储用于通用处理器101执行安装在辅助存储装置104中的各种程序的各种程序,并且提供当由通用处理器101执行时加载各种程序的工作区域。专用处理器103是用于深度学习的处理器,并且包括例如图形处理单元(GPU)。当通用处理器101执行各种程序时,专用处理器103通过对图像数据的并行处理来执行例如高速操作。辅助存储装置104是存储当执行各种程序时要使用的各种程序和数据的辅助存储装置。例如,在辅助存储装置104中实现稍后将描述的学习数据存储单元。显示设备105是显示信息处理设备100的内部状态等的显示装置。操作装置106是当信息处理设备100的用户向信息处理设备100输入各种指令时使用的输入装置。驱动装置107是其中设置有记录介质110的装置。本文提到的记录介质110的示例包括以光学方式、电气方式或磁性方式记录信息的介质,诸如CD-ROM、软盘和磁光盘。记录介质110的示例还可以包括以电气方式记录信息的半导体存储器等,诸如ROM和闪速存储器。例如,通过将分布式记录介质110设置到驱动装置107中并且驱动装置107读取记录在记录介质110中的各种程序来安装在辅助存储装置104中安装的各种程序。可替选地,可以通过从未示出的网络下载来安装在辅助存储装置104中安装的各种程序。<信息处理设备的功能配置>接下来,描述信息处理设备100的功能配置。图2是示出信息处理设备的功能配置的示例的图。如上所述,信息处理程序被安装在信息处理设备100中,并且信息处理设备100的处理器通过执行该程序来实现用于深度学习的框架200。如图2所示,在第一实施方式中,用于深度学习的框架200包括:添加噪声接收单元210、添加噪声设置单元220和学习单元230。添加噪声接收单元210接收要被添加至在学习单元230的NN中使用的各种变量中的经量化的变量的噪声的输入。在第一实施方式中,在NN中使用的各种变量中,在学习时通过后向传播差值计算的梯度信息被量化。例如,在第一实施方式中,添加噪声接收单元210接收要被添加至经量化的梯度信息的噪声的输入。添加噪声设置单元220将由添加噪声接收单元210接收的噪声设置在学习单元230的NN中。学习单元230通过使用学习数据(输入数据和正确数据)执行NN来执行学习处理。例如,学习单元230从学习数据存储单元240读取输入数据,并且将读取的输入数据输入到NN中,以执行用于计算输入数据的前向传播处理。学习单元230从学习数据存储单元240读取正确数据并且计算通过前向传播处理获得的计算结果与读取的正确数据之间的差值。学习单元230还执行后向传播处理,其中,在后向传播所计算的差值的同时计算梯度信息。学习单元230量化所计算的梯度信息,并且向经量化的梯度信息添加由添加噪声设置单元220设置的噪声。此外,学习单元230通过将已经添加了噪声的梯度信息与学习率相乘并且从先前学习的权重参数减去相乘的结果来执行更新先前学习的权重参数的更新处理。因此,在下一前向传播处理中,可以通过使用更新的权重参数对输入数据进行计算。<学习单元的功能配置>接下来,描述学习单元230的功能配置。图3是示出信息处理设备的学习单元的功能配置的示例的图。如图3所示,学习单元230包括输入层311、第一神经元层312、第二神经元层313、第三神经元层314以及差分器315。尽管在图3的示例中神经元层的数目是三,但是包括在学习单元230中的神经元层的数目不限于三。输入层311从学习数据存储单元240中以小批为单位读取输入数据和正确数据的集合并且将输入数据输入至第一神经元层312中。输入层311还将正确数据输入到差分器315中。第一神经元层312包括梯度信息计算单元321_1、量化单元322_1、噪声添加单元323_1以及更新单元324_1。梯度信息计算单元321_1在学本文档来自技高网...

【技术保护点】
1.一种信息处理设备,包括:/n量化单元,其被配置成量化在神经网络中使用的变量中的至少一个变量;/n噪声添加单元,其被配置成向所述变量中的至少一个变量中的每个变量添加预定噪声;以及/n学习单元,其被配置成通过使用已经添加了所述预定噪声的经量化的变量中的至少一个经量化的变量来执行所述神经网络。/n

【技术特征摘要】
20190917 JP 2019-1680781.一种信息处理设备,包括:
量化单元,其被配置成量化在神经网络中使用的变量中的至少一个变量;
噪声添加单元,其被配置成向所述变量中的至少一个变量中的每个变量添加预定噪声;以及
学习单元,其被配置成通过使用已经添加了所述预定噪声的经量化的变量中的至少一个经量化的变量来执行所述神经网络。


2.根据权利要求1所述的信息处理设备,
其中,在所述量化中被量化的变量中的至少一个变量包括在学习期间后向传播的差值、在学习期间通过后向传播所述差值计算的梯度信息以及在学习或推断期间用于输入数据的计算的权重参数中的至少一个。


3.根据权利要求2所述的信息处理设备,
其中,所述噪声添加单元包括在所述添加中向所述经量化的变量添加其表示噪声的每个值的出现频率的直方图具有预定概率分布的噪声。


4.根据权利要求3所述的信息处理设备,
其中,所述学习单元包括:在所述量化中对在学习期间通过后向传播所述差值计算的所述梯度信息进行量化并且在所述添加中向经量化的梯度...

【专利技术属性】
技术研发人员:坂井靖文
申请(专利权)人:富士通株式会社
类型:发明
国别省市:日本;JP

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1