脉冲神经网络奖励优化方法、装置、电子设备和存储介质制造方法及图纸

技术编号:31505898 阅读:19 留言:0更新日期:2021-12-22 23:36
本发明专利技术提供一种脉冲神经网络奖励优化方法、装置、电子设备和存储介质,其中方法包括:对脉冲神经网络进行初始化操作;基于脉冲编码器,将样本数据转换为样本脉冲序列编码;将样本脉冲序列编码输入至脉冲神经网络,确定脉冲神经网络的前向传播过程中每层神经元的发放状态后,确定每个隐藏层对应的奖励,并基于每个隐藏层的输出及其对应的奖励,对每层神经元与其对应的突触前神经元间的突触权重执行优化操作,直至脉冲神经网络收敛;其中,每层神经元与其对应的突触前神经元间的突触权重的优化操作是相互独立的。本发明专利技术具备生物合理性,且与逐层优化方式对比,可以减少不必要的信息存储,降低了内存占用,减少了能耗,有利于置于芯片上使用。芯片上使用。芯片上使用。

【技术实现步骤摘要】
脉冲神经网络奖励优化方法、装置、电子设备和存储介质


[0001]本专利技术涉及人工智能
,尤其涉及一种脉冲神经网络奖励优化方法、装置、电子设备和存储介质。

技术介绍

[0002]脉冲神经网络被认为是第三代人工神经网络。脉冲神经网络中神经元之间传递的基本信息单位是离散的脉冲,包含达到发放阈值的膜电位状态的精确时间。这种事件型信号包含内部神经元动力学和历史积累(和衰减)的膜电位。脉冲神经网络中的脉冲训练与人工神经网络中的放电率(这里可以将放电率定义为描述传播信息的模拟值)相比,为更好地表征处理序列信息打开了一个新的时间坐标。除了神经元动力学,生物学特征的学习原则是脉冲神经网络的其他关键特征,描述了通过局部和全局可塑性原则修改突触权值。目前大多数的局部准则都是无监督的,包括脉冲时间依赖可塑性(STDP)、短时可塑性(STP)、长时程增强(LTP)、长时程抑制(LTD)和侧向抑制等。对于全局性准则,其比局部原则更“受监督”,数量规模更小,但与网络功能更相关,例如,可塑性传播,奖励传播(RP),反馈对齐(FA),目标传播(TP)等。
[0003]脉冲神经网络在结构和功能上存在差异,如回声状态机、液体状态机、生物神经元前馈结构以及一些与任务相关的结构。目前存在的脉冲神经网络训练方法是基于BP(Back Propagation,反向传播)方式或者是与BP方式相关的。然而,BP方式并不符合生物学习方法准则,训练效果欠佳,在将脉冲神经网络应用到音视频或图像数据的识别任务上时,识别效果不佳。

技术实现思路

[0004]本专利技术提供一种脉冲神经网络奖励优化方法、装置、电子设备和存储介质,用以解决现有技术中利用BP训练方式训练脉冲神经网络不符合生物学习方法准则、将训练好的脉冲神经网络应用到识别任务上时的识别效果欠佳的缺陷。
[0005]本专利技术提供一种脉冲神经网络奖励优化方法,包括:
[0006]对脉冲神经网络进行初始化操作;
[0007]基于脉冲编码器,将样本数据转换为样本脉冲序列编码;所述样本数据为音频数据、图像数据或视频数据;
[0008]将所述样本脉冲序列编码输入至所述脉冲神经网络,确定所述脉冲神经网络的前向传播过程中每层神经元的发放状态后,确定每个隐藏层对应的奖励,并基于每个隐藏层的输出及其对应的奖励,对每层神经元与其对应的突触前神经元间的突触权重执行优化操作,直至所述脉冲神经网络收敛;任一隐藏层的输出是基于所述任一隐藏层的神经元的发放状态确定的;
[0009]其中,每层神经元与其对应的突触前神经元间的突触权重的优化操作是相互独立的。
[0010]根据本专利技术提供的一种脉冲神经网络奖励优化方法,所述基于每个隐藏层的输出及其对应的奖励,对每层神经元与其对应的突触前神经元间的突触权重执行优化操作,具体包括:
[0011]确定所述奖励的奖励类型;
[0012]若所述奖励的奖励类型为与输出无关的非误差类奖励,则在任一隐藏层运算结束后,基于所述任一隐藏层的输出及其对应的奖励,对所述任一隐藏层的神经元与其对应的突触前神经元间的突触权重执行优化操作;
[0013]若所述奖励的奖励类型为与输出相关的误差类奖励,则在前向传播计算得到输出后,基于每个隐藏层的输出及其对应的奖励,对每层神经元与其对应的突触前神经元间的突触权重执行优化操作。
[0014]根据本专利技术提供的一种脉冲神经网络奖励优化方法,所述对每层神经元与其对应的突触前神经元间的突触权重执行优化操作,具体包括:
[0015]基于任一隐藏层的弥散矩阵,对所述任一隐藏层的奖励进行映射,得到所述任一隐藏层的目标值;
[0016]基于所述任一隐藏层的目标值和输出,确定所述任一隐藏层对应的输出修正量;
[0017]基于所述任一隐藏层对应的输出修正量,确定所述任一隐藏层的神经元与其对应的突触前神经元间的突触权重修正量,并对所述任一隐藏层的神经元与其对应的突触前神经元间的突触权重进行修正。
[0018]根据本专利技术提供的一种脉冲神经网络奖励优化方法,任一隐藏层的弥散矩阵的维度与所述任一隐藏层的输出的维度相同,且所述弥散矩阵的均值为0。
[0019]根据本专利技术提供的一种脉冲神经网络奖励优化方法,所述基于所述任一隐藏层对应的输出修正量,确定所述任一隐藏层的神经元与其对应的突触前神经元间的突触权重修正量,并对所述任一隐藏层的神经元与其对应的突触前神经元间的突触权重进行修正,具体包括:
[0020]基于所述任一隐藏层对应的输出修正量和伪梯度,确定所述任一隐藏层的神经元与其对应的突触前神经元间的突触权重修正量,并对所述任一隐藏层的神经元与其对应的突触前神经元间的突触权重进行修正。
[0021]根据本专利技术提供的一种脉冲神经网络奖励优化方法,所述基于所述任一隐藏层对应的输出修正量和伪梯度,确定所述任一隐藏层的神经元与其对应的突触前神经元间的突触权重修正量,并对所述任一隐藏层的神经元与其对应的突触前神经元间的突触权重进行修正,具体包括:
[0022]采用如下公式确定所述任一隐藏层的神经元与其对应的突触前神经元间的突触权重修正量:
[0023][0024][0025]Δw
i
(t)

Δh
conv/fc,l
(t)ΔV
i
(t)
[0026]ΔV
i
(t)=V
i
(t+1)

V
i
(t)=1,if(V
i
(t)=V
th
)
[0027]其中,为所述任一隐藏层的目标值,为所述任一隐藏层的弥散矩阵,R(t)为所述任一隐藏层的奖励,Δh
conv/fc,l
(t)为t时刻所述任一隐藏层对应的输出修正量,h
conv/fc,l
(t)为所述任一隐藏层的输出,V
i
(t)为所述任一隐藏层中神经元i在t时刻的膜电位,V
th
为发放阈值,ΔV
i
(t)为膜电位的微分数值,当V
i
(t)=V
th
时,使用所述伪梯度计算;
[0028]采用如下公式对所述任一隐藏层的神经元与其对应的突触前神经元间的突触权重进行修正:
[0029]w
i
(t+1)=w
i
(t)

η
conv/fc
Δw
i
(t)
[0030]其中,w
i
(t)为t时刻所述任一隐藏层的神经元i与其对应的突触前神经元间的突触权重,η
conv/fc
为学习率。
[0031]根据本专利技术提供的一种脉冲神经网络奖励优化方法,所述对脉冲神经网络进行初始化操作,具体包括:
[0032]初始化所述脉冲神经网络中与神经元相关的超参数以及网络参数;
[0033]其中,所述与神经元本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种脉冲神经网络奖励优化方法,其特征在于,包括:对脉冲神经网络进行初始化操作;基于脉冲编码器,将样本数据转换为样本脉冲序列编码;所述样本数据为音频数据、图像数据或视频数据;将所述样本脉冲序列编码输入至所述脉冲神经网络,确定所述脉冲神经网络的前向传播过程中每层神经元的发放状态后,确定每个隐藏层对应的奖励,并基于每个隐藏层的输出及其对应的奖励,对每层神经元与其对应的突触前神经元间的突触权重执行优化操作,直至所述脉冲神经网络收敛;任一隐藏层的输出是基于所述任一隐藏层的神经元的发放状态确定的;其中,每层神经元与其对应的突触前神经元间的突触权重的优化操作是相互独立的。2.根据权利要求1所述的脉冲神经网络奖励优化方法,其特征在于,所述基于每个隐藏层的输出及其对应的奖励,对每层神经元与其对应的突触前神经元间的突触权重执行优化操作,具体包括:确定所述奖励的奖励类型;若所述奖励的奖励类型为与输出无关的非误差类奖励,则在任一隐藏层运算结束后,基于所述任一隐藏层的输出及其对应的奖励,对所述任一隐藏层的神经元与其对应的突触前神经元间的突触权重执行优化操作;若所述奖励的奖励类型为与输出相关的误差类奖励,则在前向传播计算得到输出后,基于每个隐藏层的输出及其对应的奖励,对每层神经元与其对应的突触前神经元间的突触权重执行优化操作。3.根据权利要求1或2所述的脉冲神经网络奖励优化方法,其特征在于,所述对每层神经元与其对应的突触前神经元间的突触权重执行优化操作,具体包括:基于任一隐藏层的弥散矩阵,对所述任一隐藏层的奖励进行映射,得到所述任一隐藏层的目标值;基于所述任一隐藏层的目标值和输出,确定所述任一隐藏层对应的输出修正量;基于所述任一隐藏层对应的输出修正量,确定所述任一隐藏层的神经元与其对应的突触前神经元间的突触权重修正量,并对所述任一隐藏层的神经元与其对应的突触前神经元间的突触权重进行修正。4.根据权利要求3所述的脉冲神经网络奖励优化方法,其特征在于,任一隐藏层的弥散矩阵的维度与所述任一隐藏层的输出的维度相同,且所述弥散矩阵的均值为0。5.根据权利要求3所述的脉冲神经网络奖励优化方法,其特征在于,所述基于所述任一隐藏层对应的输出修正量,确定所述任一隐藏层的神经元与其对应的突触前神经元间的突触权重修正量,并对所述任一隐藏层的神经元与其对应的突触前神经元间的突触权重进行修正,具体包括:基于所述任一隐藏层对应的输出修正量和伪梯度,确定所述任一隐藏层的神经元与其对应的突触前神经元间的突触权重修正量,并对所述任一隐藏层的神经元与其对应的突触前神经元间的突触权重进行修正。6.根据权利要求5所述的脉冲神经网络奖励优化方法,其特征在于,所述基于所述任一隐藏层对应的输出修正量和伪梯度,确定所述任一隐藏层的神经元与其对应的突触前神经
元间的突触权重修正量,并对所述任一隐藏层的神经元与其对应的突触前神经元间的突触权重进行修正,具体包括:采用如下公式确定所述任一隐藏层的神经元与其对应的突触前神经元间的突触权重修正量:正量:Δw
i
(t)

Δh
conv/fc,l
...

【专利技术属性】
技术研发人员:张铁林刘洪星徐波
申请(专利权)人:中国科学院自动化研究所
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1