【技术实现步骤摘要】
一种基于自动寻址和递归信息整合的内存网络方法
本专利技术属于深度学习领域,涉及递归神经网络和内存神经网络,更具体地涉及一种基于自动寻址和递归信息整合的内存网络方法。
技术介绍
在深度学习技术中,递归神经网络(RNN)是一种典型的用于处理时序任务的神经网络,其代表性框架如长短期记忆网络(LSTM),门控循环单元(GRU)具有良好的时序建模能力,被应用于各种实际场景下的时序任务,例如语音识别,文本推理和视频分析。然而,目前典型的递归神经网络都面临以下两个问题:一、训练时的梯度消失和梯度爆炸问题。在训练的时间步较长的情况下,容易发生梯度的累乘导致的梯度过小(接近于0)或者过大的情况(接近无穷),导致网络的训练无法收敛。二、RNN在前后时间步只传递一个维度有限的隐状态,因此对历史信息的记忆能力有限。基于上述两点问题,相关研究借鉴冯诺依曼架构的思想,提出了内存增强的递归神经网络,即将RNN的每个时间步产生的信息显式地存储在一个内存矩阵中,并通过学习可训练的读写方式,在每个时间步对内存进行读写。这种内存机制能够明显解决上述两种RNN面临的问题:一、梯度在训练时可直接通过内存传 ...
【技术保护点】
1.一种基于自动寻址和递归信息整合的内存网络方法,包括如下步骤:1)使用自动寻址对内存矩阵进行读操作,直接利用递归神经网络(RNN)在不同时间步之间传递的隐状态ht‑1对历史的内存寻址信息进行编码,结合当前的输入xt对内存进行寻址;2)使用递归信息整合的计算单元对隐状态ht‑1、内存信息rt和输入xt进行综合计算:
【技术特征摘要】
1.一种基于自动寻址和递归信息整合的内存网络方法,包括如下步骤:1)使用自动寻址对内存矩阵进行读操作,直接利用递归神经网络(RNN)在不同时间步之间传递的隐状态ht-1对历史的内存寻址信息进行编码,结合当前的输入xt对内存进行寻址;2)使用递归信息整合的计算单元对隐状态ht-1、内存信息rt和输入xt进行综合计算:公式(1)中计算的两个门分别用于逐元素地控制ht-1和rt的信息流入,即公式(2)、(3)的含义,其后复用长短期记忆网络(LSTM)的信息处理方式进行综合计算,如公式(4)(5)所示,最后,将产生的新隐状态ht和内存信息rt分别用公式(4)中计算的两个输出门进行信息控制后并连接后输出;3)对内存的写操作:将该时刻产生的新的隐状态ht作为需要记忆的信息,写入内存;4)进入下一个时间步:将ht传入下一个时间步,接收输入xt+1,回到步骤1)循环执行上述步骤。2.根据权利要...
【专利技术属性】
技术研发人员:李革,李章恒,钟家兴,黄靖佳,张涛,
申请(专利权)人:北京大学深圳研究生院,
类型:发明
国别省市:广东,44
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。