一种基于切分循环神经网络的序列模型建立方法技术

技术编号：19904587 阅读：49 留言：0更新日期：2018-12-26 03:15

本发明专利技术提供了一种基于切分循环神经网络的序列模型建立方法，本发明专利技术的SRNN通过对RNN整体结构改进，使其可以并行训练，SRNN的速度相较传统RNN有了较大的提升。本发明专利技术的SRNN可以获取序列的高层次信息，例如当层数为3时，最底层的RNN可以获得词汇层次的信息，中间层的RNN可以获得句子层次的信息，最顶层的RNN可以获得段落层次的信息，并且，SRNN将每个RNN都限制在最小子序列的长度，有效地提高了保留序列中重要信息的能力。

全部详细技术资料下载

【技术实现步骤摘要】
一种基于切分循环神经网络的序列模型建立方法
本专利技术涉及人工智能领域，具体地涉及一种基于切分循环神经网络的序列模型建立方法。
技术介绍
随着人工智能与计算机硬件的发展，循环神经网络由于可以提取序列中的词序等深层信息，被广泛应用于如自然语言处理、语音识别等序列模型中，使性能较传统模型相比得到了大幅度提升。循环神经网络的结构如图1所示，其中图中序列长度为8，其中下方的x代表每一时刻的输入，若是自然语言处理任务，则x代表字或词，若是语音识别任务，则x代表音素。A代表循环单元，可以是SimpleRNN，GRU，LSTM等。I代表初始状态，通常设为0。h代表每一时刻的隐藏状态，若是输出一个序列，则保留每一时刻的h；若输出一个向量，则通常保留最后一个时刻的h作为序列的特征表示。RNN网络中，每一时刻需要等待上一时刻的输出作为这一时刻的输入，用公式可表示如下；ht＝f(ht-1,xt)其中f函数可以是简单的tanh函数或是复杂的如GRU，LSTM等门控单元，若取简单的tanh函数，则A为SimpleRNN。ht＝tanh(Wht-1+Uxt+b)若取更复杂的门控单元，则GRU运算为：rt＝σ(Wrht-1+Urxt+br)zt＝σ(Wzht-1+Uzxt+bz)LSTM运算为：it＝σ(Wiht-1+Uixt+bi)ot＝σ(Woht-1+Uoxt+bo)ft＝σ(Wfht-1+Ufxt+bf)循环神经网络有多种应用，有多对一，多对多等等。多对一的典型应用是文本分类，即多个单词作为输入，一个最终状态作为输出。取输入的文本作为输入，每一个单词作为输入x，将RNN的最终状...

【技术保护点】
1.一种基于切分循环神经网络的序列模型建立方法，其特征在于，包括如下步骤：步骤S1：输入序列，进行预处理；将输入序列预处理至长度为T的序列X，长度不足T的序列采用末尾补0的策略，长度超过T的序列取前T个字符，则获得输入序列X为：X＝[x1,x2,...,xT]其中x通过多维度表示；步骤S2：选择合适的切分长度与切分次数；根据长度T选择合适的切分长度和切分次数，若T＝nk+1，则取切分长度为n，切分次数为k；步骤S3：将原序列切分成许多最小子序列；将序列X切分成n个子序列N，则每个子序列长度为：

【技术特征摘要】
1.一种基于切分循环神经网络的序列模型建立方法，其特征在于，包括如下步骤：步骤S1：输入序列，进行预处理；将输入序列预处理至长度为T的序列X，长度不足T的序列采用末尾补0的策略，长度超过T的序列取前T个字符，则获得输入序列X为：X＝[x1,x2,...,xT]其中x通过多维度表示；步骤S2：选择合适的切分长度与切分次数；根据长度T选择合适的切分长度和切分次数，若T＝nk+1，则取切分长度为n，切分次数为k；步骤S3：将原序列切分成许多最小子序列；将序列X切分成n个子序列N，则每个子序列长度为：这时X表示成：X＝[N1,N2,...,Nn]再将每个子序列切分成n个子子序列，重复这个切分步骤k次，直至得到一个合适长度的最小子序列，得到共k+1层；经过如上切分，最底层的最小子序列的个数为s0＝nk，长度为至此，原序列被切分成许多子序列；步骤S4：将RNN作用于每层的最小子序列；步骤...

【专利技术属性】
技术研发人员：于泽平，刘功申，
申请(专利权)人：上海交通大学，
类型：发明
国别省市：上海,31

全部详细技术资料下载我是这个专利的主人