一种基于残差跳跃连接的门控循环单元的文本分类方法技术

技术编号：31493997 阅读：17 留言：0更新日期：2021-12-18 12:31

本发明专利技术提供了一种基于残差跳跃连接的门控循环单元的文本分类方法，在现有的门控循环单元的基础上，利用跳跃连接引入残差信息并结合高速公路网络的门控限制，同时使用非饱和激活函数以及批标准化来改进门控循环单元定义公式，使门控循环单元在应对梯度消失问题的同时能够捕获超长期依赖关系，并利用高速公路网络的门控来限制残差信息不占主要地位。本发明专利技术利用训练好的网络模型自动对中文文本进行分类，以及对电影影评正/负评价分类，以便降低人力成本。通过多组对比实验，证明了本发明专利技术在文本分类任务中有一定的适用性。本分类任务中有一定的适用性。本分类任务中有一定的适用性。

全部详细技术资料下载

【技术实现步骤摘要】
一种基于残差跳跃连接的门控循环单元的文本分类方法

[0001]本专利技术涉及一种基于残差跳跃连接的门控循环单元的文本分类方法。

技术介绍

[0002]近年来，深度学习在天文、地理、工业等科技领域得到广泛应用。时间序列数据在我们的日常生活中无处不在，从股市走势、不同城市的气候数据、一段时间的产品销售情况、能源使用状况等等。其中，网络上的文本数据也是日益增多，这些数据主要应用于舆情监测、信息检索、及新闻文本分类等领域。如果能对这些数据进行有效分类，那么就会更有利于从中挖掘出有价值的信息，因此对文本数据的管理和整合显得尤为重要。文本分类属于自然语言处理任务中的一项基础性工作，通过利用计算机相关理论知识及技能，达到对文本资源进行整理和归类的目的。现有的文本分类技术有存在一些不完善之处，比如：FastText方法，其缺点是没有完全考虑词序信息，TextCNN方法，其缺点一方面无法建立更长的序列信息，另一方面它的超参调节额外繁琐。神经网络方法：循环神经网络(RNN)具有捕获和利用顺序依赖性的能力，广泛用于处理此类时间序列数据，尤其是在机器翻译、文本分类、语音识别和其他任务。然而，随着网络的加深，传统的RNN会出现梯度消失的问题。虽然长短期记忆网络(LSTM)及门控循环单元(GRU)方法可以捕获长期上下文信息，但它们的门结构的复杂性使得训练速度变慢。虽然简单循环单元(SRU)方法能减少神经网络的训练时间，但其精度无法满足需求。

技术实现思路

[0003]专利技术目的：为解决
技术介绍
中存在的技术问题，本专利技术提出一

【技术保护点】

【技术特征摘要】
1.一种基于残差跳跃连接的门控循环单元的文本分类方法，其特征在于，包括以下所述步骤：步骤1，定义数据集的词汇表并将词汇表的文本数据进行预处理，去除文本中的不规范数据；步骤2，将步骤1得到的文本信息进行门控循环单元神经网络建模；步骤3，设置门控循环单元神经网络的全连接层以及分类层；步骤4，为门控循环单元神经网络的表示中建立残差跳跃连接并引入高速公路网络门限控制方法；步骤5，将残差跳跃连接的门控循环单元的饱和激活函数改为非饱和激活函数；步骤6，设置残差跳跃连接的门控循环单元神经网络的权重初始化方式为正交初始化；步骤7，为残差跳跃连接的门控循环单元神经网络设置批标准化；步骤8，设置残差跳跃连接的门控循环单元神经网络的超参数；步骤9，配置残差跳跃连接的门控循环单元神经网络的损失函数以及优化器；步骤10，结合步骤1得到的文本信息，使用残差跳跃连接的门控循环单元神经网络进行文本分类。2.如权利要求1所述的方法，其特征在于，步骤1包括：定义数据集的词汇表，包括统计单词的出现频率和按词频顺序对单词进行排序；将数据集分为训练集和测试集，训练集包括训练数据；在定义词汇表后，将训练数据转化成单词的数字编号；对训练数据进行批处理，使用填充的方法，即将同一批块内的句子长度补齐；定义词向量层：在输入层，每个单词用一个实数向量表示，所述实数向量称为词向量，使用Word2Vec方法对文本进行向量化操作。3.如权利要求2所述的方法，其特征在于，步骤2包括：建立门控循环单元的循环神经网络的前向算法：建立更新门和重置门，设z
t
和r
t
分别为更新门向量和重置门向量，x
t
为当前层的t时刻的输入值，W
z
和W
r
为模型参数，即权重向量，U
z
、U
r
、U
a
为输入时序信息的权重，h
t
‑1为前一时刻的状态向量，b
z
和b
r
为偏置向量；更新门向量和重置门向量计算公式如下：z
t
＝σ(W
z
x
t
+U
z
h
t
‑1+b
z
)r
t
＝σ(W
r
x
t
+U
r
h
t
‑1+b
r
)式中，σ为Sigmoid激活函数，Sigmoid激活函数Sigmoid(x)的计算公式如下：其中，x为函数输入；e为自然常数；使用如下门控循环单元的输出公式：a
t
＝g(W
a
x
t
+U
a
(h
t
‑1*r
t
)+b
a
)h
t
＝z
t
*a
t
+(1
‑
z
t
)*h
t
‑1式中，a
t
是t时刻的候选隐状态，h
t
为当前时刻t的隐状态向量，候选隐状态的激活函数g(
·
)为Tanh，W
a
为模型权重参数；其中，Tanh激活函数Tanh(x)的计算公式如下：
式中，x为函数输入。4.如权利要求3所述的方法，其特征在于，步骤3包括：在门控循环单元神经网络之后需要接全连接层来修正神经元输出值的维度，全连接层公式如下：f＝W
y
h式中，W
y
为维度匹配矩阵；h为网络最后一层的神经元输出；f为全连接层输出值；在全连接层之后需连接分类层进行分类，通过如下归一化指数函数S(f)
j
公式进行分类处理：式中，N为类别数；f
j
表示f的第j元素，j的范围为1到N；f
n
表示f的第n元素，n取值为1到N。5.如权利要求4所述的方法，其特征在于，步骤4包括：在门控循环单元结构的时间轴方向和空间轴反向...

【专利技术属性】
技术研发人员：孙水发，胡枫，裴伟，董方敏，吴义熔，梅周俊森，
申请(专利权)人：三峡大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人