一种基于改进BiLSTM的文本情感分类方法技术

技术编号:39122040 阅读:15 留言:0更新日期:2023-10-23 14:46
本发明专利技术涉及一种基于BiLSTM

【技术实现步骤摘要】
一种基于改进BiLSTM的文本情感分类方法


[0001]本专利技术属于自然语言处理
,具体涉及一种基于改进的BiLSTM的文本情感分类方法。

技术介绍

[0002]自然语言处理技术已经成为了当今社会一个热点的研究方向。自然语言处理技术旨在构建从人类语言到计算机程序之间的桥梁,使计算机能够理解、分析、生成自然语言,并与人进行交互。自然语言处理技术在语言处理、文本分类、机器翻译、自动问答、聊天机器人等方向有着广泛的应用。由于文本数据量庞大,从文中提取信息困难,所以如何有效利用这些数据,是当前文本情感分类任务中所需要解决的重要问题。
[0003]BiLSTM即双向长短期记忆网络(Bidirectional Long Short

Term Memory,BiLSTM)最早由J
ü
rgen Schmidhuber和Sepp Hochreiter等人于1997年在论文《Long short

term memory》中提出,它是传统长短期记忆网络(Long Short

Term Memory,LSTM)的一种扩展形式,结合了正向LSTM和反向LSTM来获取更完整的上下文信息。从而通过BiLSTM可以更好的捕捉双向的语义依赖,更加准确的判断文本的情感极性。由于传统的BiLSTM网络处理文本效果一般,为了提高判断文本的情感极性的准确率,所以需要在传统BiLSTM网络模型上进行改进。

技术实现思路

[0004]为了提高非结构化文本情感极性判断的准确率,本专利技术公开了一一种基于改进的BiLSTM的文本情感分类方法。
[0005]为此,本专利技术提供了如下技术方案:
[0006]1.一种基于改进BiLSTM的文本情感分类方法,所述方法具体步骤如下:
[0007]步骤1:文本数据集的预处理;
[0008]步骤2:对数据集中每个文本进行分词;
[0009]步骤3:将单词存入字典,统计词频,并根据词频对词语进行过滤;
[0010]步骤4:把数据集中每个文本序列化;
[0011]步骤5:将数据集文本中每个单词通过词嵌入模型映射为一个固定的词向量表示;
[0012]步骤6:构建一个BiLSTM

LSTM

Softmax网络结构,将上一步中得到的词向量作为所述网络结构的输入;
[0013]2.根据权利要求1所描述的一种基于改进BiLSTM的文本情感分类方法,其特征在于:所描述步骤1中,将数据集预处理,具体步骤为:
[0014]步骤1

1去除噪声,除去停用词、标点符号、数字、特殊字符等非常规的文本信息,仅保留与任务相关的信息;
[0015]步骤1

2将文本中的单词的词形还原与统一大小写;
[0016]3.根据权利要求1所描述的一种基于改进BiLSTM的文本情感分类方法,其特征在
于:所描述步骤2中,对文本中的所有数据进行分词,只保留一个个单词,存储在列表里,从而获得可处理的文本数据。
[0017]4.根据权利要求1所描述的一种基于改进BiLSTM的文本情感分类方法,其特征在于:所描述步骤3中,将单词存入字典,统计词频,并根据词频对词语进行过滤,具体步骤为:
[0018]步骤3

1创建字典,并将文本中的单词依次存入;
[0019]步骤3

2统计词频,去除词频小的单词;
[0020]5.根据权利要求1所描述的一种基于改进BiLSTM的文本情感分类方法,其特征在于:所描述步骤4中,把数据集中每个文本序列化,具体步骤为:
[0021]步骤4

1创建列表,将文本转换为数字序列并存入;
[0022]步骤4

2若数字序列小于列表最大长度,则将剩余的部分填充;反之,则裁剪。
[0023]6.根据权利要求1所描述的一种基于改进BiLSTM的文本情感分类方法,其特征在于:所描述步骤5中,通过词嵌入模型将单词映射到向量空间中,并在此过程中尽可能保留单词的语义信息,每个单词都被表示为一个固定长度为200的实数向量。
[0024]7.根据权利要求1所描述的一种基于改进BiLSTM的文本情感分类方法,其特征在于:所描述步骤6中,用于处理文本的改进BiLSTM模型(BiLSTM

LSTM

Softmax)是一种基于循环神经网络的改进模型。其目的在于判断文本的情感极性是消极还是积极。改进BiLSTM模型主要包括以下四个部分,具体步骤为:
[0025]步骤6

1建立词嵌入层(Word Embedding):将单词映射为一个长度为200的空间向量;
[0026]步骤6

2建立BiLSTM层(Bidirectional Long Short

Term Memory):单层的BiLSTM是由两个LSTM组合而成,一个是正向去处理输入序列;另一个反向处理序列,将词嵌入后得到的数据进行处理,处理完成后将两个LSTM的输出拼接起来,得到更好的结果;
[0027]步骤6

3建立LSTM层(Long Short

Term Memory):将上一层得到的结果再用一个双层的LSTM处理,目的是为了提高结果的准确率;
[0028]步骤6

4建立Softmax层:定义两个全连接层,首先将上一层的输出作为输入,分类成4个类别,再通过一个Softmax层分成两类,以此来判断情感极性是消极还是积极,并输出最终结果;
[0029]有益效果
[0030]1、本专利技术是基于改进BiLSTM的文本情感分类方法,隐藏层中采用了BiLSTM网络和LSTM相结合的方法,提高了BiLSTM网络在文本情感分类任务中准确率一般的结果,最终可以得到更高的准确率。
[0031]2、本专利技术改进了传统文本情感分类模型的神经网络结构,虽然更加复杂的模型导致算法的运行时间增长了。但是使用该方法可以更好的捕捉到较长距离的依赖关系,从而更好的联系上下文来判断情感极性。传统的循环神经网络算法在梯度向后传播时容易出现梯度消失问题,但是该方法中使用了循环网络堆叠和反向传播两个方向的信息,从而有效地减少了梯度消失问题,并提高了模型的鲁棒性。
[0032]3、本专利技术提出的方法不只限于单纯的对文本进行情感分类,还可以为其他很多类似任务提供优化办法。
附图说明
[0033]下面结合附图和具体实施方式对本专利技术作进一步详细的说明。
[0034]图1是本专利技术实施方式中的一种基于改进BiLSTM的文本情感分类方法流程图。
[0035]图2是本专利技术实施方式中的模型总体架构图。
[0036]图3是本专利技术实施方式中改进模型前后不同训练次本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于改进BiLSTM的文本情感分类方法,所述方法具体步骤如下:步骤1:文本数据集的预处理;步骤2:对数据集中每个文本进行分词;步骤3:将单词存入字典,统计词频,并根据词频对词语进行过滤;步骤4:把数据集中每个文本序列化;步骤5:将数据集文本中每个单词通过词嵌入模型映射为一个固定的词向量表示;步骤6:构建一个BiLSTM

LSTM

Softmax网络结构,将上一步中得到的词向量作为所述网络结构的输入。2.根据权利要求1所描述的一种基于改进BiLSTM的文本情感分类方法,其特征在于:所描述步骤1中,将数据集预处理,具体步骤为:步骤1

1去除噪声,除去停用词、标点符号、数字、特殊字符等非常规的文本信息,仅保留与任务相关的信息;步骤1

2将文本中的单词的词形还原与统一大小写。3.根据权利要求1所描述的一种基于改进BiLSTM的文本情感分类方法,其特征在于:所描述步骤2中,对文本中的所有数据进行分词,只保留一个个单词,存储在列表里,从而获得可处理的文本数据。4.根据权利要求1所描述的一种基于改进BiLSTM的文本情感分类方法,其特征在于:所描述步骤3中,将单词存入字典,统计词频,并根据词频对词语进行过滤,具体步骤为:步骤3

1创建字典,并将文本中的单词依次存入;步骤3

2统计词频,去除词频小的单词。5.根据权利要求1所描述的一种基于改进BiLSTM的文本情感分类方法,其特征在于:所描述步骤4中,把数据集中每个文本序列化,具体步骤为:步骤4

1创建列表,将文本转换为数字序列并存入;步骤4

2若数字序...

【专利技术属性】
技术研发人员:许靖裴树军
申请(专利权)人:哈尔滨理工大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1