一种基于改进BiLSTM的文本情感分类方法技术

技术编号：39122040 阅读：15 留言：0更新日期：2023-10-23 14:46

本发明专利技术涉及一种基于BiLSTM

全部详细技术资料下载

【技术实现步骤摘要】
一种基于改进BiLSTM的文本情感分类方法

[0001]本专利技术属于自然语言处理
，具体涉及一种基于改进的BiLSTM的文本情感分类方法。

技术介绍

[0002]自然语言处理技术已经成为了当今社会一个热点的研究方向。自然语言处理技术旨在构建从人类语言到计算机程序之间的桥梁，使计算机能够理解、分析、生成自然语言，并与人进行交互。自然语言处理技术在语言处理、文本分类、机器翻译、自动问答、聊天机器人等方向有着广泛的应用。由于文本数据量庞大，从文中提取信息困难，所以如何有效利用这些数据，是当前文本情感分类任务中所需要解决的重要问题。
[0003]BiLSTM即双向长短期记忆网络(Bidirectional Long Short
‑
Term Memory,BiLSTM)最早由J
ü
rgen Schmidhuber和Sepp Hochreiter等人于1997年在论文《Long short
‑
term memory》中提出，它是传统长短期记忆网络(Long Short
‑
Term Memory,LSTM)的一种扩展形式，结合了正向LSTM和反向LSTM来获取更完整的上下文信息。从而通过BiLSTM可以更好的捕捉双向的语义依赖，更加准确的判断文本的情感极性。由于传统的BiLSTM网络处理文本效果一般，为了提高判断文本的情感极性的准确率，所以需要在传统BiLSTM网络模型上进行改进。

技术实现思路

[0004]为了提高非结构化文本...

【技术保护点】

【技术特征摘要】
1.一种基于改进BiLSTM的文本情感分类方法，所述方法具体步骤如下：步骤1：文本数据集的预处理；步骤2：对数据集中每个文本进行分词；步骤3：将单词存入字典，统计词频，并根据词频对词语进行过滤；步骤4：把数据集中每个文本序列化；步骤5：将数据集文本中每个单词通过词嵌入模型映射为一个固定的词向量表示；步骤6：构建一个BiLSTM
‑
LSTM
‑
Softmax网络结构，将上一步中得到的词向量作为所述网络结构的输入。2.根据权利要求1所描述的一种基于改进BiLSTM的文本情感分类方法，其特征在于：所描述步骤1中，将数据集预处理，具体步骤为：步骤1
‑
1去除噪声，除去停用词、标点符号、数字、特殊字符等非常规的文本信息，仅保留与任务相关的信息；步骤1
‑
2将文本中的单词的词形还原与统一大小写。3.根据权利要求1所描述的一种基于改进BiLSTM的文本情感分类方法，其特征在于：所描述步骤2中，对文本中的所有数据进行分词，只保留一个个单词，存储在列表里，从而获得可处理的文本数据。4.根据权利要求1所描述的一种基于改进BiLSTM的文本情感分类方法，其特征在于：所描述步骤3中，将单词存入字典，统计词频，并根据词频对词语进行过滤，具体步骤为：步骤3
‑
1创建字典，并将文本中的单词依次存入；步骤3
‑
2统计词频，去除词频小的单词。5.根据权利要求1所描述的一种基于改进BiLSTM的文本情感分类方法，其特征在于：所描述步骤4中，把数据集中每个文本序列化，具体步骤为：步骤4
‑
1创建列表，将文本转换为数字序列并存入；步骤4
‑
2若数字序...

【专利技术属性】
技术研发人员：许靖，裴树军，
申请(专利权)人：哈尔滨理工大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人