一种基于ALBERT-BiLSTM模型和SVM-NB分类的文本情绪识别方法技术

技术编号：34426474 阅读：19 留言：0更新日期：2022-08-06 15:58

一种基于ALBERT

全部详细技术资料下载

【技术实现步骤摘要】
一种基于ALBERT
‑
BiLSTM模型和SVM
‑
NB分类的文本情绪识别方法

[0001]本专利技术适文本情绪识别(Textualemotion recognition)领域，具体涉及到基于ALBERT
‑
BiLSTM模型，以及SVM
‑
NB分类方法，其优越性在于采用句子向量进行预训练，进而提高情绪识别的准确性，同时能够做到多情感的识别，取得的效果较为明显。

技术介绍

[0002]文本情绪识别的研究是自然语言处理领域的一个重要分支，广泛应用于舆情分析和内容推荐等方面，是近年来的研究热点。
[0003]ALBERT(ALiteBERT)模型是基于BERT模型进行改进得到的一个轻量化版本模型，BERT预训练过程其实就是在模仿我们学语言的过程，思想来源于完形填空的任务，这样做迫使模型更多地依赖于上下文信息去预测词汇，并且赋予了模型一定的纠错能力，ALBERT模型在此基础上使用了嵌入矩阵分解和参数共享技术，减少了模型中的参数量的同时提高了训练速度。
[0004]BiLSTM(Bi
‑
directional Long Short
‑
Term Memory)是RNN(Recurrent Neural Network)的一种，由前向LSTM与后向LSTM组合而成，在自然语言处理任务中常被用来建模上下文信息，将词的表示组合成句子的表示，可以采用相加的方法，即将所有词的表示进行加和，或者取平均等方法，但是这些方...

【技术保护点】

【技术特征摘要】
1.一种基于ALBERT
‑
BiLSTM模型和SVM
‑
NB分类的文本情绪识别方法，其特征在于包括以下步骤：步骤1)对文本进行分词、去停用词、去除乱码等预处理，包括以下步骤：步骤1.1)使用的是jieba库进行分词、去停用词、去除乱码等操作，其中停用词指的是文档中一些十分常用但不会对文本含义造成影响的词汇；步骤1.2)使用TF
‑
IDF法，统计出重要单词在文本中出现的频率；单词w
i
的TF
‑
IDF值计算公式：其中f(w
i
)表示单词w
i
在文本中出现的频率，D
n
表示文本总数，f
n
(w
i
)表示有单词w
i
出现的文本数量，通过对所有文本中的每一个单词都进项上述的分析，得到每一个单词的TF
‑
IDF值，即可得到各个单词在文本中的重要程度；步骤2)基于ALBERT预训练语言模型对文本进行预处理，包括以下步骤：步骤2.1)利用输入层将步骤1)中得到的文本数据输入到模型的ALBERT层中，输入的文本数据E＝{E1,E2...E
n
}其中E
i
表示该条文本中的第i个词；步骤2.2)对输入的文本数据进行序列化，将文本数据X中的词向量转化成其在字典中相应的编号，序列化后的文本数据X∈{X1,X2...X
n
}其中X
i
表示文本中第i个词序列化之后的标号；步骤3)将步骤2)中得到的数据输入到BiLSTM神经网络，包括以下步骤：步骤3.1)BiLSTM神经网络Forward Layer按正向顺序进行读取，输出的向量集合为其中为最后时刻前向隐层的特征向量；步骤3.2)BiLSTM神经网络Back Layer按逆向顺序进行读取，输出的向量集合为其中为最后时刻后向隐层的特征向量；步骤3.3)将和拼接起来以获...

【专利技术属性】
技术研发人员：左韬，叶子豪，闵华松，
申请(专利权)人：武汉科技大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人