基于LDA和BERT融合改进模型的文本情感识别方法技术

技术编号：34111697 阅读：9 留言：0更新日期：2022-07-12 01:29

本发明专利技术公开一种基于LDA和BERT融合改进模型的文本情感识别方法，该方法包括以下步骤：(1)获取社交网络文本，进行预处理；(2)融合文本的语义特征和主题特征，输出词向量矩阵；(3)将特征输入双向Transformer编码器，连接以梯度优化改进后的Softmax层，输出分类模型；(4)向分类模型投入正式语料，微调参数，改良模型。使用得到的最终分类模型，对社交网络文本进行情感识别，得到更精准识别结果。得到更精准识别结果。得到更精准识别结果。

全部详细技术资料下载

【技术实现步骤摘要】
基于LDA和BERT融合改进模型的文本情感识别方法

[0001]本专利技术涉及一种基于LDA和BERT融合改进模型的文本情感识别方法，属于文本数据识别

技术介绍

[0002]随着大数据时代的到来和5G网络的蓬勃发展，互联网逐渐倡导以用户为中心的开放式架构，网络信息的发布越来越从“及时”到“实时”转变。互联网用户由信息的接受者向发布者转变。社交网络作为一种可以便捷地发布和获取信息的平台，正吸引越来越多的用户在其上对新闻和实事表态，发布个人生活的情感文本。因此，如何准确、及时和有效地获取社交网络文本的情感信息具有重要的价值意义。当前常见的文本情感分析方式有三种。分别是基于情感词典的情感分析方法、基于机器学习的情感分析方法和基于深度学习的情感分析方法。
[0003]基于情感词典的分析法是最早的情感分析方法，将预处理后的词典与情感词典中的词汇进行匹配，然后根据匹配程度计算情感得分并判断情感极性，计算简单但准确率较低。其中关键的一环在于情感词典的构建，传统的构建方法大多基于语义相似度，核心思想是度量候选词与正负情感标签之间的距离，一般采用点互信息法PMI作为度量方法，近年来随着人工智能的快速发展，也有基于机器学习和深度神经网络的词典构建方法。这种方法虽然灵活方便，但构建的情感字典一般是领域内使用，使得基于词典的方法通用性较差。
[0004]基于机器学习的情感分析方法是从大量的语料中进行特征的筛选，方式主要为人工筛选，然后用选择好的特征表示整个文本，最后采用机器学习的方法对文本进行分类。基于机器学习的情...

【技术保护点】

【技术特征摘要】
1.一种基于LDA和BERT融合改进模型的文本情感识别方法，其特征在于，使用LDA主题分析获取社交网络文本主题特征，使用BERT模型获取文本语义特征，将二者词向量拼接投入情感分类模型，使得模型对文本情感更精准识别，输出优化的分类模型，用于文本情感的识别，包括如下步骤：步骤1：获取社交网络文本语料集，并对文本预处理；步骤2：将预处理后的文本语料集投入BERT预训练模型提取语义特征，获得语义特征的词向量矩阵；步骤3：将预处理后的文本语料集投入LDA模型提取主题特征扩展，与步骤2中所得语义特征的词向量进行拼接，获得融合语义和主题特征的词向量矩阵；步骤4：搭建情感分类器，重新将融合语义和主题特征的词向量传入双向Transformer编码器，用梯度优化Softmax回归模型连接Transformer输出的向量，适配多种任务，训练后输出分类模型；步骤5：将用于深度测试的社交文本语料集投入分类器进行深度预训练，评估模型性能，进行参数微调，得到训练好的分类模型，对文本的情感倾向分类。2.根据权利要求1所述的基于LDA和BERT融合改进模型的文本情感识别方法，其特征在于，所述步骤1中对文本预处理的具体步骤包括：步骤S11：文本清洗；步骤S12：分词和去除停用词：根据中文停用词表去除无意义词汇，然后再用jieba对文本进行分词处理；步骤S13：文本过滤：删除社交网络文本语料集中文本长度不在设定长度范围的文本。3.根据权利要求1所述的基于LDA和BERT融合改进模型的文本情感识别方法，其特征在于，所述步骤2中，通过BERT预训练模型对预处理后的文本语料集数据进行语义特征提取，每个词被分别映射成3个向量和表示w
ij
(ω+δ+ρ)，3个向量即文本的词向量、文本向量和位置向量。4.根据权利要求1所述的基于LDA和BERT融合改进模型的文本情感识别方法，其特征在于，所述步骤3中，将预处理后的文本语料集投入LDA模型提取主题特征扩展，与步骤2中所得语义特征的词向量进行拼接，获得融合语义和主题特征的词向量矩阵w
ij
(ω+δ+ρ+μ
′
)，μ
′
为主题向量，下文将该矩阵统称为词向量；具体步骤包括：步骤S31：统计文本语料集中的单词，生成词典；步骤S32...

【专利技术属性】
技术研发人员：朱李玥，戴梦瑶，刘文强，邢莉娟，柏雪嫣，
申请(专利权)人：河海大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人