当前位置: 首页 > 专利查询>河海大学专利>正文

基于LDA和BERT融合改进模型的文本情感识别方法技术

技术编号:34111697 阅读:9 留言:0更新日期:2022-07-12 01:29
本发明专利技术公开一种基于LDA和BERT融合改进模型的文本情感识别方法,该方法包括以下步骤:(1)获取社交网络文本,进行预处理;(2)融合文本的语义特征和主题特征,输出词向量矩阵;(3)将特征输入双向Transformer编码器,连接以梯度优化改进后的Softmax层,输出分类模型;(4)向分类模型投入正式语料,微调参数,改良模型。使用得到的最终分类模型,对社交网络文本进行情感识别,得到更精准识别结果。得到更精准识别结果。得到更精准识别结果。

【技术实现步骤摘要】
基于LDA和BERT融合改进模型的文本情感识别方法


[0001]本专利技术涉及一种基于LDA和BERT融合改进模型的文本情感识别方法,属于文本数据识别


技术介绍

[0002]随着大数据时代的到来和5G网络的蓬勃发展,互联网逐渐倡导以用户为中心的开放式架构,网络信息的发布越来越从“及时”到“实时”转变。互联网用户由信息的接受者向发布者转变。社交网络作为一种可以便捷地发布和获取信息的平台,正吸引越来越多的用户在其上对新闻和实事表态,发布个人生活的情感文本。因此,如何准确、及时和有效地获取社交网络文本的情感信息具有重要的价值意义。当前常见的文本情感分析方式有三种。分别是基于情感词典的情感分析方法、基于机器学习的情感分析方法和基于深度学习的情感分析方法。
[0003]基于情感词典的分析法是最早的情感分析方法,将预处理后的词典与情感词典中的词汇进行匹配,然后根据匹配程度计算情感得分并判断情感极性,计算简单但准确率较低。其中关键的一环在于情感词典的构建,传统的构建方法大多基于语义相似度,核心思想是度量候选词与正负情感标签之间的距离,一般采用点互信息法PMI作为度量方法,近年来随着人工智能的快速发展,也有基于机器学习和深度神经网络的词典构建方法。这种方法虽然灵活方便,但构建的情感字典一般是领域内使用,使得基于词典的方法通用性较差。
[0004]基于机器学习的情感分析方法是从大量的语料中进行特征的筛选,方式主要为人工筛选,然后用选择好的特征表示整个文本,最后采用机器学习的方法对文本进行分类。基于机器学习的情感分析方法又可分为有监督与无监督两种。常用的有监督的情感分析方法有朴素贝叶斯NB、支持向量机SVM和条件随机场CRF等等,这些方法学习精度较高,但需要人工大量标注数据,对人的要求很高;常用的无监督的机器学习方法摆脱了对人工的依赖,有潜在语义分析PLSA、潜在狄利克雷分配模型LDA等,但是这种方法精度一般较低。
[0005]基于深度学习的情感分析方法利用神经网络自主学习提取文本特征并组合成为高级特征,然后自动执行分类任务,克服了机器学习的缺陷。现在常用于情感分类的神经网络模型有LSTM,一定程度上缓解了一般RNN的梯度爆炸问题,但是仍存在一些问题,如并行计算效率低,运行速度慢等。随着Transformer模型的问世,基于前者的BERT模型在多项NLP任务中都表现卓越,但由于在预训练阶段缺乏大规模情感语料的输入,其在执行情感分析任务时仍存在一定的瓶颈。
[0006]因此有必要提出一种在文本数据情感分析方面有更好表现的方法。

技术实现思路

[0007]专利技术目的:针对现有技术存在的问题与不足,为了提高文本情感提取的精确度,本专利技术提供一种基于LDA和BERT融合改进模型的文本情感识别方法,该方法融合了无监督机器学习的LDA与深度学习的BERT模型,一方面更好地识别社交文本的上下文语义关系,另一
方面融合主题特征,使得最终训练出在情感识别方面有更好表现。
[0008]技术方案:一种基于LDA和BERT融合改进模型的文本情感识别方法,使用LDA主题分析获取社交网络文本主题特征,使用BERT模型获取文本语义特征,将二者词向量拼接投入改进的情感分类模型,使得模型对文本情感更精准识别,输出优化的分类模型,包括如下步骤:
[0009]步骤1:获取社交网络文本语料集,并对文本预处理;
[0010]步骤2:将预处理后的文本语料集投入BERT预训练模型提取语义特征,获得语义特征的词向量矩阵;
[0011]步骤3:将预处理后的文本语料集投入LDA模型提取主题特征扩展,与步骤2中所得语义特征的词向量进行拼接,获得融合语义和主题特征的词向量矩阵;
[0012]步骤4:搭建情感分类器,所述情感分类器为用于识别文本的正负向情感的模型,重新将融合语义和主题特征的词向量传入双向Transformer编码器,用采用随机梯度下降法优化Softmax回归模型连接Transformer输出的向量,适配多种任务,训练后输出分类模型;
[0013]步骤5:将用于深度测试的社交文本语料集投入分类器(分类模型)进行深度预训练,评估分类模型性能,进行参数微调,得到训练好的分类模型,对文本的情感倾向分类。
[0014]通过采用上述技术方案,使用BERT获取短文本的向量表示,更好地提取了短文本的语义特征;通过借助LDA主题模型抽取主题特征与语义特征进行融合,丰富了训练时的特征种类,也弥补了LDA模型在短文本领域的不足,这些特征作为高质量输入传入Transformer模型,再用单层神经网络连接Transformer的输出向量,充分利用GPU资源,使对情感的分析更加细致和高效,对文本数据情感识别也更加准确。
[0015]所述步骤1中对文本预处理的具体步骤包括:
[0016]步骤S11:文本清洗:主要包括去除中文不常用符号、多余空白和繁体转简体3个步骤。
[0017]步骤S12:分词和去除停用词:根据中文停用词表去除无意义词汇,然后再用jieba对文本进行分词处理。
[0018]步骤S13:文本过滤:删除社交网络文本语料集中文本长度不在设定长度范围的文本。社交网络以短文本为主,但是作为LDA模型的训练语料,文本长度也不能过短,因此将长度在20以下、200以上的样本筛去。
[0019]所述步骤2中,通过BERT预训练模型对预处理后的文本语料集数据进行语义特征提取,每个词被分别映射成3个向量和表示w
ij
(ω+δ+ρ),3个向量即文本的词向量、文本向量和位置向量,获得语义特征的词向量矩阵。由于BERT预训练模型只用了前馈神经网络和多头注意力机制,相对于词向量和文本向量,BERT模型还增加了自学习的位置向量。
[0020]所述步骤3中,将预处理后的文本语料集投入LDA模型提取主题特征扩展,与步骤2中所得语义特征的词向量进行拼接,获得融合语义和主题特征的词向量矩阵w
ij
(ω+δ+ρ+μ

),μ

为主题向量,下文将该矩阵统称为词向量;具体步骤包括:
[0021]步骤S31:统计文本语料集中的单词,生成词典;
[0022]步骤S32:利用Gensim模块内的LDA模型对语料进行训练,再将得到的矩阵用tf

idf算法加权处理,得到扩展的主题特征向量;
[0023]步骤S33:得到扩展的主题特征向量后,与步骤2中所得语义特征的词向量进行拼接,使用向量拼接的方式完成主题力度下对文本的扩充,这样就融合了BERT提取的语义特征和LDA提取的主题特征。
[0024]步骤4将步骤3中输出融合语义和主题特征的词向量传入Transformer编码器,而Transformer的输出则被梯度下降优化改进后的Softmax层连接,这一层神经网络主要用于执行情感分析任务,同时也不影响BERT原有的MLM和NSP任务,因为网络也连接了这两个任务执行后的输出。
[0025]本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于LDA和BERT融合改进模型的文本情感识别方法,其特征在于,使用LDA主题分析获取社交网络文本主题特征,使用BERT模型获取文本语义特征,将二者词向量拼接投入情感分类模型,使得模型对文本情感更精准识别,输出优化的分类模型,用于文本情感的识别,包括如下步骤:步骤1:获取社交网络文本语料集,并对文本预处理;步骤2:将预处理后的文本语料集投入BERT预训练模型提取语义特征,获得语义特征的词向量矩阵;步骤3:将预处理后的文本语料集投入LDA模型提取主题特征扩展,与步骤2中所得语义特征的词向量进行拼接,获得融合语义和主题特征的词向量矩阵;步骤4:搭建情感分类器,重新将融合语义和主题特征的词向量传入双向Transformer编码器,用梯度优化Softmax回归模型连接Transformer输出的向量,适配多种任务,训练后输出分类模型;步骤5:将用于深度测试的社交文本语料集投入分类器进行深度预训练,评估模型性能,进行参数微调,得到训练好的分类模型,对文本的情感倾向分类。2.根据权利要求1所述的基于LDA和BERT融合改进模型的文本情感识别方法,其特征在于,所述步骤1中对文本预处理的具体步骤包括:步骤S11:文本清洗;步骤S12:分词和去除停用词:根据中文停用词表去除无意义词汇,然后再用jieba对文本进行分词处理;步骤S13:文本过滤:删除社交网络文本语料集中文本长度不在设定长度范围的文本。3.根据权利要求1所述的基于LDA和BERT融合改进模型的文本情感识别方法,其特征在于,所述步骤2中,通过BERT预训练模型对预处理后的文本语料集数据进行语义特征提取,每个词被分别映射成3个向量和表示w
ij
(ω+δ+ρ),3个向量即文本的词向量、文本向量和位置向量。4.根据权利要求1所述的基于LDA和BERT融合改进模型的文本情感识别方法,其特征在于,所述步骤3中,将预处理后的文本语料集投入LDA模型提取主题特征扩展,与步骤2中所得语义特征的词向量进行拼接,获得融合语义和主题特征的词向量矩阵w
ij
(ω+δ+ρ+μ

),μ

为主题向量,下文将该矩阵统称为词向量;具体步骤包括:步骤S31:统计文本语料集中的单词,生成词典;步骤S32...

【专利技术属性】
技术研发人员:朱李玥戴梦瑶刘文强邢莉娟柏雪嫣
申请(专利权)人:河海大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1