深层情感语义识别方法、系统、介质、计算机设备及终端技术方案

技术编号：27743530 阅读：60 留言：0更新日期：2021-03-19 13:37

本发明专利技术属于情感语义识别技术领域，公开了一种深层情感语义识别方法、系统、介质、计算机设备及终端，包括采集样本数据，构建训练语料库；对训练语料库中的样本数据进行分析，采用不同的参数通过Bagging并行训练得到多个不同BERT预训练模型；采用得到的多个不同BERT预训练模型分别获取文本的双向语义词向量表示；通过双向GRU模型提取文本上下文的全局语义特征；对提取的全局语义特征进行融合，将多维度特征转换为一维的特征向量；基于得到的一维特征向量利用softmax函数识别文本的情感类别。本发明专利技术能准确的理解评论文本中的情感语义。

全部详细技术资料下载

【技术实现步骤摘要】
深层情感语义识别方法、系统、介质、计算机设备及终端
本专利技术属于情感语义识别
，尤其涉及一种深层情感语义识别方法、系统、介质、计算机设备及终端，具体涉及一种基于BERT-BiGRU多模的深层情感语义识别方法。
技术介绍
目前，越来越多的民众通过社交媒体了解社会热点新闻，并以评论的形式表达态度和意见，对评论进行情感倾向性分析，有助于舆情管控。然而现有情感分析模型存在分类效果不理想、泛化能力不足，传统模型也会带来的一词多义和特征抽取能力较弱问题。由机器学习算法的误差分析可知，通过训练得到的模型要保持偏差和方差均衡，是希望训练后的模型既能够保持其稳定性，也能充分拟合数据。但一般情况下，难以达到平衡，方差和偏差本身也具有冲突性。当模型训练数据的扰动性不足以使得学习器发生明显改变，此时偏差占主要地位，导致训练集和测试集表现均差产生欠拟合现象；而随着训练次数的增多，模型的拟合能力越来越强，方差慢慢占据主导型，轻微的数据扰动都将使模型变化，此时过度学习训练集的特征，导致模型在训练集上表现十分优异，而在测试集上效果不佳，出现过拟合现象。通过上述分析，现有技术存在的问题及缺陷为：传统模型存在一词多义和特征抽取能力较弱问题。某些特殊词语在不同场景下，表现出不同的情感，却在词向量空间代表同样的特征，容易造成词向量歧义，导致情感分析出现失误。除此之外，大多数模型均为单一模型，由于其具有随机性，只能在某一方面表现较好，存在泛化能力不足的问题。总而言之，现有技术在社交网络信息处理上，情感识别方法识别不准确，可扩展性以及实...

【技术保护点】
1.一种深层情感语义识别方法，其特征在于，所述深层情感语义识别方法包括：/n采集样本数据，构建训练语料库；对训练语料库中的样本数据进行分析，采用不同的参数通过Bagging并行训练得到多个不同BERT预训练模型；/n采用得到的多个不同BERT预训练模型分别获取文本的双向语义词向量表示；/n通过双向GRU模型基于获取的双向语义词向量表示提取文本上下文的全局语义特征；/n对提取的全局语义特征进行融合，将多维度特征转换为一维的特征向量；/n基于得到的一维特征向量利用softmax函数识别文本的情感类别。/n

【技术特征摘要】
1.一种深层情感语义识别方法，其特征在于，所述深层情感语义识别方法包括：
采集样本数据，构建训练语料库；对训练语料库中的样本数据进行分析，采用不同的参数通过Bagging并行训练得到多个不同BERT预训练模型；
采用得到的多个不同BERT预训练模型分别获取文本的双向语义词向量表示；
通过双向GRU模型基于获取的双向语义词向量表示提取文本上下文的全局语义特征；
对提取的全局语义特征进行融合，将多维度特征转换为一维的特征向量；
基于得到的一维特征向量利用softmax函数识别文本的情感类别。

2.如权利要求1所述深层情感语义识别方法，其特征在于，所述参数包括但不限于：学习率、训练批次、文本切分长度。

3.如权利要求1所述深层情感语义识别方法，其特征在于，所述采用得到的多个不同BERT预训练模型分别获取文本的双向语义词向量表示包括：
确定文本长度，并判断文本长度是否大于n，如果文本长度大于n，则只输出前n长度的文本语义表示；如果文本长度小于n，则利用BERT模型得到的小于n的输出文本语义表示进行填充，填充多个m维零向量直至输出序列长度为n。

4.如权利要求1所述深层情感语义识别方法，其特征在于，所述通过双向GRU模型基于获取的双向语义词向量表示提取文本上下文的全局语义特征包括：
(1)将获取的双向语义词向量表示通过正向获取到所有过去时间序列中的完整上下文信息，再通过反向获取所有未来时间序列的完整上下文，计算公式如下：

其中，w表示连接两层的权重，b表示偏置向量，f表示激活函数，和分别表示正向GRU和负向GRU输出；
(2)双向GRU在正负向的隐藏层上对输入表示dn进行计算，得到dn隐藏状态ht，将正负GRU采用拼接策略：

得到这个双向GRU的隐藏状态，计算公式如下：
H＝(h1,h2,...,hd)。

5.一种深层情感语义识别系统，其特征在于，所述深层情感语义识别系统包括：
语义输出模块，用于对训练语料库进行分析，输出文本语义表示；
向量表示提取模块，用于利用多个不同的中文BERT预训练模型获取文本的双向语义词向量表示；
特征提取模块，用于基...

【专利技术属性】
技术研发人员：游兰，彭庆喜，
申请(专利权)人：湖北大学，
类型：发明
国别省市：湖北;42

全部详细技术资料下载我是这个专利的主人