一种基于多维特征融合与比较增强学习机制的蒙古语情感分析方法技术

技术编号:36079358 阅读:26 留言:0更新日期:2022-12-24 10:52
一种基于多维特征融合与比较增强学习机制的蒙古语情感分析方法,对蒙古情感语料进行预处理,将预处理后的蒙古语情感语料进行多维特征表示,然后进行多维特征注意力融合得到融合特征矩阵F;从F中抽取出主题词库,经过CNN模型训练得到主题特征向量S;将F与S输入到TBGRU模型中获取文本语义信息R;将R与S的共同语义特征进行注意力融合;根据融合结果,使用比较增强学习机制获取文本情感分类信息。本发明专利技术能够实现对蒙古语文本的精确情感分析。够实现对蒙古语文本的精确情感分析。够实现对蒙古语文本的精确情感分析。

【技术实现步骤摘要】
一种基于多维特征融合与比较增强学习机制的蒙古语情感分析方法


[0001]本专利技术属于人工智能
,涉及自然语言处理的情感分析,特别涉及一种基于多维特征融合与比较增强学习机制的蒙古语情感分析方法。

技术介绍

[0002]情感分析作为自然语言处理领域和计算机语言学的一项基础任务,旨在判断出文本所表达的情感倾向。情感分析技术主要对篇章级、句子级和方面级三种粒度的文本进行分析,将整篇文章作为研究对象的分析方法比较粗糙,只能判断出文章所表达的整体情感倾向是积极或消极。以句子为单位的情感分析方法能识别出句子所表达的整体情感,但无法对句子中包含的目标词进行情感极性判断。方面级情感分析是一种细粒度级的情感分析,旨在分析句子中特定实体或属性的情感倾向。在以往的研究中,整个段落或者句子中包含的文本信息较多,但它的情感极性比较单一,只能得到正面或负面的情感倾向,这并不能准确地分析出评论者对于某个实体的情感态度。文本情感极性的判别不仅取决于句子中的文本信息,还与文本中特定方面的表达密切相关。由此可见,一个句子中不同方面词会对文本情感极性判断产生不同的影响。对于大多数文本内容来说,只给出一个笼统的情感倾向是没有意义的,都需要得到更细致的分析结果,这样有利于全面了解评论信息,从而做出更正确的选择。
[0003]随着深度学习在自然语言处理领域展现的独特优势,许多研究人员提出了基于循环神经网络(RNN)的方面情感分析模型,但单循环神经网络无法捕捉句中方面词与关键信息间的关联性,于是许多研究人员致力于引入注意力机制来解决。Wang等在长短期记忆网络(LSTM)的隐藏层结合注意力机制,拼接语义向量与方面向量提取情感特征。Tang等人将文本词向量构造为外部记忆进行注意力学习,通过多层注意力的迭代计算得到方面的情感特征。Zhang等人使用卷积和循环神经网络模型实现短文本的情感分类任务,利用卷积神经网络生成粗粒度级特征表示,用长短期记忆网络学习词语长距离依赖信息。这些研究虽然都将RNN和CNN进行各种优势组合,但是由于输入训练模型的文本特征简单,导致提取出来的文本语义信息不足,特别对隐式情感的情感分类准确率不高。
[0004]蒙古语是我国内蒙古自治区蒙古族的民族语言。作为蒙古族人民之间交流的主要用语,蒙古语对内蒙古自治区在政治、经济、文化和社会领域的发展都发挥着重要的作用。但是由于有关蒙古语的情感分析研究起步较晚以及蒙古语自身词法形态变化相比较英、汉等语言语法复杂且蒙古语语料库相对匮乏等原因。因此,基于蒙古语的情感分析研究是十分有必要的。

技术实现思路

[0005]为了克服上述现有技术的缺点,本专利技术的目的在于提供一种基于多维特征融合与比较增强学习机制的蒙古语情感分析方法,将词向量与词性特征、位置特征、句法依存特征
进行注意力多特征融合,抽取出主题词库,然后将融合特征输入到改进的TBGRU模型中获取语义信息,再与主题词库结合进行注意力特征融合语义特征信息,最后使用比较增强机制获取文本方面级情感分类信息。
[0006]为了实现上述目的,本专利技术采用的技术方案是:
[0007]一种基于多维特征融合与比较增强学习机制的蒙古语情感分析方法,包括如下步骤:
[0008]步骤1,对蒙古情感语料进行预处理,将预处理后的蒙古语情感语料进行多维特征表示,然后进行多维特征注意力融合得到融合特征矩阵F;
[0009]步骤2,从所述融合特征矩阵F中抽取出主题词库,经过CNN模型训练得到主题特征向量;
[0010]步骤3,将所述融合特征矩阵F与所述主题特征向量输入到TBGRU模型中获取文本语义信息;
[0011]步骤4,将TBGRU模型的输出结果与所述主题特征向量的共同语义特征进行注意力融合;
[0012]步骤5,根据融合结果,使用比较增强学习机制获取文本情感分类信息。
[0013]与现有技术相比,本专利技术的有益效果是:
[0014]首先,本专利技术改善了以往文本特征提取不全面的问题,提出了多维特征表示法,能够更加充分的提取文本特征。其次,本专利技术对RNN与CNN模型进行了改进结合,对主题特征提取嵌入,能够更充分的提取文本语义信息,对隐式主题方面分类也更加精确。再次,本专利技术在分类时引入了比较增强学习机制,与以往的分类方法相比,通使用比较增强学习机制进行分类能够替代大量的复杂计算。
附图说明
[0015]图1是本专利技术整体流程示意图。
[0016]图2是多维特征融合框架图
[0017]图3是TBGRU模型图。
[0018]图4是比较增强学习机制模型结构图。
具体实施方式
[0019]下面结合附图和实施例详细说明本专利技术的实施方式。
[0020]本专利技术为一种基于多维特征融合与比较增强学习机制的蒙古语情感分析方法,该方法主要分三部分。第一部分是多维特征表示,该部分首先是对词向量进行多维特征表示,再进行多维特征注意力融合,得到多维的融合特征矩阵。第二部分是模型训练,模型训练方法是先从融合特征矩阵中提取主题特征向量,然后将主题特征向量和融合特征矩阵输入到TBGRU模型中训练得到文本语义信息。第三部分是特征融合情感分类,在模型训练阶段已经在TBGRU模型中获取到了文本语义信息,使用注意力语义特征融合方法将主题特征向量、文本语义信息进行注意力融合,根据融合结果得到方面级情感分类的结果。
[0021]如图1所示,本专利技术的方法具体包括如下步骤:
[0022]步骤1,对蒙古情感语料进行预处理,将预处理后的蒙古语情感预料进行多维特征
表示,然后进行多维特征注意力融合得到融合特征矩阵F。
[0023]本专利技术的预处理,是先对蒙古语情感语料进行数据清洗操作,然后进行分词操作。对于分词操作,按照每个蒙古语单词为最小单元分开。以“这款产品的音质较差,但电池寿命很好”为例,其对应的蒙古语表示为为例,其对应的蒙古语表示为分词后的结果为
[0024]然后对文本进行多维特征表示,该方法首先是对词向量进行多维特征表示,再进行多维特征注意力融合,得到多维特征融合词向量。具体步骤如下:
[0025]步骤1.1,多维特征表示。
[0026]文本语料中情感词的词性、词与词的位置关系以及句法依存关系是非常重要的,如示例(这款产品的音质较差,但电池寿命很好)中,虽然前半句话中(音质)的极性为负,但是后半句话中(电池寿命)的极性为正。所以,如图2所示,将文本语料中情感词的词性、词与词的位置关系以及句法依存关系特征加入词向量中,可以从多维度层面挖掘出文本语义隐含的更深层次上的信息。
[0027]设句子中第t个单词的词向量为e
t
,同时将第t个单词对应的词性特征向量、位置特征向量和句法依存特征向量分别设为s
t
、t
t
、q
t
,将句子中的单词拼接在一起,每个特征向量矩阵表示的具体方法如下公式所示:
[0028][0029][0030][0031][0032]其中,a表示句子本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于多维特征融合与比较增强学习机制的蒙古语情感分析方法,其特征在于,包括如下步骤:步骤1,对蒙古情感语料进行预处理,将预处理后的蒙古语情感语料进行多维特征表示,然后进行多维特征注意力融合得到融合特征矩阵F;步骤2,从所述融合特征矩阵F中抽取出主题词库,经过CNN模型训练得到主题特征向量;步骤3,将所述融合特征矩阵F与所述主题特征向量输入到TBGRU模型中获取文本语义信息;步骤4,将TBGRU模型的输出结果与所述主题特征向量的共同语义特征进行注意力融合;步骤5,根据融合结果,使用比较增强学习机制获取文本情感分类信息。2.根据权利要求1所述基于多维特征融合与比较增强学习机制的蒙古语情感分析方法,其特征在于,所述步骤1,预处理包括:数据清洗和分词。3.根据权利要求1所述基于多维特征融合与比较增强学习机制的蒙古语情感分析方法,其特征在于,所述多维特征表示,是将语料中情感词的词性、词与词的位置关系以及句法依存关系特征加入词向量中,以从多维度层面挖掘出文本语义隐含的更深层次的信息;设句子中第t个单词的词向量为e
t
,同时将第t个单词对应的词性特征向量、位置特征向量和句法依存特征向量分别设为s
t
、t
t
、q
t
,将句子中的单词拼接在一起,每个特征向量矩阵表示的具体方法如下公式所示:表示的具体方法如下公式所示:表示的具体方法如下公式所示:表示的具体方法如下公式所示:其中,a表示句子的长度,1≤t≤a,c、d、b和k分别表示词向量矩阵、词性特征向量矩阵、位置特征向量矩阵和句法依存特征向量矩阵的维度,P
c
、P
d
、P
b
和P
k
分别表示该句子的词、词性、位置和句法依存特征向量拼接矩阵,表示向量拼接操作,进行多维特征表示之后输出的矩阵为y,y=P
c
+P
d
+P
b
+P
k
;所述多维特征注意力融合,计算方法如下所示:M(y
i
)=tanh(Wy
i
+b)+b)其中,tanh表示激活函数,y
i
表示矩阵y中的第i个向量,M(y
i
)表示向量y
i
对应特征的权
重,W表示权重矩阵,b表示偏置矩阵,β
i
表示M(y
i
)经过SoftMax的输出,f
i
表示第i个单词的融合特征向量;n表示矩阵y中向量的个数;融合特征矩阵F表示为F=[f1,f2,...,f
i
,...,f
n
]。4.根据权利要求3所述基于多维特征融合与比较增强学习机制的蒙古语情感分析方法,其特征在于,所述步骤2,在融合特征矩阵F中,选用SS

LDA,将一个句子中出现的多个方面主题均提取出来,组成主题词库s=[s1、s2、...、s
i
、...、s
m
],其中,s
i
表示第i个主题词,m表示主题词的个数;将主题词库s输入到CNN模型中,通过卷积和池化操作提取主题特征u,公式如下所示:u=f
relu
(s*W
u
+b
u
)其中,f
relu
表示激活函数,W
u
是c*m的卷积核,b
u
是偏置值;采用最大池化方法对主题特征u进行采样,得到主题特征向量S=[S1、S2、...、S
i
、...、S
M
],其中,S
i
表示采样后得到的第i个主题特征,M表示经过采样后得到的主题特征的个数。5.根据权利要求4所述基于多维特征融合与比较增强学习机制的蒙古语情感分析方法,其特征在于,所述步骤3,TBGRU模型是在GRU模型基础上嵌入了主题特征向量,将融合特征矩阵F输入到所述TBGRU模型中,同时将主题特征向量嵌入到TBGRU模型中进行模型训练,在模型训练过程中添加注意力进行权值分配,得到文本语义信息表示。6.根据权利要求5所述基于多维特征融合与比较增强学习机制的蒙古语情感分析方法,其特征在于,所述步骤3的流程如下:(1)将融合特征矩阵F输入到TBGRU模型中,使用双向GRU对融合特征矩阵F进行编码,输入的每个单词隐藏状态h
i
由前向隐藏状态和后向隐藏状态连接表示,获取以h
i
为中心的整个句子的上下文信息;(2)将主题特征向量S嵌入到TBGRU模型中,使用MLP计算h
i

【专利技术属性】
技术研发人员:苏依拉赵梦莹仁庆道尔吉吉亚图乌尼尔路敏
申请(专利权)人:内蒙古工业大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1