一种融合先验知识的蒙古语文本情感分析方法技术

技术编号:31082193 阅读:26 留言:0更新日期:2021-12-01 12:28
一种融合先验知识的蒙古语文本情感分析方法,对含有表情符的蒙古语情感文本语料库进行预处理;将经过预处理得到的文本词和表情符转换为动态词向量;分别创建蒙古语情感词典和表情符的情感词典将二者提取的特征作为模型最终提取的情感特征;由CNN网络和门控机制组成蒙古语文本情感分析模型;将融入先验知识的模型在大规模蒙古语语料上进行预训练,得到融合先验知识的蒙古语文本情感分析模型;将该模型的分析结果与单一网络分析方法的分析结果就精确率、召回率和F1值进行对比和评价,达到提高蒙古语文本情感分析性能的目的。提高蒙古语文本情感分析性能的目的。提高蒙古语文本情感分析性能的目的。

【技术实现步骤摘要】
一种融合先验知识的蒙古语文本情感分析方法


[0001]本专利技术属于人工智能
,特别涉及一种融合先验知识的蒙古语文本 情感分析方法。

技术介绍

[0002]随着互联网技术的快速发展,越来越多的人开始在诸如微博、论坛、影视 网站、购物网站等平台发表各种言论,以此来分享自己的心情、观点和意见。 随着时代的发展,文本的载体出现多元化,其中表情符就是一种新的载体。用 户发表的这些内容可能包含不同的感情色彩:有开心的或是喜爱的;悲伤的亦 或是愤怒的。情感分析的核心是将一段文本所表达的情感分为happiness、 like、sadness、anger四个类别。
[0003]随着人工智能的崛起,深度学习方法得到了广泛的关注,因其模型具有强 大的特征学习能力,所以逐渐成为了解决情感分类问题的重要方法。但对于蒙 古语这样的小语种来说,现有的文本情感分析方法存在以下三点不足。其一, 由于蒙古语词汇丰富形态变化多,就造成了在蒙古语文本情感分析过程中出现 了严重的未登录词现象,而大量未登录词的存在严重影响情感分析的准确率。 其二,目前单一的神经网络模型在本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种融合先验知识的蒙古语文本情感分析方法,其特征在于,包括如下步骤:步骤1:对含有表情符的蒙古语情感文本语料库进行预处理;步骤2:BPE分词技术对蒙古语语料进行分词;步骤3:将经过预处理得到的词转换为动态词向量;步骤4:分别创建蒙古语情感词典和表情符的情感词典作为模型的先验知识;步骤5:将融合先验知识的模型在大规模的语料进行预训练,得到融合先验知识模型的蒙古语文本情感分析模型;步骤6:将融合先验知识的蒙古语文本情感分析模型的分析结果与单一网络分析方法的分析结果就准确率、精确率、召回率和F1值进行对比和评价,以达到提高蒙古语文本情感分析性能的目的。2.根据权利要求1所述融合先验知识的蒙古语文本情感分析方法,其特征在于,所述步骤1中,预处理是对所获取的语料进行数据清洗,解决数据源问题,比如原始数据错误,脏乱差。预处理包括移除用户名信息、移除URLS、移除特殊字符等步骤。3.根据权利要求2所述融合先验知识的蒙古语文本情感分析方法,其特征在于,采用字节对编码技术(BPE)分词技术对预处理的语料信息进行切分操作,利用GloVe模型将文本语料和表情符训练生成对应的词向量,并并使用词向量结果贪心地发现未登录词,修正切分结果。4.根据权利要求3所述融合先验知识的蒙古语文本情感分析方法,其特征在于,所述利用GloVe训练生成词向量的目标函数J(W)为:其中,W为词向量矩阵,W∈R
|V|*d
,|V|表示词的数量,d表示词向量维数;X
ij
表示词w
j
在词w
i
的语境下出现的次数,W
i
表示词w
i
的词向量,W
j
表示词w
j
的词向量,f(X
ij
)是权重项,用于去除低频项噪声,其表达式如下:其中,X
max
为X
i
中的最大值,X
i
表示在词w
i
的语境下出现的所有的词的次数,X
i
=∑
j
X
ij
;对于原分词结果Y=W1W2…
W
m
,从头开始比较当前词w
i
的词向量W
i
与下一个词w
i+1
的词向量W
i+1
的夹角余弦值,夹角余弦值公式为:若该夹角余弦值大于预先给定的阈值λ,则认为词w
i
和词w
i+1

【专利技术属性】
技术研发人员:仁庆道尔吉刘馨远张倩张文静张毕力格图郎佳珺萨和雅吉亚图
申请(专利权)人:内蒙古工业大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1