基于T-MBERT预训练模型的蒙古语多模态情感分析方法技术

技术编号:32581185 阅读:40 留言:0更新日期:2022-03-09 17:12
一种基于T

【技术实现步骤摘要】
基于T

M BERT预训练模型的蒙古语多模态情感分析方法


[0001]本专利技术属于人工智能
,特别涉及一种基于T

M BERT(Traditional Mongolian Bidirectional Encoder Representation from Transformers,T

M BERT)预训练模型的蒙古语多模态情感分析方法。

技术介绍

[0002]随着互联网技术的迅猛发展,人们在互联网中的参与度越来越高。网络用户生成的数据包罗万象,包含文本、表情符号、短视频等多种数据形式。在信息化时代下,丰富的信息传播渠道,给网民发布带有个人情绪的观点和意见提供便利,使得网络舆论具有很好的交互作用。而一些负面情绪会产生消极影响甚至引发群体恐慌。
[0003]随着人工智能的崛起,深度学习方法得到了广泛的关注,因其模型具有强大的特征学习能力,所以逐渐成为了解决情感分类问题的重要方法。但对于蒙古语这样的小语种来说,现有的情感分析方法存在以下三点不足。其一,由于蒙古语词汇丰富、形态本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.基于T

M BERT预训练模型的蒙古语多模态情感分析方法,其特征在于,包括如下步骤:步骤1:对含有文本、表情符和GIF短视频的中文情感语料库进行神经机器翻译和人工校正处理,得到蒙古语多模态情感语料;步骤2:针对蒙古语文本和表情符的情感分类模型,经过语料预处理、蒙古语分词、构建Vocab字典、转换蒙古语词向量处理后,使用T

M BERT网络对蒙古语文本和表情符提取情感特征;步骤3:针对GIF短视频的情感分类模型,经过语料预处理、关键帧提取、局部特征处理、全局特征处理后,使用G

Transformer网络对GIF短视频提取情感特征;步骤4:引入注意力机制动态调整文本、表情符和GIF短视频权重信息,将提取的特征作为最终的情感特征;步骤5:采用Softmax函数对最终的情感特征进行分类,获得蒙古语多模态情感分析模型,并得到最终的分类结果;步骤6:将T

M BERT网络和G

Transformer网络并行得到的蒙古语多模态情感分析模型的分析结果与单个网络分析结果就准确率、精确率、召回率和F1值进行对比和评价,以达到提高蒙古语多模态情感分析和舆情预测性能的目的。2.根据权利要求1所述基于T

M BERT预训练模型的蒙古语多模态情感分析方法,其特征在于,所述步骤1中,采用网络爬虫技术获取中文多模态情感语料;然后将其转化成蒙古语多模态情感语料,并进行人工校正处理,达到扩充蒙古语语料的目的。3.根据权利要求1所述基于T

M BERT预训练模型的蒙古语多模态情感分析方法,其特征在于,所述步骤2,语料预处理包括:移除用户名信息、移除特殊字符、错别字纠正;蒙古语分词是采用Mongolian

regularization蒙古语分词技术对预处理得到的蒙古语多模态情感语料进行切分操作;构建Vocab字典是利用蒙古语文本和表情符词典修正切分操作后的蒙古语多模态情感语料,得到最终的蒙古语Vocab词典;转换蒙古语词向量是根据蒙古语Vocab词典,训练T

M BERT自编码的词向量;最后,放入T

M BERT网络训练提取蒙古语文本和表情符情感特征。4.根据权利要求3所述基于T

M BERT预训练模型的蒙古语多模态情感分析方法,其特征在于,用条件语句判断所述蒙古语文本和表情符词典中的标记是否在Vocab词典中出现,如未出现则将其加入到Vocab词典中,并逐渐更新Vocab词典,通过扩展情感词典的方式进一步扩充蒙古语情感特征;所述T

M BERT网络的编码方式,由token词向量v
t
、情感向量v
E
、位置向量v
p
三部分组成,通过下列公式计算蒙古语文本和表情符的输入序列对应的向量表示v:v=v
t
+v
E
+v
p
其中,v
t
,v
E
和v
p
三种向量的大小均为N
×
e,N表示输入的蒙古语文本和表情符序列最大长度,e表示词向量维度;v
t
表示token词向量,作用是通过词向量矩阵将输入的文本和表情符特征转化为实值向量表示,具体计算公式如下:v
t
=e
t
W
t
式中,W
t
表示可训练的token词向量矩阵,e
t
表示token词向量的编码;
v
E
表示情感向量,作用是通过标记来确定情感特征的信息,利用情感向量矩阵W
E
将情感编码e
E
转换为实值向量,得到情感向量v
E
为:v
E
=e
E
W
E
式中,W
E
表示可训练的情感向量矩阵,e
E
表示情感向量的编码;v
p
表示位置向量,作用是用来编码每个词的绝对位置,将输入序列中的每个词按照下标顺序依次转换为位置独热编码,并利用位置向量矩阵W
p
将位置独热编码e
p
转换为实值向量,得到的位置向量v
p
为:v
p
=e
p
W
p
式中,W
p
表示可训练的位置向量矩阵,e
p
表示位置向量编码;所述T

M BERT网络的结构中,引入一个情感标记掩盖层,随机对情感标记以不同的概率进行掩盖,并遵循以下规则:以80%的概率替换为[MSAK]标记;以10%的概率替换为蒙古语情感词典或表情符情感词典中的任意一个情感标记;以10%的概率保持原词不变。5.根据...

【专利技术属性】
技术研发人员:仁庆道尔吉张倩萨和雅代钦锡林格日勒
申请(专利权)人:内蒙古工业大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1