一种基于ERNIE和多特征融合的多模态情感分析方法技术

技术编号:36695471 阅读:14 留言:0更新日期:2023-02-27 20:07
本发明专利技术涉及自然语言处理技术领域,公开了一种基于ERNIE的多特征融合的多模态情感分析方法,具体为:对文本数据进行预处理得到数据集,对数据集划分;构建情感分析模型;将低层的字词特征与高层的语义特征组合;对表情进行双义嵌入;对文本数据进行分词并使用one

【技术实现步骤摘要】
一种基于ERNIE和多特征融合的多模态情感分析方法


[0001]本专利技术涉及自然语言处理
,具体的说是涉及一种基于ERNIE的表情符号和字词向量结合的多模态情感分析方法。

技术介绍

[0002]近年来,深度学习技术的迅速发展为自然语言处理领域内的各种任务带来了一大新的便捷方法。在情感分析任务上使用基于深度学习的分类模型在多个领域的数据集上取得了非常好的效果。随着社交网络的发展,emoji表情符号开始广泛出现在人们的评价文本中,用户在表达情感倾向时通常偏好使用emoji来辅助表达、代替文字,因此emoji在文本的情感分析任务重也有着较重要的地位。传统情感分析方法通常选择在预处理时洗去emoji表情,这往往会导致一些重要特征的丢失,除此之外emoji表情通常在不同语境当中有着截然相反的情感,进而导致分类困难。现有的使用预训练模型的情感分析方法通常选用BERT来进行预训练,但BERT在MLM预训练任务中通常因未完整mask掉实体词而造成无效mask。
[0003]综上所述,如何针对中文文本存在的问题选择合适的方法予以解决,提高中文文本的情感极性分类的准确性成为亟待解决的问题。

技术实现思路

[0004]为了解决上述现有技术中存在的问题,本专利技术提供了一种基于ERNIE和多特征融合的多模态情感分析方法,ERNIE在与训练任务中加入中文实体词信息,通过对语言模型进行预训练和微调操作提升模型的向量表征能力,通过对ERNIE输入预处理,加入标签嵌入以辅助训练,之后将ERNIE组合形成的句子向量和FastText形成的emoji向量以及one

hot后形成的词性向量进行拼接并使用卷积神经网络模型提取特征,在CNN中使用分段池化代替传统最大池化以确保提取可能存在的不同极性特征,有效提高了情感分析的效果。
[0005]为了达到上述目的,本专利技术是通过以下技术方案实现的:
[0006]本专利技术是一种基于ERNIE和多特征融合的多模态情感分析方法,构建情感分析模型,该模型包括词嵌入层,ERNIE和带有分段池化的CNN特征提取层,FastText层,其特征在于:所述方法包括以下步骤:
[0007]步骤1、获取带有emoji表情的文本数据作为训练语料,对文本进行清洗、标签标注、情感极性标注和emoji标注,此外记录每个emoji表情出现在正向/负向文本中的比例,存储记录表;
[0008]步骤2、将步骤1中采集到的数据集按8:1:1的比例划分为训练集、验证集以及测试集;
[0009]步骤3、对不同文本类型进行标签标注,构建多模态情感分析模型;
[0010]步骤4、将预处理完的数据通过查找ERNIE词典将对应字转化为向量,在原有句子向量尾部加入标签向量并输入ERNIE模型中,得到12层encoder共得到12组字的字向量表示,其中encoder中的MultiHead

Attention计算公式如下:
[0011][0012]MultiHead(Q,K,V)=Concat(head1,...,head
h
)W
o
[0013]where head
i
=Attention(QW
iQ
,KW
iK
,VW
iV
)
[0014]其中Q表示查询矩阵;K表示键矩阵;V表示值矩阵。代表Q进行线性变换的矩阵;代表K进行线性变换的矩阵;代表V进行线性变换的矩阵;h表示头的数量,每个头可以在不同的位置上关注来自不同表示的信息。取2

12层CLS标识位对应向量以及第12层全部字向量;
[0015]步骤5、使用FastText对含有emoji的文本进行双义嵌入,将得到的emoji向量存入向量表以便查找使用;
[0016]步骤6、对文本数据进行分词得到每个词的词性特征并使用one

hot编码得到对应的词性向量。
[0017]步骤7、将步骤4和步骤5得到的向量进行拼接,使用词性编码,根据文本对应位置再次拼接,得到每个句子对应的最终的融合文本、表情、词性和标签的句子向量;
[0018]步骤8、将步骤7得到的向量送入CNN中卷积操作降维,使用分段池化在句子向量中分段提取平均特征并拼接,卷积神经网络计算如下:
[0019]C
i
=relu(f(ω
×
x
i:i+h
‑1+b))
[0020]其中ω为卷积核的权重,b为偏置,f为激活函数,此处采用Relu函数作为激活函数,h为卷积核大小,矩阵x
i:i+h
‑1为字x
i
,x
i+1


,x
i+h
‑1组成的特征矩阵。将卷积后得到的特征向量送入分段池化层并得到最终向量表示。
[0021]步骤9、使用Tanh函数对步骤8处理后的特征向量激活,并送入带有dropout、Softmax的全连接层进行分类,得到最终分类结果。
[0022]进一步地,步骤1中,获取文本数据形成文档,对文档进行数据预处理以保证一条文本数据内仅保留一个emoji表情;将文本与emoji表情以特定符号分隔开,以便后续单独处理。
[0023]进一步地,步骤1、步骤2中,预处理包括:过滤掉特殊字符和数据标注,过滤掉停用词,对文本的不同类别赋予标签,对文本情感极性标注,统计同一emoji在正/负向语境中出现比例。
[0024]进一步地,步骤3中,为每条文本数据分配类别标签,如“外卖评价”、“商品评价”等。在vocab.txt文件中添加每个标签对应数字。
[0025]进一步地,步骤4中,加载预训练好的ERNIE模型,加载ernie_config.json、pytorch_model.ckpt、vocab.txt三个文件;将收集到的数据集中的不含表情的文本数据使用

<SEP>

标识符连接文本类型标签作为训练预料对ERNIE进行fine

tuning。得到ERNIEI12层encoder输出的字向量,取2至12层CLS标志位所对应的字向量拼接,即将低层的字词特征与高层的语义特征组合,作为每个句子的句子特征的向量表示。取最后一层全部字向量作为每个句子的字特征的向量表示。
[0026]进一步地,步骤5中,取特定标识符分隔的emoji符号部分,得到文本中的emoji表情,将表情符号视作一个特殊的词,对同一文本赋予正负不同极性标记,通过使用FastText
模型对文本中所出现的emoji表情在不同标记下做双义嵌入,即对其进行正义编码和负义编码并存入向量存储表中。
[0027]进一步地,步骤6中,首先对文本数据进行分词得到分词后的词语,通过词性查找表得到每个词即对应位置所对应的词性,使用one

hot本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于ERNIE和多特征融合的多模态情感分析方法,构建情感分析模型,所述情感分析模型包括词嵌入层、ERNIE和带有分段池化的CNN特征提取层以及FastText层,其特征在于:所述多模态情感分析方法包括以下步骤:步骤1、获取带有emoji表情的文本数据形成文档作为训练语料,对文档进行数据预处理得到数据集,记录每个emoji表情出现在正向或负向文本中的比例,存储记录表;步骤2、将步骤1中采集到的数据集按8:1:1的比例划分为训练集、验证集以及测试集;步骤3、对不同文本类型进行标签标注,构建情感分析模型;步骤4、将步骤1预处理后的数据通过查找ERNIE词典将对应字转化为向量,在原有句子向量尾部加入标签向量并输入ERNIE模型中,得到12层encoder共得到12组字的字向量表示,取2

12层CLS标识位对应的字向量拼接,即将低层的字词特征与高层的语义特征组合,作为每个句子的句子特征的向量表示,取最后一层全部字向量作为每个句子的字特征的向量表示;步骤5、使用FastText对含有emoji的文本进行双义嵌入,将得到的emoji向量存入向量表;步骤6、对含有emoji的文本数据进行分词得到每个词的词性特征并使用one

hot编码得到对应的词性向量;步骤7、将步骤4和步骤5得到的向量进行拼接,使用词性编码,根据文本对应位置再次拼接,得到每个句子对应的最终的融合文本、表情、词性和标签的句子向量;步骤8、将步骤7得到的向量送入CNN中,使用卷积操作降维和特征提取得到新的表示,将卷积后得到的特征向量送入分段池化层,在句子向量中分段提取最大特征并拼接,经平均池化后得到最终向量表示;步骤9、使用Tanh函数对步骤8处理后的特征向量激活,并送入带有dropout、Softmax的全连接层进行分类,得到最终分类结果。2.根据权利要求1所述的一种基于ERNIE和多特征融合的多模态情感分析方法,其特征在于:步骤5中具体为:取特定标识符分隔的emoji符号部分,得到文本中的emoji表情,将表情符号视作一个特殊的词,对同一文本赋予正负不同极性标记,通过使用FastText模型对文本中所出现的emoji表情在不同标记下做双义嵌入,即对emoji表情进行正义编码和负义编码并存入向量表中。3.根据权利要求1所述的一种基于ERNIE和多特征融合的多模态情感分析方法,其特征在于:所述数据集中每一条文本数据内仅保留一个emoji表情,将文本与emoji表情以特定标识符分隔开。4.根据权利要求3所述的一种基于ERNIE和多特征融合的多模态情感分析方法,其特征在于:所述特定标识符为||。5.根据权利要求1所述的一种基于ERNIE和多特征融合的多模态情感分析方法,其特征在于:步骤4中将预处理后的数据通过查找ERNIE词典将对应字转化为向量,在原有句子向量尾部加入标签向量并输入ERNIE模型中是指:加载预训练好的ERNIE模型,加载ernie_config.json、pytorch_model.ckpt、vocab.txt三个文件,将收集...

【专利技术属性】
技术研发人员:章韵房辉
申请(专利权)人:南京邮电大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1