一种基于ERNIE和多特征融合的多模态情感分析方法技术

技术编号：36695471 阅读：15 留言：0更新日期：2023-02-27 20:07

本发明专利技术涉及自然语言处理技术领域，公开了一种基于ERNIE的多特征融合的多模态情感分析方法，具体为：对文本数据进行预处理得到数据集，对数据集划分；构建情感分析模型；将低层的字词特征与高层的语义特征组合；对表情进行双义嵌入；对文本数据进行分词并使用one

全部详细技术资料下载

【技术实现步骤摘要】
一种基于ERNIE和多特征融合的多模态情感分析方法

[0001]本专利技术涉及自然语言处理
，具体的说是涉及一种基于ERNIE的表情符号和字词向量结合的多模态情感分析方法。

技术介绍

[0002]近年来，深度学习技术的迅速发展为自然语言处理领域内的各种任务带来了一大新的便捷方法。在情感分析任务上使用基于深度学习的分类模型在多个领域的数据集上取得了非常好的效果。随着社交网络的发展，emoji表情符号开始广泛出现在人们的评价文本中，用户在表达情感倾向时通常偏好使用emoji来辅助表达、代替文字，因此emoji在文本的情感分析任务重也有着较重要的地位。传统情感分析方法通常选择在预处理时洗去emoji表情，这往往会导致一些重要特征的丢失，除此之外emoji表情通常在不同语境当中有着截然相反的情感，进而导致分类困难。现有的使用预训练模型的情感分析方法通常选用BERT来进行预训练，但BERT在MLM预训练任务中通常因未完整mask掉实体词而造成无效mask。
[0003]综上所述，如何针对中文文本存在的问题选择合适的方法予以解决，提高中文文本的情感极性分类的准确性成为亟待解决的问题。

技术实现思路

[0004]为了解决上述现有技术中存在的问题，本专利技术提供了一种基于ERNIE和多特征融合的多模态情感分析方法，ERNIE在与训练任务中加入中文实体词信息，通过对语言模型进行预训练和微调操作提升模型的向量表征能力，通过对ERNIE输入预处理，加入标签嵌入以辅助训练，之后将ERNIE组合形成的句子向量和F...

【技术保护点】

【技术特征摘要】
1.一种基于ERNIE和多特征融合的多模态情感分析方法，构建情感分析模型，所述情感分析模型包括词嵌入层、ERNIE和带有分段池化的CNN特征提取层以及FastText层，其特征在于：所述多模态情感分析方法包括以下步骤：步骤1、获取带有emoji表情的文本数据形成文档作为训练语料，对文档进行数据预处理得到数据集，记录每个emoji表情出现在正向或负向文本中的比例，存储记录表；步骤2、将步骤1中采集到的数据集按8:1:1的比例划分为训练集、验证集以及测试集；步骤3、对不同文本类型进行标签标注，构建情感分析模型；步骤4、将步骤1预处理后的数据通过查找ERNIE词典将对应字转化为向量，在原有句子向量尾部加入标签向量并输入ERNIE模型中，得到12层encoder共得到12组字的字向量表示，取2
‑
12层CLS标识位对应的字向量拼接，即将低层的字词特征与高层的语义特征组合，作为每个句子的句子特征的向量表示，取最后一层全部字向量作为每个句子的字特征的向量表示；步骤5、使用FastText对含有emoji的文本进行双义嵌入，将得到的emoji向量存入向量表；步骤6、对含有emoji的文本数据进行分词得到每个词的词性特征并使用one
‑
hot编码得到对应的词性向量；步骤7、将步骤4和步骤5得到的向量进行拼接，使用词性编码，根据文本对应位置再次拼接，得到每个句子对应的最终的融合文本、表情、词性和标签的句子向量；步骤8、将步骤7得到的向量送入CNN中，使用卷积操作降维和特征提取得到新的表示，将卷积后得到的特征向量送入分段池化层，在句子向量中分段提取最大特征并拼接，经平均池化后得到最终向量表示；步骤9、使用Tanh函数对步骤8处理后的特征向量激活，并送入带有dropout、Softmax的全连接层进行分类，得到最终分类结果。2.根据权利要求1所述的一种基于ERNIE和多特征融合的多模态情感分析方法，其特征在于：步骤5中具体为：取特定标识符分隔的emoji符号部分，得到文本中的emoji表情，将表情符号视作一个特殊的词，对同一文本赋予正负不同极性标记，通过使用FastText模型对文本中所出现的emoji表情在不同标记下做双义嵌入，即对emoji表情进行正义编码和负义编码并存入向量表中。3.根据权利要求1所述的一种基于ERNIE和多特征融合的多模态情感分析方法，其特征在于：所述数据集中每一条文本数据内仅保留一个emoji表情，将文本与emoji表情以特定标识符分隔开。4.根据权利要求3所述的一种基于ERNIE和多特征融合的多模态情感分析方法，其特征在于：所述特定标识符为||。5.根据权利要求1所述的一种基于ERNIE和多特征融合的多模态情感分析方法，其特征在于：步骤4中将预处理后的数据通过查找ERNIE词典将对应字转化为向量，在原有句子向量尾部加入标签向量并输入ERNIE模型中是指：加载预训练好的ERNIE模型，加载ernie_config.json、pytorch_model.ckpt、vocab.txt三个文件，将收集...

【专利技术属性】
技术研发人员：章韵，房辉，
申请(专利权)人：南京邮电大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人