一种基于图卷积网络的多模态情感识别方法技术

技术编号：37786620 阅读：7 留言：0更新日期：2023-06-09 09:17

本发明专利技术公开了一种基于图卷积网络的多模态情感识别方法，包括步骤S1、对视频、音频和文本原始特征进行预处理，获取文本、视频和音频特征；S2、构建文本、视频和音频特征之间的话语时序关系，嵌入说话人信息，采用图卷积网络GCN融合文本模态、视频模态和音频模态中任意两模态，获得三种模态高维度融合特征；S3、进一步构建三种高维度融合特征的时序关系，对三种高维度融合特征进行图卷积网络GCN再融合提升分类的精度，通过全连接层FC得到预测结果。本发明专利技术通过对音频、视频、文本三种模态特征进行两个阶段的图卷积网络GCN融合与训练，对多模态情感模态间特征的潜在联系进行深度融合训练，提升多模态情感识别分类精度。升多模态情感识别分类精度。升多模态情感识别分类精度。

全部详细技术资料下载

【技术实现步骤摘要】
一种基于图卷积网络的多模态情感识别方法

[0001]本专利技术涉及多模态情感识别
，尤其涉及一种基于图卷积网络的多模态情感识别方法。

技术介绍

[0002]多模态情感识别作为人机交互的热门领域，其技术已经被运用于医学、教育、安全驾驶电子商务等领域，多模态情感可以使用音频、视频、文本三种模态进行表达分类，但单种情感表达方式和具体表达的情感并不是简单的线性关系，多模态情感是一系列人体行为与环境因素的综合体现，多模态情感的识别研究应从音频、视频、文本等多维度进行研究。
[0003]现有的基于局部特征的方法，主要是使用音频、视频、文本通过循环神经网络(RecurrentNeuralNetwork，RNN)获得时序关系，然后使用图结构如(GraphConvolutionNetwork，GCN)或者图神经网络(GraphNeuralNetwork，GNN)融合不同模态，最后使用全连接层分类，现有方法通常将重点放在如何更好的使用图结构去收集话语间的信息，未注重对于模态内或模态间特征潜在的联系进行挖掘，多模态情感识别的准确率低。
[0004]现实中，为提高多模态情感识别的准确率，需要关注模态内或模态间特征的融合，并通过进一步的融合与训练来提升多模态情感识别分类的精度。
[0005]文献号为CN112559835B的专利文献公开一种多模态情感识别方法，包括分别提取帧级别的音频特征、帧级别的视频特征和词级别的文本特征；将提取出的特征分别输入到特征编码器进行建模，得到编码后的音频编码、视频编码和文本编码特征；...

【技术保护点】

【技术特征摘要】
1.一种基于图卷积网络的多模态情感识别方法，其特征在于，包括以下步骤：S1、对视频、音频和文本原始特征进行预处理，获取文本、视频和音频特征；S2、构建文本、视频和音频特征之间的话语时序关系，嵌入说话人信息，采用图卷积网络GCN融合文本模态、视频模态和音频模态中任意两模态，获得三种模态高维度融合特征，并对高维度融合特征进行训练；S3、进一步构建三种高维度融合特征的时序关系，对三种高维度融合特征进行图卷积网络GCN再融合，提升多模态情感识别分类的精度，通过全连接层FC得到预测结果，然后通过训练提升多模态情感识别分类的精度。2.根据权利要求1所述的一种基于图卷积网络的多模态情感识别方法，其特征在于：所述S1中对视频、音频、文本原始特征进行预处理，包括使用TextCNN算法提取对文本原始特征处理；使用具有IS10配置的OpenSmile工具包对音频原始特征进行提取处理；使用DenseNet算法在面部表情识别Plus(FER+)语料库上进行视觉面部表情视频原始特征进行预训练提取处理。3.根据权利要求1所述的一种基于图卷积网络的多模态情感识别方法，其特征在于：所述S2中获取三种高维度融合特征包括以下步骤：S21、将视频与音频特征通过双向长短期记忆网络LSTM获得视频与音频的话语时序关系；S22、将视频与音频的话语时序关系嵌入说话人信息，构建全联通图；S23、建立视频模态与音频模态对应于同一话语节点之间的边缘连接，利用图卷积...

【专利技术属性】
技术研发人员：樊春晓，林杰，李心平，
申请(专利权)人：合肥工业大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人