一种基于图卷积网络的多模态情感识别方法技术

技术编号:37786620 阅读:7 留言:0更新日期:2023-06-09 09:17
本发明专利技术公开了一种基于图卷积网络的多模态情感识别方法,包括步骤S1、对视频、音频和文本原始特征进行预处理,获取文本、视频和音频特征;S2、构建文本、视频和音频特征之间的话语时序关系,嵌入说话人信息,采用图卷积网络GCN融合文本模态、视频模态和音频模态中任意两模态,获得三种模态高维度融合特征;S3、进一步构建三种高维度融合特征的时序关系,对三种高维度融合特征进行图卷积网络GCN再融合提升分类的精度,通过全连接层FC得到预测结果。本发明专利技术通过对音频、视频、文本三种模态特征进行两个阶段的图卷积网络GCN融合与训练,对多模态情感模态间特征的潜在联系进行深度融合训练,提升多模态情感识别分类精度。升多模态情感识别分类精度。升多模态情感识别分类精度。

【技术实现步骤摘要】
一种基于图卷积网络的多模态情感识别方法


[0001]本专利技术涉及多模态情感识别
,尤其涉及一种基于图卷积网络的多模态情感识别方法。

技术介绍

[0002]多模态情感识别作为人机交互的热门领域,其技术已经被运用于医学、教育、安全驾驶电子商务等领域,多模态情感可以使用音频、视频、文本三种模态进行表达分类,但单种情感表达方式和具体表达的情感并不是简单的线性关系,多模态情感是一系列人体行为与环境因素的综合体现,多模态情感的识别研究应从音频、视频、文本等多维度进行研究。
[0003]现有的基于局部特征的方法,主要是使用音频、视频、文本通过循环神经网络(RecurrentNeuralNetwork,RNN)获得时序关系,然后使用图结构如(GraphConvolutionNetwork,GCN)或者图神经网络(GraphNeuralNetwork,GNN)融合不同模态,最后使用全连接层分类,现有方法通常将重点放在如何更好的使用图结构去收集话语间的信息,未注重对于模态内或模态间特征潜在的联系进行挖掘,多模态情感识别的准确率低。
[0004]现实中,为提高多模态情感识别的准确率,需要关注模态内或模态间特征的融合,并通过进一步的融合与训练来提升多模态情感识别分类的精度。
[0005]文献号为CN112559835B的专利文献公开一种多模态情感识别方法,包括分别提取帧级别的音频特征、帧级别的视频特征和词级别的文本特征;将提取出的特征分别输入到特征编码器进行建模,得到编码后的音频编码、视频编码和文本编码特征;将编码后的特征先分别经过各自的自注意力模块对模态内的交互关系进行建模,将其进行两两排序组合输入至跨模态注意力模块对两两模态间的交互关系进行建模;对上述自注意力模块和跨模态注意力模块的输出进行时序池化得到各模态内的全局交互特征,两两模态间的全局交互特征;利用注意力机制分别将这上述模态内和模态间的全局交互特征进行加权融合得到整个待测样本模态内和模态间的特征表示,将二者进行拼接经过全连接网络得到最终的情感分类结果。但其重点是利用图结构去收集话语间的信息,对多模态内或多模态间的特征联系没有深度融合,不利于提高多模态情感识别的准确率。

技术实现思路

[0006]本专利技术的目的在于提供一种基于图卷积网络的多模态情感识别方法,解决对多模态情感模态内或模态间特征潜在联系融合训练不深入,多模态情感识别情分类准确率低的问题。
[0007]本专利技术的目的可以通过以下技术方案实现:一种基于图卷积网络的多模态情感识别方法,包括以下步骤:
[0008]S1、对视频、音频和文本原始特征进行预处理,获取文本、视频和音频特征;
[0009]S2、构建文本、视频和音频特征之间的话语时序关系,嵌入说话人信息,采用图卷
积网络GCN融合文本模态、视频模态和音频模态中任意两模态,获得三种模态高维度融合特征,并对高维度融合特征进行训练;
[0010]S3、进一步构建三种高维度融合特征的时序关系,对三种高维度融合特征进行图卷积网络GCN再融合,提升多模态情感识别分类的精度,通过全连接层FC得到预测结果,然后通过训练提升多模态情感识别分类的精度。
[0011]作为本专利技术再进一步的方案:所述S1中对视频、音频、文本原始特征进行预处理,包括使用TextCNN算法提取对文本原始特征处理;使用具有IS10配置的OpenSmile工具包对音频原始特征进行提取处理;使用DenseNet算法在面部表情识别Plus(FER+)语料库上进行视觉面部表情视频原始特征进行预训练提取处理。
[0012]作为本专利技术再进一步的方案:所述S2中获取三种高维度融合特征包括以下步骤:
[0013]S21、将视频与音频特征通过双向长短期记忆网络LSTM获得视频与音频的话语时序关系;
[0014]S22、将视频与音频的话语时序关系嵌入说话人信息,构建全联通图;
[0015]S23、建立视频模态与音频模态对应于同一话语节点之间的边缘连接,利用图卷积网络GCN融合视频与音频两个模态,得到视频与音频高维度融合特征;
[0016]S24、对视频与音频高维度融合特征进行训练,并通过训练获得先验信息,得到较好视频与音频高维度融合特征。
[0017]S25、重复S21至S24的方法,获得训练后较好视频与文本高维度融合特征、文本与音频高维度融合特征;
[0018]作为本专利技术再进一步的方案:所述S3的步骤包括:
[0019]S31、三种高维度融合特征通过双向GRU,构建三种高维度融合特征的时序关系;
[0020]S32、将三种高维度融合特征经过图卷积网络GCN融合,获得高维度高融合特征;
[0021]S33、将再训练后的高维度高融合特征通过多头注意力,提取话语情感倾向,挖掘视频、文本和音频三个模态的潜在联系;
[0022]S34、通过全连接层FC得到预测结果;
[0023]S35、通过训练提升多模态情感识别分类的精度。
[0024]作为本专利技术再进一步的方案:所述训练使用分类交叉熵和L2正则化作为训练的损失函数:
[0025][0026]其中N代表对话的数量,c(i)代表对话i中的话语数量,P
i,j
是预测的对话i中的话语j的情感标签的概率分布,y
i,j
是真实的对话i中的话语j的情感标签,λ是L2正则化的权重,θ是可训练参数。
[0027]作为本专利技术再进一步的方案:所述S33中多头注意力具有两个注意力头。本专利技术的有益效果:
[0028]1、本专利技术通过对音频、视频、文本三种模态特征进行两个阶段的图卷积网络GCN融合与训练,对多模态情感模态间特征的潜在联系进行进一步融合,提升多模态情感识别分类精度。
[0029]2、通过双向LSTM获得音频、视频和文本的话语时序关系,嵌入说话人信息,构建全联通图,利用图卷积网络GCN融合音频、视频、文本三种模态中两个模态,得到视频与音频高维度融合特征,提高音频、视频、文本三种模态间高维度融合特征。
[0030]3、通过双向GRU进一步构建三种高维度融合特征的时序关系,通过对三种高维度融合特征进行进一步图卷积网络GCN融合,获得高维度高融合特征,提高了多模态情感模态间特征的潜在联系,提升多模态情感识别分类精度。
附图说明
[0031]图1为本专利技术第一阶段视频与音频融合训练示意图;
[0032]图2为本专利技术音频、视频、文本三种模态两次融合训练示意图;
具体实施方式
[0033]下面详细描述本专利技术的实施例,所述实施例的示例在附图中表示,其中自始至终相同或类似的符号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的,仅用于解释本专利技术,而不能理解对本专利技术的限制。
[0034]如图1

2所示,本专利技术公开一种基于图卷积网络的多模态情感识别方法,包括S1:对视频、音频和文本原始特征进行预处理本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于图卷积网络的多模态情感识别方法,其特征在于,包括以下步骤:S1、对视频、音频和文本原始特征进行预处理,获取文本、视频和音频特征;S2、构建文本、视频和音频特征之间的话语时序关系,嵌入说话人信息,采用图卷积网络GCN融合文本模态、视频模态和音频模态中任意两模态,获得三种模态高维度融合特征,并对高维度融合特征进行训练;S3、进一步构建三种高维度融合特征的时序关系,对三种高维度融合特征进行图卷积网络GCN再融合,提升多模态情感识别分类的精度,通过全连接层FC得到预测结果,然后通过训练提升多模态情感识别分类的精度。2.根据权利要求1所述的一种基于图卷积网络的多模态情感识别方法,其特征在于:所述S1中对视频、音频、文本原始特征进行预处理,包括使用TextCNN算法提取对文本原始特征处理;使用具有IS10配置的OpenSmile工具包对音频原始特征进行提取处理;使用DenseNet算法在面部表情识别Plus(FER+)语料库上进行视觉面部表情视频原始特征进行预训练提取处理。3.根据权利要求1所述的一种基于图卷积网络的多模态情感识别方法,其特征在于:所述S2中获取三种高维度融合特征包括以下步骤:S21、将视频与音频特征通过双向长短期记忆网络LSTM获得视频与音频的话语时序关系;S22、将视频与音频的话语时序关系嵌入说话人信息,构建全联通图;S23、建立视频模态与音频模态对应于同一话语节点之间的边缘连接,利用图卷积...

【专利技术属性】
技术研发人员:樊春晓林杰李心平
申请(专利权)人:合肥工业大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1