【技术实现步骤摘要】
一种基于多层级图神经网络的多模态情感识别方法及模型
[0001]本专利技术涉及多模态情感计算技术,特别涉及一种基于多层级图神经网络的多模态情感识别方法及模型。
技术介绍
[0002]情感分析旨在检测人们对某一目标对象所产生的看法。早期的情感分析工作主要局限于从文本数据中学习语义信息以识别情感。深度学习的迅速发展促使这项研究进一步向包括文本、音频和图像的多模态数据展开。与单模态情感分析模型相比,多模态模型更具鲁棒性且识别准确率更高。现今,多模态情感分析技术已广泛应用于许多实际场景,例如可信度检测,用户偏好等。
[0003]基于多模态数据的时序动态特性,早期的情感识别模型往往会预先将多模态数据按照时间步长对齐,并采用循环神经网络的框架来提取其时序语义信息。然而,这种对齐的预处理做法将多模态的交互限制在单词级别,且需耗费大量的时间和人力。此外,循环神经网络的层次加深所引发的梯度爆炸/消失及高时间复杂度也是难以克服的问题。
[0004]现阶段大多数研究以Transformer神经网络为框架,它能够端到端地处理未对齐的 ...
【技术保护点】
【技术特征摘要】
1.一种基于多层级图神经网络的多模态情感识别方法,其特征是,包括有以下步骤:S1、对单个模态数据的语义时序信息预处理,分别进行特征提取,构建单模态节点及连接边,形成单模态特征图结构;S2、通过多个图卷积神经网络分别对单模态语义信息进行聚合,得到单模态内部的语义关系张量;S3、利用协调损失函数调整不同模态对于情感识别分类结果的影响因子,抑制多模态信息中的噪声干扰;S4、通过多种类型的边将多个模态结点进行连接,构建多模态特征图结构,对多种模态信息进行融合;S5、使用多层级图神经网络,根据不同类型的边将跨模态特征交互进行聚合,利用局部邻域信息预测情感类别。2.根据权利要求1所述的基于多层级图神经网络的多模态情感识别方法,其特征是:单模态特征图记作G
m
=(V
m
,E
m
),其中m表示模态类别,包含图像,音频和文本三类,V表示节点,E表示边;步骤S1中单模态节点V的构建具体为:使用预训练嵌入模型将原始单个模态数据转化为特征向量;使用双向长短记忆神经网络bi
‑
LSTM抽取单模态数据的时序语义信息,并将各特征向量的序列长度与维度一致化;其中,表示由嵌入模型预处理过后的特征序列,T
m
为该序列片段长度,d
m
表示其通道数;表示经过双向长短记忆神经网络后得到的时序特征向量,k和d分别表示向量长度和特征维度;连接边E的构建基于节点之间的相似性,具体为:其中,W
α
和W
β
表示可学习权重参数,T表示向量转置,
·
表示向量间的内积操作。3.根据权利要求2所述的基于多层级图神经网络的多模态情感识别方法,其特征是:图像、音频、文本三种模态数据使用的预训练嵌入模型分别是Facet,COVAREP和Glove模型,对应的最大序列长度分别是500,500,50;双向长短记忆神经网络bi
‑
LSTM添加有三种门控单元,分别为输入门i
t
,遗忘门f
t
和输出门o
t
,计算公式具体为:,计算公式具体为:,计算公式具体为:,计算公式具体为:,计算公式具体为:
其中t表示时刻,f
t
,i
t
和o
t
分别代表遗忘门,输入门和输出门,δ和ω均是权重矩阵,其中δ表示从输入层到隐藏层,ω表示从隐藏层到隐藏层,ε为偏移量矩阵,σ为sigmoid激活函数;表示暂时状态;LSTM先通过遗忘门f
t
和输入门i
t
控制记忆单元遗忘历史信息C
t
‑1和保留当前结构体暂时状态的数量,确定当前结构体的状态C
t
;LSTM再使用输出门o
t
的信息确定输出到隐藏状态层C
t
的信息输出到隐藏状态层h
t
的方式,计算公式为:h
t
=o
t
·
tanh(C
t
)。4.根据权利要求1所述的基于多层级图神经网络的多模态情感识别方法,其特征是:步骤2中的聚合算法基于G...
【专利技术属性】
技术研发人员:龚沛朱,刘晋,吴中岱,韩冰,
申请(专利权)人:上海船舶运输科学研究所有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。