一种基于宽时间范畴的多模态情境情感识别方法及系统技术方案

技术编号:39654449 阅读:7 留言:0更新日期:2023-12-09 11:23
本发明专利技术公开了一种基于宽时间范畴的多模态情境情感识别方法及系统,包括以下步骤:利用自然环境下的音视频资源,构建基于情境的视频情感数据集;基于

【技术实现步骤摘要】
一种基于宽时间范畴的多模态情境情感识别方法及系统


[0001]本专利技术涉及情感识别
,具体涉及一种基于宽时间范畴的多模态情境情感识别方法及系统


技术介绍

[0002]人类在沟通时往往会结合表情

语言

姿态等多种表达方式来传递自己的观点,因此单一模态的情感识别往往无法准确地判断目标人物的情感状态

多模态情感识别可以通过从不同的模态数据中挖掘情感信息并进行融合,使各个模态的信息实现互补,从而实现具有鲁棒性的

情感表征能力更强的情感识别系统

[0003]自情感计算的概念出现以来,众多研究人员在情感计算的识别领域做出了相当多的贡献,然而多模态情感识别领域仍然存在很多难点和挑战

[0004](1)
目前的多模态情感识别方法仅将当前时刻的多种情感表达进行多模态融合,但是人类的情感变化会受到某些事件导致的因果关系的影响,要将目标人物的显式情感表达与情绪变化的原因联系起来,才能更准确地分析情感状态

因此在情感分析模型中,需要结合发生过的事件
(
情境上下文信息
)
和当前时刻的信息综合考虑,因此对宽时间范畴的情感特征提取方法的研究是有必要性的

如何将宽时间范畴的研究带来的情境信息转化为模型能够处理的形式,如何捕捉情境信息对情感识别带来的影响,是目前需要解决的难题

[0005](2)
情景信息作为情感分析的辅助信息,对于情感识别的辅助作用还在研究的初期阶段,目前的方法大多使用卷积神经网络提取图像中的情景信息,但并不是全部的情景信息都对目标主体的情感状态有影响,对整幅图像包含的信息进行学习可能会带来冗余信息,需要使模型能区分出对情感状态有影响的区域

[0006](3)
跨模态不一致

情绪对于人类来说是一种非常主观的内在感受,个人的成长背景

文化背景

周围的环境等因素,都会影响其面对不同情况的情绪变化

不同的人在情绪相同的情况下,心理状态和外在表现可能会大相径庭

显式情感表达还可能会因为主观的抑制或伪装让人产生错误的判断,比如一个人在面对可怕的场景时会假装镇定,但是可以从面部表情和语音等多个角度进行情感信息的挖掘,捕捉到害怕的情绪

因此,需要情感识别模型对不同模态的情感表达进行综合判断,从而分析出目标人物的真实情感状态

[0007](4)
跨模态不平衡

不同的人表达情感的方式存在差异,因此在多模态情感识别过程中,不同的模态对情感分析的贡献都不是一成不变的,某些情况下可能面部表情的变化更明显,或者语音语调表达了更强烈的情绪,亦可能在行动上表现出了情感的状态,不同情况下每个模态的情感表达强度都是不相同的

因此在多模态融合的过程中需要考虑如何有效的将贡献度不同的模态融合,实现准确的情感分析


技术实现思路

[0008]为了克服现有技术的不足,本发提供一种基于宽时间范畴的多模态情境情感识别方法及系统,用于解决现有的多模态情感识别技术存在的仅针对当前时刻包含的信息进行
情感挖掘

不能有效区分出对情感状态有影响的区域

跨模态不一致以及跨模态不平衡等的技术问题,从而实现具有鲁棒性的

情感表征能力更强的情感识别系统的目的

[0009]为解决上述问题,本专利技术所采用的技术方案如下:
[0010]一种基于宽时间范畴的多模态情境情感识别方法,包括以下步骤:
[0011]利用自然环境下的音视频资源,构建基于情境的视频情感数据集;
[0012]基于
BERT
模型对所述视频情感数据集进行文本情感识别;
[0013]通过引入通道注意力机制,对人物面部情感进行识别;
[0014]构建基于注意力机制的多模态多分支融合模型,并通过所述多模态多分支融合模型得到最终的情感识别结果

[0015]作为本专利技术优选的实施方式,在构建基于情境的视频情感数据集时,包括:数据采集

情感类别定义

数据处理和以及数据标注;
[0016]其中,所述数据采集,包括:
[0017]筛选出与当前真实环境下的条件差别不大的影视剧,使用视频编辑工具在视频帧级别截取目标片段,将单个数据的时长控制在预设时间内,并且在尽可能减少镜头切换次数的基础上保留有用的场景信息;
[0018]所述情感类别定义,包括:
[0019]以
EMOTIC
数据集定义的情感类别为基准,加入了
IEMOCAP
中的沮丧情感和遗憾情感,得到多种情感类别;
[0020]所述数据处理,包括:
[0021]使用
YOLO V5

Deepsort
结合的多人目标追踪方法,识别并追踪视频当中所有出现的人,为每一个人的检测框赋予一个编号,并得到每一个检测框在图像中的坐标和宽高;基于检测到了目标人物在图像中的位置,利用
MTCNN
算法提取出人脸部分,并使用了
libfacedetection
算法进行查漏补缺;
[0022]所述数据标注,包括:
[0023]对每一个样本进行情感标注和文字标注;
[0024]其中,所述情感标注,包括:基于定义的多种情感类别,采用多标签的方式给所述每一个样本标注情感;
[0025]所述文字标注,包括:被标注者在当前视频片段中的台词

事实描述以及情境描述

[0026]作为本专利技术优选的实施方式,在进行文本情感识别时,包括:
[0027]利用
BERTbase
模型分别对事实描述

情境描述以及两者的拼接进行特征提取和情感分类,得到的分类结果;
[0028]其中,在进行特征提取时,包括:
[0029]所述
BERTbase
模型利用
Transformer
的自注意力机制对输入序列进行并行处理,同时获得每个词在序列内的相关性,捕捉到序列内部距离较长的特征依赖关系;
[0030]在进行情感分类时,包括:
[0031]对于每个输入序列,经过特征提取后的输出维度为
128
×
768
,将分类标记对应的输出特征经过全连接层映射到输出空间,得到每个文本的分类结果

[0032]作为本专利技术优选的实施方式,在通过自注意力机制捕捉特征依赖关系时,包括:
[0033]通过使用输入向量对应的
Query
与本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.
一种基于宽时间范畴的多模态情境情感识别方法,其特征在于,包括以下步骤:利用自然环境下的音视频资源,构建基于情境的视频情感数据集;基于
BERT
模型对所述视频情感数据集进行文本情感识别;通过引入通道注意力机制,对人物面部情感进行识别;构建基于注意力机制的多模态多分支融合模型,并通过所述多模态多分支融合模型得到最终的情感识别结果
。2.
根据权利要求1所述的基于宽时间范畴的多模态情境情感识别方法,其特征在于,在构建基于情境的视频情感数据集时,包括:数据采集

情感类别定义

数据处理和以及数据标注;其中,所述数据采集,包括:筛选出与当前真实环境下的条件差别不大的影视剧,使用视频编辑工具在视频帧级别截取目标片段,将单个数据的时长控制在预设时间内,并且在尽可能减少镜头切换次数的基础上保留有用的场景信息;所述情感类别定义,包括:以
EMOTIC
数据集定义的情感类别为基准,加入了
IEMOCAP
中的沮丧情感和遗憾情感,得到多种情感类别;所述数据处理,包括:使用
YOLO V5

Deepsort
结合的多人目标追踪方法,识别并追踪视频当中所有出现的人,为每一个人的检测框赋予一个编号,并得到每一个检测框在图像中的坐标和宽高;基于检测到了目标人物在图像中的位置,利用
MTCNN
算法提取出人脸部分,并使用了
libfacedetection
算法进行查漏补缺;所述数据标注,包括:对每一个样本进行情感标注和文字标注;其中,所述情感标注,包括:基于定义的多种情感类别,采用多标签的方式给所述每一个样本标注情感;所述文字标注,包括:被标注者在当前视频片段中的台词

事实描述以及情境描述
。3.
根据权利要求2所述的基于宽时间范畴的多模态情境情感识别方法,其特征在于,在进行文本情感识别时,包括:利用
BERTbase
模型分别对事实描述

情境描述以及两者的拼接进行特征提取和情感分类,得到的分类结果;其中,在进行特征提取时,包括:所述
BERTbase
模型利用
Transformer
的自注意力机制对输入序列进行并行处理,同时获得每个词在序列内的相关性,捕捉到序列内部距离较长的特征依赖关系;在进行情感分类时,包括:对于每个输入序列,经过特征提取后的输出维度为
128
×
768
,将分类标记对应的输出特征经过全连接层映射到输出空间,得到每个文本的分类结果
。4.
根据权利要求3所述的基于宽时间范畴的多模态情境情感识别方法,其特征在于,在通过自注意力机制捕捉特征依赖关系时,包括:通过使用输入向量对应的
Query

Key
计算点积,得到每个词向量与其他词向量的相关
性,经过
Softmax
归一化之后,得到每个位置的词向量对应的注意力分布,将对应位置的注意力值与
Value
相乘后再求和,如公式1所示:式中,
d
k
是为了使得到的注意力图的元素符合均值为0,方差为1的标准高斯分布,
Q
为输入向量对应的
Query

K
为输入向量对应的
Key

V
为输入向量对应的
Value
;其中,每个词向量得到的向量表示都融合了输入序列中其他位置的语义信息
。5....

【专利技术属性】
技术研发人员:卢桂萍王科俊杨涛曹宇张小凤
申请(专利权)人:北京理工大学珠海学院
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1