【技术实现步骤摘要】
一种基于宽时间范畴的多模态情境情感识别方法及系统
[0001]本专利技术涉及情感识别
,具体涉及一种基于宽时间范畴的多模态情境情感识别方法及系统
。
技术介绍
[0002]人类在沟通时往往会结合表情
、
语言
、
姿态等多种表达方式来传递自己的观点,因此单一模态的情感识别往往无法准确地判断目标人物的情感状态
。
多模态情感识别可以通过从不同的模态数据中挖掘情感信息并进行融合,使各个模态的信息实现互补,从而实现具有鲁棒性的
、
情感表征能力更强的情感识别系统
。
[0003]自情感计算的概念出现以来,众多研究人员在情感计算的识别领域做出了相当多的贡献,然而多模态情感识别领域仍然存在很多难点和挑战
。
[0004](1)
目前的多模态情感识别方法仅将当前时刻的多种情感表达进行多模态融合,但是人类的情感变化会受到某些事件导致的因果关系的影响,要将目标人物的显式情感表达与情绪变化的原因联系起来,才能更准确地分析情感状态
。
因此在情感分析模型中,需要结合发生过的事件
(
情境上下文信息
)
和当前时刻的信息综合考虑,因此对宽时间范畴的情感特征提取方法的研究是有必要性的
。
如何将宽时间范畴的研究带来的情境信息转化为模型能够处理的形式,如何捕捉情境信息对情感识别带来的影响,是目前需要解决的难题
。
[0005](2)
情景信 ...
【技术保护点】
【技术特征摘要】
1.
一种基于宽时间范畴的多模态情境情感识别方法,其特征在于,包括以下步骤:利用自然环境下的音视频资源,构建基于情境的视频情感数据集;基于
BERT
模型对所述视频情感数据集进行文本情感识别;通过引入通道注意力机制,对人物面部情感进行识别;构建基于注意力机制的多模态多分支融合模型,并通过所述多模态多分支融合模型得到最终的情感识别结果
。2.
根据权利要求1所述的基于宽时间范畴的多模态情境情感识别方法,其特征在于,在构建基于情境的视频情感数据集时,包括:数据采集
、
情感类别定义
、
数据处理和以及数据标注;其中,所述数据采集,包括:筛选出与当前真实环境下的条件差别不大的影视剧,使用视频编辑工具在视频帧级别截取目标片段,将单个数据的时长控制在预设时间内,并且在尽可能减少镜头切换次数的基础上保留有用的场景信息;所述情感类别定义,包括:以
EMOTIC
数据集定义的情感类别为基准,加入了
IEMOCAP
中的沮丧情感和遗憾情感,得到多种情感类别;所述数据处理,包括:使用
YOLO V5
和
Deepsort
结合的多人目标追踪方法,识别并追踪视频当中所有出现的人,为每一个人的检测框赋予一个编号,并得到每一个检测框在图像中的坐标和宽高;基于检测到了目标人物在图像中的位置,利用
MTCNN
算法提取出人脸部分,并使用了
libfacedetection
算法进行查漏补缺;所述数据标注,包括:对每一个样本进行情感标注和文字标注;其中,所述情感标注,包括:基于定义的多种情感类别,采用多标签的方式给所述每一个样本标注情感;所述文字标注,包括:被标注者在当前视频片段中的台词
、
事实描述以及情境描述
。3.
根据权利要求2所述的基于宽时间范畴的多模态情境情感识别方法,其特征在于,在进行文本情感识别时,包括:利用
BERTbase
模型分别对事实描述
、
情境描述以及两者的拼接进行特征提取和情感分类,得到的分类结果;其中,在进行特征提取时,包括:所述
BERTbase
模型利用
Transformer
的自注意力机制对输入序列进行并行处理,同时获得每个词在序列内的相关性,捕捉到序列内部距离较长的特征依赖关系;在进行情感分类时,包括:对于每个输入序列,经过特征提取后的输出维度为
128
×
768
,将分类标记对应的输出特征经过全连接层映射到输出空间,得到每个文本的分类结果
。4.
根据权利要求3所述的基于宽时间范畴的多模态情境情感识别方法,其特征在于,在通过自注意力机制捕捉特征依赖关系时,包括:通过使用输入向量对应的
Query
与
Key
计算点积,得到每个词向量与其他词向量的相关
性,经过
Softmax
归一化之后,得到每个位置的词向量对应的注意力分布,将对应位置的注意力值与
Value
相乘后再求和,如公式1所示:式中,
d
k
是为了使得到的注意力图的元素符合均值为0,方差为1的标准高斯分布,
Q
为输入向量对应的
Query
,
K
为输入向量对应的
Key
,
V
为输入向量对应的
Value
;其中,每个词向量得到的向量表示都融合了输入序列中其他位置的语义信息
。5....
【专利技术属性】
技术研发人员:卢桂萍,王科俊,杨涛,曹宇,张小凤,
申请(专利权)人:北京理工大学珠海学院,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。