【技术实现步骤摘要】
一种基于多模态识别视频情感信息的方法
本专利技术涉及情感识别领域,尤其涉及一种基于多模态识别视频情感信息的方法。
技术介绍
作为人类交流的基本方面,情感信息对于更自然的人机交互至关重要。情感识别是分析情感信息的核心研究领域,是人工智能与人类沟通分析的桥梁,弥合了人机交互之间的鸿沟,近年来受到了广泛关注。就像人类根据听觉和视觉信息同时感知周围的环境一样,机器也可以从视听信息中受益,以进行更准确的情感识别。言语和面部表情是人们在日常生活中传达其情绪状态的最普遍方法,它们是识别情感非常有效的特征。考虑到视听信息在传达情绪状态中的重要性,存在许多挑战以促进基于视听信息的情绪识别任务。从野外情感识别(EmotiW)挑战[1](这是情感识别任务最受欢迎的基准之一,自2013年以来已举行七次)以来,音像子挑战主要着眼于识别人们的情感状态在现实世界中的场景。在此子挑战中使用的AFEW数据集[2]包括从电影和电视连续剧中收集的音视频片段,以模拟真实世界。尽管在EmotiW挑战中已经提出了许多方法,但是基于视频的真实世界情感识别的性能仍 ...
【技术保护点】
1.一种基于多模态识别视频情感信息的方法,其特征在于,所述方法包括:/n获取每个视频片段的语音信号并提取每个视频片段的关键帧;根据所得每个视频的语音信号和关键帧分别提取特征;/n对所得的语音特征和关键帧特征进行融合得到每个视频特征描述符;根据视频特征描述符建立关系图;/n根据关系图,通过多头注意力构造多个全连接图,生成多分支图卷积网络;对构造的每个全连接图,即为多分支图卷积网络中的每个分支,分别作图卷积更新节点特征;/n将多个全连接图的更新后的节点特征进行融合,生成唯一的节点特征即最终所得的包含视频间关联性的视频特征描述符;/n对最终的视频特征描述符进行分类得到每个视频所属的情感类别。/n
【技术特征摘要】 【专利技术属性】
1.一种基于多模态识别视频情感信息的方法,其特征在于,所述方法包括:
获取每个视频片段的语音信号并提取每个视频片段的关键帧;根据所得每个视频的语音信号和关键帧分别提取特征;
对所得的语音特征和关键帧特征进行融合得到每个视频特征描述符;根据视频特征描述符建立关系图;
根据关系图,通过多头注意力构造多个全连接图,生成多分支图卷积网络;对构造的每个全连接图,即为多分支图卷积网络中的每个分支,分别作图卷积更新节点特征;
将多个全连接图的更新后的节点特征进行融合,生成唯一的节点特征即最终所得的包含视频间关联性的视频特征描述符;
对最终的视频特征描述符进行分类得到每个视频所属的情感类别。
2.根据权利要求1所述的一种基于多模态识别视频情感信息的方法,其特征在于,关系图的构建基于视频特征描述符之间的相似度,相似度计算为:
其中,f1和f2分别为视频V1和V2对应的特征。
3.根据权利要求1所述的一种基于多模态识别视频情感信息的方法,其特征在于,所述根据关系图,通过多头注意力构造多个全连接图具体为:
技术研发人员:聂为之,任敏捷,刘安安,张勇东,
申请(专利权)人:天津大学,
类型:发明
国别省市:天津;12
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。