【技术实现步骤摘要】
本专利技术属于计算机视觉,涉及视频中多模态特征的导出与融合、情绪分析以及视频分类技术,具体为一种基于多模态情绪融合的视频对话风格识别方法。
技术介绍
1、现有的以人为中心的视频分析,侧重于对人物的动作进行识别,比如动作识别任务、互动识别任务等。然而,除了肢体的互动,对话也是人类互动的一个很重要的形式。视频的对话风格识别指的是对一段关于人物对话的视频进行风格分类,例如讨论、教学、解释、对峙、恐吓等,是一种对人物对话的细粒度描述,对话风格是一种复杂的判断,需要对对话的内容,对话人物的状态、互动等多方面模态的进行综合评估,对话风格的识别有助于对人物对话进行更深度的研究,从而能够对人物行为构建更全面的理解。
2、目前识别视频对话风格的工作大多将注意力都投射在视觉模态,有的对视频中实体的空间关系进行建模识别,有的对视频中信息的时序关系进行建模识别。然而视频的对话风格识别任务以人物对话为主要目标,人物对话时的音量还有内容都对对话风格都有很大的影响,因此在视频分析的过程中,音频和文本信息也是格外重要。提取出合适的多模态特征并且进行有效的融
...【技术保护点】
1.一种基于多模态情绪融合的视频对话风格识别方法,其特征是对含有人物对话的视频进行对话风格识别:首先利用不同的特征导出模型导出视频的视觉、听觉和文本特征,然后利用预训练的多模态情绪模型提取视觉情绪特征、听觉情绪特征和文本情绪特征,由多头注意力机制将视觉特征与视觉情绪特征融合、听觉特征与听觉情绪特征融合以及文本特征与文本情绪特征融合,融合后得到的带情绪的视觉特征、带情绪的听觉特征和带情绪的文本特征分别再输入视觉、听觉和文本的分类网络,得到视觉分类结果、听觉分类结果和文本分类结果,最后对这些结果进行融合得到最终的对话风格预测结果。
2.根据权利要求1的一种基于
...【技术特征摘要】
1.一种基于多模态情绪融合的视频对话风格识别方法,其特征是对含有人物对话的视频进行对话风格识别:首先利用不同的特征导出模型导出视频的视觉、听觉和文本特征,然后利用预训练的多模态情绪模型提取视觉情绪特征、听觉情绪特征和文本情绪特征,由多头注意力机制将视觉特征与视觉情绪特征融合、听觉特征与听觉情绪特征融合以及文本特征与文本情绪特征融合,融合后得到的带情绪的视觉特征、带情绪的听觉特征和带情绪的文本特征分别再输入视觉、听觉和文本的分类网络,得到视觉分类结果、听觉分类结果和文本分类结果,最后对这些结果进行融合得到最终的对话风格预测结果。
2.根据权利要求1的一种基于多模态情绪融合的视频对话风格识别方法,其特征是包括以下步骤:
3.根据权利要求2所述的一种基于多模态情绪融合的视频对话风格...
【专利技术属性】
技术研发人员:任桐炜,贝佳,张贝贝,方亚群,于凡,
申请(专利权)人:南京大学,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。