System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 使用基于多模态融合的深度神经网络的多媒体视频中的情绪识别制造技术_技高网

使用基于多模态融合的深度神经网络的多媒体视频中的情绪识别制造技术

技术编号:40000563 阅读:14 留言:0更新日期:2024-01-09 03:27
提供一种使用多媒体视频中的情绪识别的特征点检测系统和方法,所述多媒体视频中的情绪识别使用基于多模态融合的深度神经网络。所述系统包括电路和存储器,所述存储器被配置为存储多模态融合网络,多模态融合网络包括一个或多个特征提取器、变换器编码器网络、融合注意力网络和耦接到融合注意力网络的输出网络。所述系统将多模态输入输入到一个或多个特征提取器。多模态输入与在一个或多个视频中描绘的话语关联。所述系统生成输入嵌入作为一个或多个特征提取器对于所述输入的输出,并且进一步基于输入嵌入生成一组情绪相关特征。所述系统进一步生成一组情绪相关特征的融合特征表示,并基于融合特征表示来预测话语的情绪标签。

【技术实现步骤摘要】
【国外来华专利技术】

本公开的各个实施例涉及神经网络和情绪识别。更具体地,本公开的各个实施例涉及一种用于使用基于多模态融合的深度神经网络的多媒体视频中的情绪识别的系统和方法。


技术介绍

1、计算机视觉和人工智能的进步导致了可以用于不同的应用,比如会话中的情绪识别的各种神经网络(或模型)的发展。通常,情绪识别用于根据多媒体视频(例如,电影、网络连续剧、新闻等)中描绘的会话来预测说话者的情绪状态。情绪识别在交感人机系统的发展中至关重要。在会话的情况下,传统的情绪识别方法主要依赖于会话的文本转录。文本转录中的任何不准确都可能影响预测的准确性(例如,情绪标签)。许多现有的情绪识别技术忽略了与会话相关联的视觉和声学信号中存在的大量信息。

2、如在本申请的其余部分中并参考附图所述,通过将所描述的系统与本公开的一些方面进行比较,常规的传统方法的限制和缺点对本领域的技术人员来说将变得明显。


技术实现思路

1、如在权利要求书中更完整地所述,提供一种基本上如在附图至少之一中所示和/或结合附图至少之一所述的用于使用基于多模态融合的深度神经网络的多媒体视频中的情绪识别的系统和方法。

2、通过仔细研究本公开的以下详细描述以及附图,可以理解本公开的这些及其他特征和优点,附图中,相同的附图标记始终指代相同的部分。

【技术保护点】

1.一种系统,包括:

2.按照权利要求1所述的系统,其中所述多模态输入包括多语言语音和所述多语言语音的第一语言的文本转录,第一语言与所述一个或多个特征提取器兼容。

3.按照权利要求1所述的系统,其中所述多模态输入包括第二语言的语音,第二语言不同于与所述一个或多个特征提取器兼容的第一语言,并且所述多模态输入包括所述语音的与所述一个或多个特征提取器兼容的第一语言的文本转录。

4.按照权利要求1所述的系统,其中所述多模态输入包括与所述话语的声学关联的第一模态、与所述话语的文本转录关联的第二模态、以及与所述话语的视觉方面关联的第三模态。

5.按照权利要求1所述的系统,其中所述一个或多个特征提取器包括声学-视觉特征提取器和声学特征提取器,并且所述电路还被配置为基于所述声学-视觉特征提取器或所述声学特征提取器中的一个对包括在所述多模态输入中的所述话语的声学信息的应用来生成所述输入嵌入的第一嵌入。

6.按照权利要求1所述的系统,其中所述一个或多个特征提取器包括文本特征提取器,并且所述电路还被配置为基于所述文本特征提取器对与所述话语关联的声学信息的文本转录以及时间上在所述话语之前或之后的不同话语的文本转录的应用来生成所述输入嵌入的第二嵌入。

7.按照权利要求1所述的系统,其中所述一个或多个特征提取器包括声学-视觉特征提取器和视觉特征提取器,并且所述电路还被配置为基于所述声学-视觉特征提取器或所述视觉特征提取器中的一个对所述一个或多个视频的帧中的一个或多个说话人物的面部信息和与帧关联的场景信息的应用来生成所述输入嵌入的第三嵌入,并且

8.按照权利要求7所述的系统,其中所述电路还被配置为:

9.按照权利要求1所述的系统,其中所述变换器编码器网络包括用于所述多模态输入的第一模态的变换器编码器的第一堆栈、用于所述多模态输入的第二模态的变换器编码器的第二堆栈、以及用于所述多模态输入的第三模态的变换器编码器的第三堆栈。

10.按照权利要求1所述的系统,还包括在变换器编码器网络中的每对相邻变换器编码器之间的跳跃连接。

11.按照权利要求1所述的系统,其中所述电路还被配置为:

12.按照权利要求1所述的系统,其中所述融合注意力网络包括一个或多个多头注意力层和第一全连接层,并且

13.按照权利要求12所述的系统,其中所述电路还被配置为将一个或多个多头注意力层应用于所述一组情绪相关特征,以便:

14.按照权利要求13所述的系统,其中所述一组情绪相关特征的融合特征表示是进一步基于第一全连接层对所述潜在表示的应用而生成的。

15.按照权利要求1所述的系统,其中所述输出网络包括耦接到所述融合注意力网络的输出的第二全连接层。

16.一种方法,包括:

17.按照权利要求16所述的方法,其中所述多模态输入包括与所述话语的声学关联的第一模态、与所述话语的文本转录关联的第二模态、以及与所述话语的视觉方面关联的第三模态。

18.按照权利要求16所述的方法,其中所述融合注意力网络包括一个或多个多头注意力层和第一全连接层,并且

19.按照权利要求18所述的方法,还包括将一个或多个多头注意力层应用于所述一组情绪相关特征,以便:

20.一种非临时性计算机可读介质,其上存储有计算机可执行指令,所述计算机可执行指令当由系统的电路执行时使所述电路执行操作,所述操作包括:

...

【技术特征摘要】
【国外来华专利技术】

1.一种系统,包括:

2.按照权利要求1所述的系统,其中所述多模态输入包括多语言语音和所述多语言语音的第一语言的文本转录,第一语言与所述一个或多个特征提取器兼容。

3.按照权利要求1所述的系统,其中所述多模态输入包括第二语言的语音,第二语言不同于与所述一个或多个特征提取器兼容的第一语言,并且所述多模态输入包括所述语音的与所述一个或多个特征提取器兼容的第一语言的文本转录。

4.按照权利要求1所述的系统,其中所述多模态输入包括与所述话语的声学关联的第一模态、与所述话语的文本转录关联的第二模态、以及与所述话语的视觉方面关联的第三模态。

5.按照权利要求1所述的系统,其中所述一个或多个特征提取器包括声学-视觉特征提取器和声学特征提取器,并且所述电路还被配置为基于所述声学-视觉特征提取器或所述声学特征提取器中的一个对包括在所述多模态输入中的所述话语的声学信息的应用来生成所述输入嵌入的第一嵌入。

6.按照权利要求1所述的系统,其中所述一个或多个特征提取器包括文本特征提取器,并且所述电路还被配置为基于所述文本特征提取器对与所述话语关联的声学信息的文本转录以及时间上在所述话语之前或之后的不同话语的文本转录的应用来生成所述输入嵌入的第二嵌入。

7.按照权利要求1所述的系统,其中所述一个或多个特征提取器包括声学-视觉特征提取器和视觉特征提取器,并且所述电路还被配置为基于所述声学-视觉特征提取器或所述视觉特征提取器中的一个对所述一个或多个视频的帧中的一个或多个说话人物的面部信息和与帧关联的场景信息的应用来生成所述输入嵌入的第三嵌入,并且

8.按照权利要求7所述的系统,其中所述电路还被配置为:

...

【专利技术属性】
技术研发人员:P·瓦斯尼克尾上直之V·丘达萨玛
申请(专利权)人:索尼集团公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1