基于时空注意力机制的多模态心理状态检测方法及系统技术方案

技术编号：39968362 阅读：7 留言：0更新日期：2024-01-09 00:35

本申请提供一种基于时空注意力机制的多模态心理状态检测方法及系统，所述方法可以在获取到面部表情数据和语音数据后，在面部表情数据和语音数据中提取面部表情特征和语音特征，并统一特征维度。再将特征维度统一后的面部表情特征和语音特征输入时空注意力转换器，以获得时空融合特征。最后将时空融合特征输入心理状态分类器，以获得分类结果。所述方法利用视频流数据中的人脸和语音两种模态数据，分别在单种模态中提取时间特征和空间特征，并对两种模态的时空特征融合，提高模态间特征的互补、协作效果，进而能够提取具有区分不同心理状态的特征，实现使用用户的社交媒体数据来进行心理状态的检测，提高心理状态检测的准确率。

全部详细技术资料下载

【技术实现步骤摘要】

本申请涉及深度学习，尤其涉及一种基于时空注意力机制的多模态心理状态检测方法及系统。

技术介绍

1、心理状态是指心理活动在一定时间内的完整特征。根据心理状态的特征，可以分别多种心理状态，例如注意、疲劳、紧张、轻松、忧伤、喜悦等。不同的心理状态可以产生不同的表现，因此，可以基于用户的表现对用户进行心理状态的检测分类，进而检测用户的心理状态。例如，患有抑郁症的用户具有心理状态方面的特定表现，包括以情感低落、思维迟缓、言语动作减少，迟缓等，因此，心理状态检测方法可以辅助检测抑郁症。

2、心理状态检测方法可以使用面部表情数据或语音数据提取相关特征，进而检测心理状态。但该方法忽略了面部和语音两类数据之间的信息交互作用。还可以使用文本、语音和面部表情作为心理状态检测模型的输入进行检测。但该方法对单模态数据中的语义信息的挖掘较少，不能同时关注单模态数据的语义信息和时间信息，降低检测准确率。

技术实现思路

1、本申请提供一种基于时空注意力机制的多模态心理状态检测方法及系统，以解决心理状态检测准确率低的问题。

2、第一方面，本申请提供一种基于时空注意力机制的多模态心理状态检测方法，包括：

3、获取视频流数据，所述视频流数据包括面部表情数据和语音数据；

4、在所述面部表情数据中提取面部表情特征，以及在所述语音数据中提取语音特征；

5、统一所述面部表情特征和所述语音特征的特征维度；

6、将特征维度统一后的所述面部表情特征和所述语音特征

7、将所述时空融合特征输入心理状态分类器，以获得所述心理状态分类器输出的分类结果。

8、可选的，所述方法还包括：识别所述面部表情数据中的人脸区域；

9、提取所述人脸区域的面部特征点，以得到面部表情特征；

10、在所述语音数据中提取预设数量的刻画语音特征，以得到语音特征。

11、可选的，所述方法还包括：分别检测所述面部表情特征和所述语音特征的数据长度；

12、如果所述数据长度大于预设长度阈值，则按照预设长度阈值裁剪所述面部表情特征和所述语音特征；

13、如果所述数据长度小于预设长度阈值，则按照预设长度阈值对所述面部表情特征和所述语音特征执行插值操作。

14、可选的，所述方法还包括：对所述面部表情特征和所述语音特征执行数据归一化处理；

15、对所述面部表情特征和所述语音特征执行平滑处理。

16、可选的，统一所述面部表情特征和所述语音特征的特征维度的步骤，包括：

17、将所述面部表情特征和所述语音特征输入线性映射层，所述线性映射层包括至少两层一维卷积；

18、获取所述线性映射层输出的矩阵形状相同的所述面部表情特征和所述语音特征。

19、可选的，所述空间注意模块按照下式提取面部表情和语音的单模态空间信息：

20、

21、

22、

23、其中，re()为矩阵形状变换函数，xsm为特征维度统一后的面部表情特征或语音特征，tanh()为激活函数，q为自注意力机制中的查询元素，k为自注意力机制中的键元素，v为自注意力机制中的值元素，ln()为数据归一化层，x′sm为所述空间注意模块编码后的空间特征。

24、可选的，所述时间注意模块按照下式提取面部表情和语音的单模态时间信息：

25、x″sm＝ln(atts(re′(x′sm))+re′(x′sm))；

26、其中，x″sm为所述时间注意模块编码后的时间特征。

27、可选的，所述多模态融合转换器按照下式融合面部表情和语音的多模态时空信息：

28、

29、

30、其中，multihead()为多头注意力机制，qa为面部模态下的查询元素，kv为语音模态下的键元素，vv为语音模态下的值元素，x″sa为通过所述空间注意模块和所述时间注意模块得到的面部模态或语音模态下的时空特征，ffn()为带有激活函数的两层全连接，为面部表情或语音的时空融合特征。

31、可选的，所述心理状态分类器包括多层感知机层和全连接层，所述多层感知机层包括多层全连接的线性层。

32、第二方面，本申请提供一种基于时空注意力机制的多模态心理状态检测系统，包括：

33、数据获取模块，用于获取视频流数据，所述视频流数据包括面部表情数据和语音数据；

34、特征提取模块，用于在所述面部表情数据中提取面部表情特征，以及在所述语音数据中提取语音特征；

35、预处理模块，用于统一所述面部表情特征和所述语音特征的特征维度；

36、多模态融合模块，用于将特征维度统一后的所述面部表情特征和所述语音特征输入时空注意力转换器，以获得所述时空注意力转换器输出的时空融合特征，所述时空融合特征包括面部表情的时空融合特征和语音的时空融合特征，所述时空注意力转换器包括空间注意模块、时间注意模块和多模态融合转换器，所述空间注意模块用于提取面部表情和语音的单模态空间信息，所述时间注意模块用于提取面部表情和语音的单模态时间信息，所述多模态融合转换器用于融合面部表情和语音的多模态时空信息。

37、检测分类模块，用于将所述时空融合特征输入心理状态分类器，以获得所述心理状态分类器输出的分类结果。

38、由以上技术方案可知，本申请提供一种基于时空注意力机制的多模态心理状态检测方法及系统，所述方法可以在获取到面部表情数据和语音数据后，在面部表情数据和语音数据中提取面部表情特征和语音特征，并统一特征维度。再将特征维度统一后的面部表情特征和语音特征输入时空注意力转换器，以获得时空融合特征。其中，时空融合特征包括面部表情的时空融合特征和语音的时空融合特征，时空注意力转换器包括空间注意模块、时间注意模块和多模态融合转换器，空间注意模块用于提取面部表情和语音的单模态空间信息，时间注意模块用于提取面部表情和语音的单模态时间信息，多模态融合转换器用于融合面部表情和语音的多模态时空信息。最后将时空融合特征输入心理状态分类器，以获得分类结果。利用来自社交媒体数据中的人脸和语音两种模态数据，分别在单种模态中提取时间特征和空间特征，并对两种模态的时空特征融合，提高模态间特征的互补、协作效果，进而能够提取具有区分不同心理状态的特征，实现使用用户的社交媒体数据来进行心理状态的检测，提高心理状态检测的准确率。

本文档来自技高网...

【技术保护点】

1.一种基于时空注意力机制的多模态心理状态检测方法，其特征在于，包括：

2.根据权利要求1所述的基于时空注意力机制的多模态心理状态检测方法，其特征在于，还包括：

3.根据权利要求1所述的基于时空注意力机制的多模态心理状态检测方法，其特征在于，还包括：

4.根据权利要求1所述的基于时空注意力机制的多模态心理状态检测方法，其特征在于，还包括：

5.根据权利要求1所述的基于时空注意力机制的多模态心理状态检测方法，其特征在于，统一所述面部表情特征和所述语音特征的特征维度的步骤，包括：

6.根据权利要求1所述的基于时空注意力机制的多模态心理状态检测方法，其特征在于，所述空间注意模块按照下式提取面部表情和语音的单模态空间信息：

7.根据权利要求6所述的基于时空注意力机制的多模态心理状态检测方法，其特征在于，所述时间注意模块按照下式提取面部表情和语音的单模态时间信息：

8.根据权利要求7所述的基于时空注意力机制的多模态心理状态检测方法，其特征在于，所述多模态融合转换器按照下式融合面部表情和语音的多模态时空信息：

9.根据权利要求1所述的基于时空注意力机制的多模态心理状态检测方法，其特征在于，所述心理状态分类器包括多层感知机层和全连接层，所述多层感知机层包括多层全连接的线性层。

10.一种基于时空注意力机制的多模态心理状态检测系统，其特征在于，包括：

...

【技术特征摘要】

1.一种基于时空注意力机制的多模态心理状态检测方法，其特征在于，包括：

2.根据权利要求1所述的基于时空注意力机制的多模态心理状态检测方法，其特征在于，还包括：

3.根据权利要求1所述的基于时空注意力机制的多模态心理状态检测方法，其特征在于，还包括：

4.根据权利要求1所述的基于时空注意力机制的多模态心理状态检测方法，其特征在于，还包括：

6.根据权利要求1所述的基于时空注意力机制的多模态心理状态检测方法，其特征在于，所述空间...

【专利技术属性】
技术研发人员：胡斌，杨民强，陶永丰，
申请(专利权)人：兰州大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人