基于端到端的多模态融合抑郁症筛查方法、装置及设备制造方法及图纸

技术编号：40940680 阅读：2 留言：0更新日期：2024-04-18 14:58

本申请公开了一种基于端到端的多模态融合抑郁症筛查方法、装置及设备，所述方法包括：获取被测试者的用户数据，其中，所述用户数据包括视频数据、音频数据以及文本数据；将所述用户数据输入已训练的多分支融合模型中的特征提取模块，通过所述特征提取模块提取视频特征、音频特征和文本特征；将所述视频特征、所述音频特征和所述文本特征输入所述多分支融合模型中的融合模块，通过所述融合模块获取融合特征；将所述融合特征输入所述多分支融合模型中的预测模块，通过所述预测模块输出抑郁类别。本申请通过采用多分支融合模型，将视频特征、音频特征和文本特征进行特征融合，以获取抑郁类别，提高了抑郁症筛查的预测效率和准确率。

全部详细技术资料下载

【技术实现步骤摘要】

本申请涉及医学，特别涉及一种基于端到端的多模态融合抑郁症筛查方法、装置及设备。

技术介绍

1、抑郁症是一种常见的心理疾病，其临床表现为连续且长期的心境低落、思维迟缓等。目前，抑郁症的筛查普遍依赖phq-9(patient health questionnaire-9)和bdi-ii(beck depression inventory-ii)等抑郁自评量表和医生的临床经验，这就对医生的医疗能力和医疗经验具有很高的依赖性，从而会影响抑郁症筛查的预测的客观性和准确性。

2、因此，现有技术还有待改进和提高。

技术实现思路

1、本申请要解决的技术问题在于，针对现有技术的不足，提供一种基于端到端的多模态融合抑郁症筛查方法、装置及设备。

2、为了解决上述技术问题，本申请实施例第一方面提供了一种基于端到端的多模态融合抑郁症筛查方法，其中，所述的基于端到端的多模态融合抑郁症筛查方法具体包括：

3、获取被测试者的用户数据，其中，所述用户数据包括视频数据、音频数据以及文本数据；

4、将所述用户数据输入已训练的多分支融合模型中的特征提取模块，通过所述特征提取模块提取视频特征、音频特征和文本特征；

5、将所述视频特征、所述音频特征和所述文本特征输入所述多分支融合模型中的融合模块，通过所述融合模块获取融合特征；

6、将所述融合特征输入所述多分支融合模型中的预测模块，通过所述预测模块输出抑郁类别；

7、其中，所述特征提取模块分别

8、在一种实现方式中，所述视频特征的提取过程具体包括：

9、对于所述视频数据中的每一视频帧，确定视频帧的局部二值模式图；

10、将所述局部二值模式图和所述视频帧输入所述视频特征提取单元，通过所述视频特征提取单元确定视频空间特征向量；

11、将所述视频空间特征向量输入fa单元，通过所述fa单元对所述视频空间特征向量进行重要性加权，以得到加权特征向量；

12、将所述加权特征向量和所述视频空间特征向量通过乘法器后输入bilstm单元，通过所述bilstm单元捕获视频时序特征；

13、将所述视频时序特征输入所述多头注意力单元，通过所述多头注意力单元确定视频特征。

14、在一种实现方式中，所述视频特征提取单元包括残差子单元、transformer子单元和特征融合子单元；所述将所述局部二值模式图和所述视频帧输入所述视频特征提取单元，通过所述视频特征提取单元确定视频空间特征向量具体包括：

15、将所述局部二值模式图输入残差子单元，通过残差子单元提取视频面部局部特征；

16、将所述视频帧输入所述transformer子单元，通过所述transformer子单元提取视频面部全局特征；

17、将所述视频面部局部特征和所述视频面部全局特征输入所述融合子单元，通过所述融合子单元确定视频空间特征向量。

18、在一种实现方式中，所述音频分支包括netvlad单元、gru单元以及多头注意力单元；所述音频特征的提取过程具体包括：

19、将所述音频数据转换为梅尔语谱图；

20、将所述梅尔语谱图输入netvlad单元，通过netvlad单元确定梅尔语谱图向量；

21、将所述梅尔语谱图向量输入所述gru单元，通过所述gru单元提取音频时序特征向量；

22、将音频时序特征向量输入所述多头注意力单元，通过所述多头注意力单元确定音频特征。

23、在一种实现方式中，所述文本分支包括bert单元和多头注意力单元；所述文本特征的提取过程具体包括：

24、将所述文本数据输入所述bert单元，通过所述bert单元提取初始文本特征；

25、将所述初始文本特征输入多头注意力单元，通过所述多头注意力单元确定文本特征。

26、在一种实现方式中，所述融合特征的确定过程具体包括：

27、基于视频特征确定第一查询向量、第一键向量和第一值向量，基于音频特征确定第二查询向量、第二键向量和第二值向量，以及基于文本特征确定第三查询向量、第三键向量和第三值向量；

28、将所述第一查询向量、第二查询向量和第三查询向量拼接成目标查询向量，将所述第一键向量、第二键向量和第三键向量拼接成目标键向量，以及将所述第一值向量、第二值向量和第三值向量拼接成目标值向量；

29、基于所述目标查询向量和所述目标键向量确定向量间相关性矩阵，并基于向量间相关性矩阵和所述目标值向量进行相乘，以得到候选融合特征；

30、将所述候选融合特征与所述目标值向量相加，以得到融合特征。

31、在一种实现方式中，所述获取被测试者的用户数据具体包括：

32、确定采集范式，并采用所述采集范式对被测试者进行数据采集，以得到初始视频数据；

33、对所述初始视频数据进行面部区域剪裁，以得到视频数据；

34、对所述初始视频数据进行音频分离以得到音频数据，并对所述音频数据进行文本转换，以得到文本数据；

35、将所述视频数据、所述音频数据以及所述文本数据作为所述被测试者的用户数据。

36、本申请实施例第二方面提供了一种基于端到端的多模态融合抑郁症筛查装置，其中，所述装置具体包括：

37、获取模块，用于获取被测试者的用户数据，其中，所述用户数据包括视频数据、音频数据以及文本数据；

38、控制模块，用于将所述用户数据输入已训练的多分支融合模型中的特征提取模块，通过所述特征提取模块提取视频特征、音频特征和文本特征；将所述视频特征、所述音频特征和所述文本特征输入所述多分支融合模型中的融合模块，通过所述融合模块获取融合特征；将所述融合特征输入所述多分支融合模型中的预测模块，通过所述预测模块输出抑郁类别；

39、其中，所述特征提取模块分别并行视频分支、音频分支以及文本分支；所述视频分支包括视频特征提取单元、fa单元、乘法器、bilstm单元以及多头注意力单元，所述视频特征提取单元分别与所述fa单元和所述乘法器相连接，所述fa单元与所述乘法器相连接，所述乘法器、所述bilstm单元和多头注意力单元依次连接。

40、本申请实施例第三方面提供了一种计算机可读存储介质，所述计算机可读存储介质存储有一个或者多个程序，所述一个或者多个程序可被一个或者多个处理器执行，以实现如上任一所述的基于端到端的多模态融合抑郁症筛查方法中的步骤。

41、本申请实施例第四方面提供了一种终端设备，其包括：处理器和存储器；

42、本文档来自技高网...

【技术保护点】

1.一种基于端到端的多模态融合抑郁症筛查方法，其特征在于，所述的基于端到端的多模态融合抑郁症筛查方法包括：

2.根据权利要求1所述的基于端到端的多模态融合抑郁症筛查方法，其特征在于，所述视频特征的提取过程具体包括：

3.根据权利要求1或2所述的基于端到端的多模态融合抑郁症筛查方法，其特征在于，所述视频特征提取单元包括残差子单元、Transformer子单元和特征融合子单元；所述将所述局部二值模式图和所述视频帧输入所述视频特征提取单元，通过所述视频特征提取单元确定视频空间特征向量具体包括：

4.根据权利要求1所述的基于端到端的多模态融合抑郁症筛查方法，其特征在于，所述音频分支包括NetVLAD单元、GRU单元以及多头注意力单元；所述音频特征的提取过程具体包括：

5.根据权利要求1所述的基于端到端的多模态融合抑郁症筛查方法，其特征在于，所述文本分支包括BERT单元和多头注意力单元；所述文本特征的提取过程具体包括：

6.根据权利要求1所述的基于端到端的多模态融合抑郁症筛查方法，其特征在于，所述融合特征的确定过程具体包括：>

7.根据权利要求1所述的基于端到端的多模态融合抑郁症筛查方法，其特征在于，所述获取被测试者的用户数据具体包括：

8.一种基于端到端的多模态融合抑郁症筛查装置，其特征在于，所述基于端到端的多模态融合抑郁症筛查装置具体包括：

9.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质存储有一个或者多个程序，所述一个或者多个程序可被一个或者多个处理器执行，以实现如权利要求1-7任意一项所述的基于端到端的多模态融合抑郁症筛查方法中的步骤。

10.一种终端设备，其特征在于，包括：处理器和存储器；

...

【技术特征摘要】

1.一种基于端到端的多模态融合抑郁症筛查方法，其特征在于，所述的基于端到端的多模态融合抑郁症筛查方法包括：

2.根据权利要求1所述的基于端到端的多模态融合抑郁症筛查方法，其特征在于，所述视频特征的提取过程具体包括：

3.根据权利要求1或2所述的基于端到端的多模态融合抑郁症筛查方法，其特征在于，所述视频特征提取单元包括残差子单元、transformer子单元和特征融合子单元；所述将所述局部二值模式图和所述视频帧输入所述视频特征提取单元，通过所述视频特征提取单元确定视频空间特征向量具体包括：

4.根据权利要求1所述的基于端到端的多模态融合抑郁症筛查方法，其特征在于，所述音频分支包括netvlad单元、gru单元以及多头注意力单元；所述音频特征的提取过程具体包括：

5.根据权利要求1所述的基于端到端的多模态融合抑郁...

【专利技术属性】
技术研发人员：张圳威，张治国，倪东，王建红，位照国，杨孔军，陈娟，
申请(专利权)人：深圳大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人