基于跨模态transformer的多模态焦虑症检测方法和系统技术方案

技术编号:34510880 阅读:21 留言:0更新日期:2022-08-13 20:56
本发明专利技术提供一种基于跨模态transformer的多模态焦虑症检测方法、系统、存储介质和电子设备,涉及焦虑症检测技术领域。本发明专利技术中,采集用户的就诊视频,就诊视频由医生就汉密顿焦虑量表对用户进行提问时录制;根据就诊视频,获取视觉特征;从就诊视频提取音频数据,根据音频数据,获取语音特征;将音频数据进行转录标注获取文本数据,根据文本数据,取文本特征;根据视觉特征、语音特征、文本特征,采用跨模态transformer模型预测该用户的焦虑程度结果。数据采集结合了具有良好应用信度的汉密顿焦虑量表,全面采集了视频模态、音频模态、文本模态的数据,以及考虑了跨模态特征信息,补充了不同模态之间的潜在联系,用于对用户焦虑症状进行刻画评估,诊断结果更准确。诊断结果更准确。诊断结果更准确。

【技术实现步骤摘要】
基于跨模态transformer的多模态焦虑症检测方法和系统


[0001]本专利技术涉及焦虑症检测
,具体涉及一种基于跨模态transformer的多模态焦虑症检测方法、系统、存储介质和电子设备。

技术介绍

[0002]焦虑性神经症(简称焦虑症),是以焦虑为主要特征的神经症。表现为没有事实根据也无明确客观对象和具体观念内容的提心吊胆和恐惧不安的心情,还有植物神经症状和肌肉紧张,以及运动性不安。
[0003]目前,焦虑症检测现主要通过两种技术:第一,基于单模态(采用文本、语音、视觉中的一个信息源),例如仅通过对视频中用户的个体步态进行分析,采集关键数据并提取特征,用搭建的模型进行焦虑症检测。第二,基于多模态(采用文本、语音、视觉中的多个信息源),例如采集用户语音、文本等多种信息,进行特征提取和融合,用搭建的模型进行焦虑症检测。
[0004]虽然上述基于多模态方式相对于基于单模态式方式,较为全面地反映了患者的焦虑状况,但是其使用数据集部分仅为模拟数据,数据来源的真实性和数据质量无法得到保证,进而影响了最终检测结果的准确性。

技术实现思路

[0005](一)解决的技术问题
[0006]针对现有技术的不足,本专利技术提供了一种基于跨模态transformer的多模态焦虑症检测方法、系统、存储介质和电子设备,解决了检测结果不准确的技术问题。
[0007](二)技术方案
[0008]为实现以上目的,本专利技术通过以下技术方案予以实现:
[0009]一种基于跨模态transformer的多模态焦虑症检测方法,包括:
[0010]采集用户的就诊视频,所述就诊视频由医生就汉密顿焦虑量表对用户进行提问时录制;
[0011]根据所述就诊视频,获取视觉特征;
[0012]从所述就诊视频提取音频数据,根据所述音频数据,获取语音特征;
[0013]将所述音频数据进行转录标注获取文本数据,根据所述文本数据,取文本特征;
[0014]根据所述视觉特征、语音特征、文本特征,采用预先构建的跨模态transformer模型预测该用户的焦虑程度结果。
[0015]优选的,所述视觉特征包括人脸关键点二值图、复杂情绪序列、肢体活跃度序列以及注视角热力图中的一种或者几种任意组合;获取过程包括:
[0016]采用Openface工具包对所述就诊视频进行抽帧,并对每一帧中的的用户进行人脸检测和人脸对齐,提取出2D人脸关键点和对齐后的人脸图片,将人脸关键点绘制在纯黑色背景上获取所述人脸关键点二值图;
[0017]将对齐后的人脸图片输入emonet模型,对用户的效价和唤醒二维情绪进行预测,得到基础情绪,再通过预设的VA环形模型将基础情绪映射为复杂情绪向量,获取所述复杂情绪序列;
[0018]采用飞桨框架的实时关键点检测模型提取用户的身体关键点,将身体关键点坐标转化为向量,分别计算鼻子、四肢向量的变化模长,组成所述肢体活跃度序列;
[0019]采用Openface工具包提取用户的视线、头部姿态特征,将提取出的特征转换成眼睛凝视序列,并根据眼睛凝视序列得到热力图的边界和中心点,去除遍历中心点最远的部分点后,使用八邻域法将眼睛凝视序列转换成所述注视角热力图。
[0020]优选的,所述根据所述音频数据,获取语音特征,包括:
[0021]首先对所述音频数据进行了文本转录,标注了音频中每一句话的说话角色、起止时间、持续时间、文本内容;再根据标注的起止时间将录音中用户回答医生的语音数据切分出来;最终采用开源工具openSMILE提取所述语音特征。
[0022]优选的,所述根据所述文本数据,取文本特征,包括:
[0023]预先根据回答信息的有效性构建停止词典;
[0024]根据所述停止词典清洗了数据,获取包含有效信息的文本内容;
[0025]采用Chinese

roBerta模型将文本内容转换为文本特征。
[0026]优选的,所述根据所述视觉特征、语音特征、文本特征,采用预先构建的跨模态transformer模型预测该用户的焦虑程度结果,包括:
[0027]S51、将所述视觉特征、语音特征、文本特征,分别输入三个独立卷积层中,获取各模态信息对应的且维度相同的特征序列数据;
[0028][0029]其中,为特征序列数据;X为输入的原始特征数据;L,V,A分别代表文本模态、视觉模态、语音模态;d
k
为卷积层的卷积核大小;
[0030]S52、根据所述特征序列数据,获取各模态信息对应的位置编码信息;
[0031][0032][0033]其中,PE[i,e]代表位置[i,e]的位置编码信息,e=2j或2j+1;
[0034]S53、融合各模态信息对应的所述特征序列和位置编码信息,并送到所述跨模态transformer模型中;
[0035][0036][0037][0038]Z
A
、Z
L
、Z
V
分别表示音频信息、文本信息、视频信息的融合信息;分别为各模态信息的位置编码信息;分别为各模态信息对应的特征序列数据;
[0039]然后两两计算所述音频信息、文本信息、视频信息的融合信息之间的跨模态注意力,获取任意两个模态特征分别映射到剩余一个模态特征空间中的信息和
[0040]S54、映射到同一个模态特征空间的信息两两拼接起来,连接后的信息为:
[0041][0042][0043][0044]S55、将C
A
、C
L
、C
V
分别送入三个transformer以编码信息,编码结束输出三个序列信息
[0045]S56、分别提取所述的最后一个元素c
A
、c
V
、c
L
并连接到一起,得到最后将通过全连接层输出该用户的焦虑程度的预测结果。
[0046]优选的,所述S53中,将所述音频特征、视觉特征分别映射到文本模态特征空间中的信息的过程包括:
[0047][0048][0049]其中,公式为注意力计算公式,Q,K,V分别代表Query、Key、Value,其中,Value,其中,
[0050]最终Y
LA
、Y
LV
经过crossmodal transformer模块输出的内容为
[0051]优选的,所述S56中将通过一层大小为14的全连接层,对汉密顿焦虑量表的14项分数进行预测;然后将14个神经元的输出输入大小为5的全连接层,对焦虑程度做5分类任务,获取该用户的焦虑程度的预测结果。
[0052]一种基于跨模态transformer的多模态焦虑症检测系统,包括:
[0053]采集模块,用于采集用户的就诊视频,所述就诊视频由医生就汉密顿焦虑量表对用户进行提问时录制;
[0054]第一获取模块,本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于跨模态transformer的多模态焦虑症检测方法,其特征在于,包括:采集用户的就诊视频,所述就诊视频由医生就汉密顿焦虑量表对用户进行提问时录制;根据所述就诊视频,获取视觉特征;从所述就诊视频提取音频数据,根据所述音频数据,获取语音特征;将所述音频数据进行转录标注获取文本数据,根据所述文本数据,取文本特征;根据所述视觉特征、语音特征、文本特征,采用预先构建的跨模态transformer模型预测该用户的焦虑程度结果。2.如权利要求1所述的多模态焦虑症检测方法,其特征在于,所述视觉特征包括人脸关键点二值图、复杂情绪序列、肢体活跃度序列以及注视角热力图中的一种或者几种任意组合;获取过程包括:采用Openface工具包对所述就诊视频进行抽帧,并对每一帧中的的用户进行人脸检测和人脸对齐,提取出2D人脸关键点和对齐后的人脸图片,将人脸关键点绘制在纯黑色背景上获取所述人脸关键点二值图;将对齐后的人脸图片输入emonet模型,对用户的效价和唤醒二维情绪进行预测,得到基础情绪,再通过预设的VA环形模型将基础情绪映射为复杂情绪向量,获取所述复杂情绪序列;采用飞桨框架的实时关键点检测模型提取用户的身体关键点,将身体关键点坐标转化为向量,分别计算鼻子、四肢向量的变化模长,组成所述肢体活跃度序列;采用Openface工具包提取用户的视线、头部姿态特征,将提取出的特征转换成眼睛凝视序列,并根据眼睛凝视序列得到热力图的边界和中心点,去除遍历中心点最远的部分点后,使用八邻域法将眼睛凝视序列转换成所述注视角热力图。3.如权利要求1或者2所述的多模态焦虑症检测方法,其特征在于,所述根据所述音频数据,获取语音特征,包括:首先对所述音频数据进行了文本转录,标注了音频中每一句话的说话角色、起止时间、持续时间、文本内容;再根据标注的起止时间将录音中用户回答医生的语音数据切分出来;最终采用开源工具openSMILE提取所述语音特征。4.如权利要求3所述的多模态焦虑症检测方法,其特征在于,所述根据所述文本数据,取文本特征,包括:预先根据回答信息的有效性构建停止词典;根据所述停止词典清洗了数据,获取包含有效信息的文本内容;采用Chinese

roBerta模型将文本内容转换为文本特征。5.如权利要求4所述的多模态焦虑症检测方法,其特征在于,所述根据所述视觉特征、语音特征、文本特征,采用预先构建的跨模态transformer模型预测该用户的焦虑程度结果,包括:S51、将所述视觉特征、语音特征、文本特征,分别输入三个独立卷积层中,获取各模态信息对应的且维度相同的特征序列数据;
其中,为特征序列数据;X为输入的原始特征数据;L,V,A分别代表文本模态、视觉模态、语音模态;d
k
为卷积层的卷积核大小;S52、根据所述特征序列数据,获取各模态信息对应的位置编码信息;征序列数据,获取各模态信息对应的位置编码信息;其中,PE[i,e]代表位置[i,e]的位置编码信息,e=2j或2j+1;S53、融合各模态信息对应的所述特征序列和位置编码信息,并送到所述跨模...

【专利技术属性】
技术研发人员:孙晓江月琪张梓洋汪萌
申请(专利权)人:合肥工业大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1