一种多模态抑郁数据的融合分析方法技术

技术编号:36748696 阅读:14 留言:0更新日期:2023-03-04 10:33
本发明专利技术公开了抑郁数据融合领域的一种多模态抑郁数据的融合分析方法,旨在对多阶段录入的不同类别数据进行情绪特征提取和融合。针对不同类别数据,先根据其特点提出数据特征。之后,不同模态的数据特征分别通过三个线形层求出K值、Q值和V值表达,再根据融合抑郁数据注意力机制,利用K,Q计算各模态数据的注意力A,将A

【技术实现步骤摘要】
一种多模态抑郁数据的融合分析方法


[0001]本专利技术属于多模态数据融合领域,具体是一种应用于情绪识别的多模态融合分析方法。

技术介绍

[0002]抑郁症因发病率高、危害性大,已成为国际公认的严重威胁人类身心健康的公共卫生问题,早期识别、早期干预对于降低抑郁症的风险至关重要。传统抑郁症的诊断是医生根据临床经验和量表进行,这一方法主要依赖于单一模态数据,存在主观偏差,有滞后性、被动性和受限性等缺点。Jeffery等人研究发现运用多模态技术识别抑郁症的效果要优于单模态。
[0003]多模态技术指的是同时处理或拟合多种模态数据来增强模型性能的一种方法。不同模态的数据,因表现形式不同,表示含义不同而难以被对齐并融合。如在图像音频识别任务中,图像数据通常表现为图片,而语言数据通常表现为文字,两者因表现形式不同而难以融合;在基因测序分析中,不同测序方法之间的数据又因为表示含义不同而难以融合。
[0004]现存的工作也对多模态技术有很多探索。Dupont,S等人用隐马尔可夫联合有限自动机的方法将语音数据与图片数据对齐,并用双模态数据识别语音与图片。该方法从一定程度上融合了不同表现形式的数据,但仍存在效率不高,可推广性较差的缺点。另一种思路是用神经网络进行多数据融合。Zeng,X等人利用多模态的自编码器,将10种药物描述信息(如副作用、作用通路等)融合在一起,同时输入疾病类型对疾病的类型进行划分实现药物种类的匹配,第二步对疾病的发病症状进行分割,对每个症状在不同个体上表现的差异性,增减对应的用药量。这种多模态融合方法,未能充分考虑到模态间的关系,也没有办法融合不同表现形式的数据。综上,虽然多模态技术已经有了许多尝试,但依旧没有一个方法能很好融合多模态数据。

技术实现思路

[0005]为了解决上述问题,本专利技术的目的是提供一种多模态抑郁数据的融合分析方法。
[0006]为了实现上述目的,本专利技术的技术方案如下:一种多模态抑郁数据的融合分析方法,将不同数据类别的数据进行多阶段数据录入,此时将录入的数据进行情绪特征提取,之后,不同模态的数据特征分别通过三个线形层求出K值、Q值和V值表达,再根据融合抑郁数据注意力机制,利用K,Q计算各模态数据的注意力A,将A
·
V作为融合后的特征,服务下游任务。由于融合抑郁数据注意力机制,融合后的数据特征将包含多模态信息,并能辅助下游分类任务。
[0007]进一步,包括以下步骤,
[0008]S1数据预处理,将数据组分为文本数据、图像数据和音频数据;
[0009]S2融合抑郁数据注意力机制,计算预处理后的数据,从而获得包含多模态信息的特征;
[0010]S3抑郁症识别,将包含多模态信息的特征拼接,并通过一个线性层,输出一个融合后的数据特征,最后一层的神经元使用softmax函数作为激活函数并输出分类预测结果。
[0011]进一步,S1中文本数据包括量表和电子病例,所述量表和电子病历数据进行特征初筛,缺失值处理,特征编码和归一化。
[0012]进一步,S1中视频数据按照每秒20帧的频率进行图像抽取,将所得图像数据去噪声和去伪影后,对每帧图像进行面部位置检测,根据眼睛位置对齐图像,随后将视频图像裁剪为256
×
256像素的面部图像。
[0013]进一步,S1中音频数据与抽帧获取的图像集合对齐后针对各个对齐的语音片段提取梅尔频率倒谱系数。
[0014]进一步,所述S2中计算文本数据、图像数据和音频数据分别对应的K值,Q值,V值和K值,Q值分别计算出视频、音频和文本的辅助注意力,将三种辅助注意力拼接并通过Softmax函数后形成视频、音频、文本的注意力并乘以前一步算出的V值。
[0015]进一步,所述S3中预测结果采用交叉熵损失函数拟合预测值与真实值的差异。
[0016]采用上述方案后实现了以下有益效果:1、相对于通过单一模态研究抑郁症的现有技术,单一模态会受到个体差异等因素的影响,因此本技术方案利用病例集合对患者个体差异的甄别特征,随后根据甄别特征融合患者的图像、动作和声音,实现综合式诊断。
[0017]2、相对于传统的拼接式数据融合方式,本技术方案中产生了以下效果结合不同模态的信息,将不同的模态在媒介上信息的表示结合。其次是对齐问题,对齐不同的模态信息并处理可能存在的依赖。最后是转换问题,使多个模态信息统一形式。
附图说明
[0018]图1为多模态融合围产期抑郁症评估模型框架;
[0019]图2为融合抑郁数据注意力机制方法。
具体实施方式
[0020]下面通过具体实施方式进一步详细说明:
[0021]实施例基本如附图1和附图2所示:一种多模态抑郁数据的融合分析方法将不同数据类别的数据进行多阶段数据录入,此时将录入的数据进行情绪特征提取,之后,不同模态的数据特征分别通过三个线形层求出K值、Q值和V值表达,再根据融合抑郁数据注意力机制,利用K,Q计算各模态数据的注意力A,将A
·
V作为融合后的特征,服务下游任务。由于融合抑郁数据注意力机制,融合后的数据特征将包含多模态信息,并能辅助下游分类任务。
[0022]具体实施过程如下:本专利技术的输入为视频、音频与文本数据。分为三个主要阶段数据预处理,融合抑郁数据注意力机制(IntegratedDepressionDataAttention,IDDA),抑郁症识别。包括以下步骤,
[0023]S1数据预处理,将数据组分为文本数据、图像数据和音频数据,文本数据包括量表和电子病例,所述量表和电子病历数据进行特征初筛,缺失值处理,特征编码和归一化,视频数据按照每秒20帧的频率进行图像抽取,将所得图像数据去噪声和去伪影后,对每帧图像进行面部位置检测,根据眼睛位置对齐图像,随后将视频图像裁剪为256
×
256像素的面部图像,音频数据与抽帧获取的图像集合对齐后针对各个对齐的语音片段提取梅尔频率倒
谱系数;
[0024]S2融合抑郁数据注意力机制,计算预处理后的数据,从而获得包含多模态信息的特征,为了更好融合数据,我们提出了新的多模态数据融合机制(IDDA)。首先,1、对三种数据分别计算其对应的K值,Q值,V值。之后,用K值,Q值分别计算出视频、音频、文本的辅助注意力;
[0025]将三种辅助注意力拼接并通过Softmax函数后形成视频、音频、文本的注意力并乘以前一步算出的V值,获得包含多模态信息的特征。
[0026]将包含多模态信息的特征拼接,并通过一个线性层,输出一个融合后的数据特征,该数据特征作为下游任务的输入。
[0027]S3抑郁症识别,将包含多模态信息的特征拼接,并通过一个线性层,输出一个融合后的数据特征,我们选用了LSTM作为下游任务的分类器。使用Adam优化器对模型进行优化,最后一层的神经元使用softmax函数作为激活函数并输出分类预测结果。采用交叉熵损失函数拟合预测值与真实值的差异,模型的学习率为0.001。<本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种多模态抑郁数据的融合分析方法,其特征在于:将不同数据类别的数据进行多阶段数据录入,此时将录入的数据进行情绪特征提取,之后,不同模态的数据特征分别通过三个线形层求出K值、Q值和V值表达,再根据融合抑郁数据注意力机制,利用K,Q计算各模态数据的注意力A,将A
·
V作为融合后的特征,服务下游任务,由于融合抑郁数据注意力机制,融合后的数据特征将包含多模态信息,并能辅助下游分类任务。2.根据权利要求1所述的一种多模态抑郁数据的融合分析方法,其特征在于:包括以下步骤,S1数据预处理,将数据组分为文本数据、图像数据和音频数据;S2融合抑郁数据注意力机制,计算预处理后的数据,从而获得包含多模态信息的特征;S3抑郁症识别,将包含多模态信息的特征拼接,并通过一个线性层,输出一个融合后的数据特征,最后一层的神经元使用softmax函数作为激活函数并输出分类预测结果。3.根据权利要求2所述的一种多模态抑郁数据的融合分析方法,其特征在于:所述S1中文本数据包括量表和电子病例,所述量表和电子病历数据...

【专利技术属性】
技术研发人员:张健龚昊然瞿星蒋明丰赵墨
申请(专利权)人:四川大学华西医院
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1