基于DCNN‑DNN和PV‑SVM的多模态抑郁症估计和分类方法技术

技术编号:16153529 阅读:476 留言:0更新日期:2017-09-06 18:38
本发明专利技术涉及一种基于DCNN‑DNN和PV‑SVM的多模态抑郁症估计和分类方法,利用位移范围直方图和Opensmile工具对音视频特征进行预处理,利用深度卷积神经网络提取中音、视频统计特征的隐层抽象特征,利用深度神经网络DNN进行抑郁症估计,利用段向量PV方法进行文本信息的高维特征映射,将得到的高维特征表示输入SVM中进行二分类,将抑郁症估计与二分类结果串接后输入随机森林Random Forests模型进行训练,用训练好的随机森林Random Forests模型实现最终抑郁症的分类任务,即抑郁或非抑郁。由于采用DCNN模型对初级音视频提取了隐层抽象特征,这样使原来高维特征变得更加紧凑,包含的信息更加丰富,从而使模型更加有效,避免了由于特征维度过高导致的过拟合现象。

【技术实现步骤摘要】
基于DCNN-DNN和PV-SVM的多模态抑郁症估计和分类方法
本专利技术属于计算机和医学结合领域,采用深度卷积神经网络(DCNN)、深度神经网络(DNN)、段落向量(PV)以及支持向量机(SVM)模型,涉及一种从听觉、视觉和文本信息中对抑郁症进行分类的方法。
技术介绍
近年来,人工智能领域已经借助机器学习方法,从音频、视频出发建立了多种多样的抑郁症检测系统,来帮助心理学家进行临床抑郁症的检测预防和治疗。在过去的几年中,通过音视频信息来进行抑郁症的检测领域已经取得了许多重要的成果。文献“DecisionTreeBasedDepressionClassificationfromAudioVideoandLanguageInformation,20166thAVEC,pp89-96”公开了一种基于音频、视频的多模态抑郁症估计,之后结合文本信息手动建立决策树对抑郁症进行分类。此方法分为抑郁症估计和抑郁症分类两部分。在抑郁症估计阶段,采用音视频单模态对抑郁症进行初步估计,之后又将音视频的单模态估计结果相结合,进行最终的多模态抑郁症估计。但是,这种方法在抑郁症估计阶段,受到样本数量,特征种类多、针对性差以及模型性能的局限,导致对抑郁症的估计准确度低,泛化性差,无法达到精度要求;在抑郁症分类阶段,此方法采用人工分析文本信息的方法,结合抑郁症估计阶段的估计值,通过人工建立决策树,实现抑郁症的分类。这一阶段由于需要人工分析文本信息,因此主观性大,工作量大,因此此方法具有局限性且难以推广。目前研究学者借助机器学习方法来判断抑郁症已经取得了一定的成果,然而由于抑郁症的复杂性以及个体的差异性,抑郁症的研究仍然面临以下挑战:1)“多对一”问题。而在抑郁症研究中,往往是一个样本(许多帧)对应一个抑郁程度。这种多对一的问题导致大量有用的时序信息被丢弃,造成信息浪费。为了弥补信息丢失的缺点,学者设计了多种统计方法,这样产生非常高的特征维度,容易导致过拟合现象。2)大量有用的信息未被挖掘。目前,较多研究的是通过音视频来检测抑郁症。这种通过音视频来研究抑郁症的方法,通常是“内容无关”的方法。而通过文本信息来研究抑郁症的方法现在还不是很成熟。通常,文本信息中反映了患者的睡眠、生活状态等信息,这种“内容相关”的方法目前还没有被大量挖掘。综上所述,现有的抑郁症检测方法易受特征维度影响,大量信息未被全面研究,容易造成抑郁症估计精确度低,抑郁症检测分类正确率低。
技术实现思路
要解决的技术问题为了避免现有技术的不足之处,本专利技术设计了一种基于深度卷积神经网络(DCNN)、深度神经网络(DNN)、段落向量(PV)以及支持向量机(SVM)的多模态抑郁症估计和分类方法。技术方案1.一种基于DCNN-DNN和PV-SVM的多模态抑郁症估计和分类方法,其特征在于步骤如下:步骤1:利用位移范围直方图和Opensmile工具对音视频特征进行预处理:将视频Landmarks特征输入位移范围直方图统计方法中,得到视频Landmarks特征的全局特征;将音频LLD特征输入Opensmile工具提取音频全局统计信息;所述的位移范围直方图统计方法步骤如下:首先定义时间间隔M:={M1,M2,M3,...,Mx},范围R:={R1,R2,R3,...,Rz},视频Landmarks特征作为位移范围直方图统计方法的输入,x和z分别代表时间间隔和范围的个数;然后,对于每一个时间间隔Mx,计算Landmarks特征每一个维度中,第i+Mx帧与第i帧之间的差值,得到差值矩阵;最后,统计差值矩阵中每个维度在每个范围Rz中的分布个数;将得到的分布个数除以原始Landmarks特征的总帧数,得到归一化后的视频Landmarks全局特征;步骤2:利用深度卷积神经网络提取步骤1中音、视频统计特征的隐层抽象特征:式(1)中,代表输入的音、视频特征,fx,i代表卷积模板,n代表卷积模板中元素个数,代表卷积后的抽象特征,表示为对得到的抽象特征进行pooling;式(2)中,H(·)函数代表一种函数变换,F(·)函数代表ReLU激活函数,如公式(3)所示,代表权重信息;(1)式和(2)式中和分别为偏置,j和k代表位置块信息;σ(z)=max(0,z)(3)以患者真实的PHQ-8得分为DCNN模型的监督信息,通过重复(1)式和(2)式过程,进行DCNN模型的训练;将音频和视频特征输入训练好的DCNN模型中进行一次前向过程,并将倒数第二层隐层数据取出,作为初级音频视频特征的隐层抽象特征;步骤3:利用深度神经网络DNN进行抑郁症估计:将步骤2中得到音频、视频的隐层抽象特征作为DNN网络的输入,以标准PHQ-8得分为监督信息,进行单模态DNN模型的训练,用训练好的单模态DNN模型进行新样本的PHQ-8得分估计,从而得到音频和视频的单模态抑郁症PHQ-8得分估计,然后采用决策融合的方法将音频和视频的单模态PHQ-8得分输入另一个DNN模型中,再次以标准PHQ-8得分为监督信息,进行多模态DNN模型的训练,最终利用这个多模态DNN模型进行新样本的PHQ-8得分估计;其中单模态和多模态中的两个DNN网络中每层的激活函数都采用ReLU函数;步骤4:利用段向量PV方法进行文本信息的高维特征映射:段向量框架共包含两个步骤:训练字典中的词向量W以及段向量D;在第一个阶段中,从日常交流用语中提取词序列w1,w2,w3,...,wn以及段落序列p1,p2,p3,...,pm,n和m分别表示字典中词的个数和段落的个数;每个单词被表示为一个向量每个段落被表示为得到段落向量模型的目标是最大化式(4)的似然概率:其中,k是1到n中的某个数,概率p通过一个softmax函数得到:上式中yi是关于W和D的函数,计算方法如下:y=b+Uh(wt-k,...,wt+k;W,D)(6)其中,U和b是softmax参数;在第二阶段,将W,U,b固定,在D中加入反映患者生活状态的文本的id信息,同时使用梯度下降法进行这些新加入的文本的推理过程;最终得到段落向量D',即反映患者生活状态的文本的高维特征表示;步骤5:将步骤4中得到的高维特征表示输入SVM中进行SVM训练,用训练好的SVM模型进行二分类:更趋向抑郁症的特征表现将被划分为1,否则将被划为0类;步骤6:将步骤3中得到的多模态PHQ-8得分与步骤5中得到的0、1分类结果串接后输入随机森林RandomForests模型进行训练,用训练好的随机森林RandomForests模型实现最终抑郁症的分类任务,即抑郁或非抑郁。有益效果本专利技术提出的一种基于DCNN-DNN和PV-SVM的多模态抑郁症估计和分类方法,由于采用DCNN模型对初级音视频提取了隐层抽象特征,这样使原来高维特征变得更加紧凑,包含的信息更加丰富,从而使模型更加有效,避免了由于特征维度过高导致的过拟合现象。同时,该专利技术提供了一种利用文本信息的新思路,挖掘了更多的信息。这种高层特征与低层抽象特征相结合的方法,提高了抑郁症的检测准确度。1)提出一种基于DCNN-DNN的多模态抑郁症估计模型。这种模型将深度卷积神经网络可以提取抽象特征的方法和深度神经网络挖掘特征隐含联系的能力相结合,能够有效的提高抑郁症的识别精度。2)提出一种基于PV本文档来自技高网
...

【技术保护点】
一种基于DCNN‑DNN和PV‑SVM的多模态抑郁症估计和分类方法,其特征在于步骤如下:步骤1:利用位移范围直方图和Opensmile工具对音视频特征进行预处理:将视频Landmarks特征输入位移范围直方图统计方法中,得到视频Landmarks特征的全局特征;将音频LLD特征输入Opensmile工具提取音频全局统计信息;所述的位移范围直方图统计方法步骤如下:首先定义时间间隔M:={M1,M2,M3,...,Mx},范围R:={R1,R2,R3,...,Rz},视频Landmarks特征作为位移范围直方图统计方法的输入,x和z分别代表时间间隔和范围的个数;然后,对于每一个时间间隔Mx,计算Landmarks特征每一个维度中,第i+Mx帧与第i帧之间的差值,得到差值矩阵;最后,统计差值矩阵中每个维度在每个范围Rz中的分布个数;将得到的分布个数除以原始Landmarks特征的总帧数,得到归一化后的视频Landmarks全局特征;步骤2:利用深度卷积神经网络提取步骤1中音、视频统计特征的隐层抽象特征:

【技术特征摘要】
1.一种基于DCNN-DNN和PV-SVM的多模态抑郁症估计和分类方法,其特征在于步骤如下:步骤1:利用位移范围直方图和Opensmile工具对音视频特征进行预处理:将视频Landmarks特征输入位移范围直方图统计方法中,得到视频Landmarks特征的全局特征;将音频LLD特征输入Opensmile工具提取音频全局统计信息;所述的位移范围直方图统计方法步骤如下:首先定义时间间隔M:={M1,M2,M3,...,Mx},范围R:={R1,R2,R3,...,Rz},视频Landmarks特征作为位移范围直方图统计方法的输入,x和z分别代表时间间隔和范围的个数;然后,对于每一个时间间隔Mx,计算Landmarks特征每一个维度中,第i+Mx帧与第i帧之间的差值,得到差值矩阵;最后,统计差值矩阵中每个维度在每个范围Rz中的分布个数;将得到的分布个数除以原始Landmarks特征的总帧数,得到归一化后的视频Landmarks全局特征;步骤2:利用深度卷积神经网络提取步骤1中音、视频统计特征的隐层抽象特征:式(1)中,代表输入的音、视频特征,fx,i代表卷积模板,n代表卷积模板中元素个数,代表卷积后的抽象特征,表示为对得到的抽象特征进行pooling;式(2)中,H(·)函数代表一种函数变换,F(·)函数代表ReLU激活函数,如公式(3)所示,代表权重信息;(1)式和(2)式中和分别为偏置,j和k代表位置块信息;σ(z)=max(0,z)(3)以患者真实的PHQ-8得分为DCNN模型的监督信息,通过重复(1)式和(2)式过程,进行DCNN模型的训练;将音频和视频特征输入训练好的DCNN模型中进行一次前向过程,并将倒数第二层隐层数据取出,作为初级音频视频特征的隐层抽象特征;步骤3:利用深度神经网络DNN进行抑郁症估计:将步骤2中得到音频、视频的隐层抽象特征作为DN...

【专利技术属性】
技术研发人员:杨乐蒋冬梅夏小涵裴二成何浪赵勇
申请(专利权)人:西北工业大学
类型:发明
国别省市:陕西,61

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1