本发明专利技术公开用于抑郁检测的预训练方法和抑郁检测方法及装置,其中,方法包括:将从训练音频中提取的频谱图特征切分为N个子频谱图特征;在所述N个子频谱图特征的中心M
Pre training method and depression detection method and device for depression detection
【技术实现步骤摘要】
用于抑郁检测的预训练方法和抑郁检测方法及装置
本专利技术属于神经网络
,尤其涉及用于抑郁检测的预训练方法和抑郁检测方法及装置。
技术介绍
抑郁症是一种引起人们广泛关注的疾病,已经影响到全世界3亿多人。随着抑郁症的严重程度在没有充分治愈的情况下增长,患有这种疾病的人将遭受多种症状,包括失眠,失去兴趣以及在极端时自杀。越来越多的研究涉及自动抑郁症的检测和严重程度的预测,特别是对话性语音,其中嵌入了有关人的精神状态的重要信息。但是,到目前为止,这些模型受到抑郁数据十分有限的严重限制,导致精度提高和再现困难。在过去的几十年中,抑郁症检测的研究有所增加,因为该疾病已成为社会关注的问题。现有技术中,研究自动抑郁检测方法的主要瓶颈,在于可用的数据十分有限。因此,一般在进行抑郁症检测时,大多数人会选用多模态,即语音,视频以及文字等数据进行模态融合,或者仅仅使用文字进行检测,这样可以使得特征与人声或者人的说话内容更相关。由于音频中经常存在很多与说话人无关的信息,比如噪音,所以检测的精度较差。
技术实现思路
本专利技术实施例提供一种用于抑郁检测的预训练方法和抑郁检测方法及装置,用于至少解决上述技术问题之一。第一方面,本专利技术实施例提供一种用于抑郁检测的预训练方法,包括:将从训练音频中提取的频谱图特征切分为N个子频谱图特征;在所述N个子频谱图特征的中心M0的前后分别选取k个子频谱图特征,其中,k<(N-1)/2;将M0的前k个子频谱图特征和后k个子频谱图特征合记为Mi,将Mi输入编码器;以及以中心子频谱图特征M0作为目标标签,训练所述编码器和解码器以使得所述编码器和所述解码器能够利用Mi预测M0。第二方面,本专利技术实施例提供一种抑郁检测方法,包括:将待检测语音输入至根据第一方面所述的方法训练的编码器中,获取所述编码器的输出;以及将所述编码器的输出输入至抑郁判别网络中,获取所述抑郁判别网络输出的与所述待检测语音对应的抑郁状况。第三方面,本专利技术实施例提供一种用于抑郁检测的预训练方法装置,包括:提取切分模块,配置为将从训练音频中提取的频谱图特征切分为N个子频谱图特征;周围特征选取模块,在所述N个子频谱图特征的中心M0的前后分别选取k个子频谱图特征,其中,k<(N-1)/2;输入模块,配置为将M0的前k个子频谱图特征和后k个子频谱图特征合记为Mi,将Mi输入编码器;以及训练模块,配置为以中心子频谱图特征M0作为目标标签,训练所述编码器和解码器以使得所述编码器和所述解码器能够利用Mi预测M0。第四方面,本专利技术实施例提供一种抑郁检测装置,包括:输出获取模块,配置为将待检测语音输入至根据第一方面所述的方法训练的编码器中,获取所述编码器的输出;以及抑郁状况输出模块,配置为将所述编码器的输出输入至抑郁判别网络中,获取所述抑郁判别网络输出的与所述待检测语音对应的抑郁状况。第五方面,提供一种电子设备,其包括:至少一个处理器,以及与所述至少一个处理器通信连接的存储器,其中,所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行本专利技术任一实施例的抑郁检测方法的步骤。第六方面,本专利技术实施例还提供一种计算机程序产品,所述计算机程序产品包括存储在非易失性计算机可读存储介质上的计算机程序,所述计算机程序包括程序指令,当所述程序指令被计算机执行时,使所述计算机执行本专利技术任一实施例的抑郁检测方法的步骤。本申请的方法和装置提供的方案通过对语音进行预训练之后,发现不论运用什么数据集(甚至是跨语种),预训练后的编码器都能提取出音频中关于人声的更加丰富的信息,从而使得对抑郁症检测的精度相比不用预训练,有很大程度的提升。进一步地,很多人声数据集可以用来预训练,不会存在缺乏数据的问题。附图说明为了更清楚地说明本专利技术实施例的技术方案,下面将对实施例描述中所需要使用的附图作一简单地介绍,显而易见地,下面描述中的附图是本专利技术的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。图1为本专利技术一实施例提供的一种用于抑郁检测的预训练方法的流程图;图2为本专利技术一实施例提供的一种抑郁检测方法的流程图;图3为本专利技术一实施例提供的预训练方法的一个具体实施例的框架示意图;图4为本专利技术一实施例提供的预训练方法的一个具体实施例的算法示意图;图5为本专利技术一实施例提供的一种预训练方法的一个具体实施例的预训练编码器-解码器体系架构图;图6为本专利技术一实施例提供的一种抑郁检测方法的一个具体实施例的抑郁检测流程示意图;图7为本专利技术一实施例提供的一种用于抑郁检测的预训练装置的框图;图8为本专利技术一实施例提供的一种抑郁检测装置的框图;图9是本专利技术一实施例提供的电子设备的结构示意图。具体实施方式为使本专利技术实施例的目的、技术方案和优点更加清楚,下面将结合本专利技术实施例中的附图,对本专利技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本专利技术一部分实施例,而不是全部的实施例。基于本专利技术中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本专利技术保护的范围。请参考图1,其示出了本申请的用于抑郁检测的预训练方法一实施例的流程图,本实施例的抑郁检测方法可以适用于用于抑郁检测或者情绪检测的设备中,例如抑郁检测设备等。如图1所示,在步骤101中,将从训练音频中提取的频谱图特征切分为N个子频谱图特征;在步骤102中,在N个子频谱图特征的中心M0的前后分别选取k个子频谱图特征,其中,k<(N-1)/2;在步骤103中,将M0的前k个子频谱图特征和后k个子频谱图特征合记为Mi,将Mi输入编码器;在步骤104中,以中心子频谱图特征M0作为目标标签,训练编码器和解码器以使得编码器和解码器能够利用Mi预测M0。在本实施例中,对于步骤101,预训练装置首先获取训练音频,然后从训练音频中提取所需地频谱图特征,并将提取地频谱图特征切分成N个子频谱图特征,每个特征的大小可以预设,本申请在此没有限制。之后,对于步骤102,预训练装置从N个子频谱特征的中心M0的前后分别选取k个子频谱图特征,如果N是奇数的话是M0唯一的,如果N是偶数的话,M0可以是中心处两个子频谱图特征中的任一,本申请在此没有限制。然后,对于步骤103,预训练装置将M0的前k个子频谱图特征和后k个子频谱图特征,作为输入同时输入至编解码器中。最后,对于步骤104,由于已知中心M0,因此可以以中心子频谱图特征M0作为目标标签,训练编解码器以使得编码器和解码器能够利用Mi预测M0。通过控制两个特征的相似度,来训练编解码器最后能够输出与目标标签相似的特征从而训练出能够通过周边特征预测中心特征的编解码器。本实施例的方法通过提取中心特征周围的特征输入编解码器进行训练,通过控制最终输出的特征与目标标签的特征的近似度,调整编解码器的参数使得编解码器最本文档来自技高网...
【技术保护点】
1.一种用于抑郁检测的预训练方法,包括:/n将从训练音频中提取的频谱图特征切分为N个子频谱图特征;/n在所述N个子频谱图特征的中心M
【技术特征摘要】
1.一种用于抑郁检测的预训练方法,包括:
将从训练音频中提取的频谱图特征切分为N个子频谱图特征;
在所述N个子频谱图特征的中心M0的前后分别选取k个子频谱图特征,其中,k<(N-1)/2;
将M0的前k个子频谱图特征和后k个子频谱图特征合记为Mi,将Mi输入编码器;
以中心子频谱图特征M0作为目标标签,训练所述编码器和解码器以使得所述编码器和所述解码器能够利用Mi预测M0。
2.根据权利要求1所述的方法,其中,所述训练所述编码器和解码器以使得所述编码器和所述解码器能够利用Mi预测M0包括:
计算Mi和M0的平均绝对误差,训练所述编码器和所述解码器以使得所述平均绝对误差小于等于预设阈值。
3.根据权利要求1或2所述的方法,其中,所述频谱图特征包括梅尔频谱特征和短时傅立叶变换特征,所述子频谱图特征包括96帧的子频谱图中的特征。
4.根据权利要求3所述的方法,其中,所述编码器和所述解码器均为卷积神经网络。
5.一种抑郁检测方法,包括:
将待检测语音输入至根据权利要求1-4中任一项所述的方法训练的编码器中,获取所述编码器的输出;
将所述编码器的输出输入至抑郁判别网络中,获取所述抑郁判别网络输出的与所述待检测语音对应的抑郁状况。
6.根据权利要求5所述的方法,其中,所述抑...
【专利技术属性】
技术研发人员:俞凯,吴梦玥,丁翰林,张平越,
申请(专利权)人:苏州思必驰信息科技有限公司,
类型:发明
国别省市:江苏;32
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。