基于层级多语音学特征融合模型的精神状态检测方法技术

技术编号:32222448 阅读:9 留言:0更新日期:2022-02-09 17:27
本发明专利技术公开了一种基于层级多语音学特征融合模型的精神状态检测方法,包括对原始语音数据进行预处理,以及语音学特征提取,得到语音学特征集;根据得到的语音学特征集输入建立的层级融合模型,进行特征水平融合和回答水平融合,得到所有样本的特征表示;将得到的样本的特征表示输入分类器进行样本的精神状态判定。本发明专利技术通过建立层级融合模型,利用设计的卷积神经网络从不同语音学特征中挖掘与精神状态相关的深度特征。并结合通道感知和经典的注意力机制,从特征的局部通道上以及不同特征全局水平上分配不同的权重,学习出不同特征不同的重要性,以及对不同的回答片段学习不同的权值,从而减少数据冗余对于检测效果的影响。从而减少数据冗余对于检测效果的影响。从而减少数据冗余对于检测效果的影响。

【技术实现步骤摘要】
基于层级多语音学特征融合模型的精神状态检测方法


[0001]本专利技术涉及精神状态检测
,特别涉及一种基于层级多语音学特征融合模型的精神状态检测方法。

技术介绍

[0002]近年来,随着提升社会治安治理能力的需要,公安系统往往需要对嫌疑人做初步的精神鉴定,因此自动精神状态检测技术可以为精神鉴定提供帮助。鉴于公安系统往往会对嫌疑人采取问答式的记录,利用问答式的语音数据来检测精神状态成为了本专利技术关注的重点。
[0003]然而现有的基于语音信号建模的精神状态检测技术利用传统的分类器难以从不同样本的语音信号中区分出某种精神状态呈阳性或者是阴性。随着深度学习技术的发展,使用深度神经网络对从语音信号中提取的语音学特征挖掘出精神状态相关的深层特征表达成为了主流方法。然而一方面不同的语音学特征从不同角度反映了语音信号的特性,仅用少量的特征对于精神状态的检测来说可能会导致偏差从而影响检测效果,如何更好地利用多个不同种类语音学特征之间的互补性,构建融合模型提升精神状态检测能力是一个尚待解决的问题。另一方面由于精神状态检测中问答式的语音数据往往比较冗长,现有技术的不足之处在于,直接对全局信息建模会导致模型参数过大,并且难以从中挖掘出精神状态相关的特征表示,简单地将语音信号等长分割虽然一定程度上扩充了数据量,但是每个分段数据无法表示每个样本,且不同问题回答对于精神状态的检测不一定相关性很高,造成数据存在一定的冗余性。

技术实现思路

[0004]本专利技术的目的克服现有技术存在的不足,为实现以上目的,采用一种基于层级多语音学特征融合模型的精神状态检测方法,以解决上述
技术介绍
中提出的问题。
[0005]一种基于层级多语音学特征融合模型的精神状态检测方法,包括:
[0006]对原始语音数据进行预处理,以及语音学特征提取,得到语音学特征集;
[0007]根据得到的语音学特征集输入建立的层级融合模型,进行特征水平融合和回答水平融合,得到所有样本的特征表示;
[0008]将得到的样本的特征表示输入分类器进行样本的精神状态判定。
[0009]作为本专利技术的进一步的方案:所述数据预处理以及语音学特征提取,得到语音特征集的具体步骤包括:
[0010]建立精神状态检测任务,得到映射函数f,所述映射函数f的预测结果y
i
为:
[0011]y
i
=f(x
i
),y
i
∈{0,1};
[0012]其中,y
i
=1表示精神状态呈阳性,y
i
=0表示精神状态呈阴性;
[0013]将原始语音数据根据被问问题的回答部分分割成若干个语音数据片段;
[0014]根据得到的若干个语音数据片段进行样本信息定义:
[0015]x
i
={Q1,A1,

,Q
j
,A
j
,

,Q
n
,A
n
};
[0016]其中,n表示问题的数量、Q
j
(j∈[1,n])表示每个样本x
i
中的第j个问题、A
j
(j∈[1,n])表示每个样本x
i
中对应于Q
j
的第j个回答;
[0017]根据若干个被问问题Q
j
移除问题片段,得到仅保留回答片段的样本x

i
为:x

i
={A1,

,A
j
,

,A
n
};
[0018]根据回答片段A
j
提取语音学特征集H
j
,表示为:
[0019]其中,k表示语音学特征种类的数量,j是在x

i
中划分的语音片段的索引;
[0020]根据得到的语音学特征集H
j
进行归一化和标准化。
[0021]作为本专利技术的进一步的方案:所述根据得到的语音学特征集H
j
进行归一化和标准化的具体步骤包括:
[0022]获取提取的语音学特征集,并对每种特征m∈[1,k]进行归一化,所述归一化公式为:
[0023][0024]再根据上述结果进行标准化,所述标准化公式为:
[0025][0026]作为本专利技术的进一步的方案:所述特征水平融合的具体步骤包括:
[0027]获取进行预处理的语音学特征集H
j
输入层级融合模型;
[0028]对每种特征建立卷积神经网络,并提取每种特征的深度特征,所述深度特征表示为:
[0029][0030]其中,l∈(1,k)表示第l个CNN产生的特征向量,所述卷积神经网络包括一维卷积神经网络和二维卷积神经网络,二维卷积神经网络的输出表示为H、W、C分别代表网络输出特征的高度、宽度和通道数;
[0031]同时采用通道感知的注意力机制,对网络输出学习出不同通道的重要性,并结合全局平均池化编码为一个全局的特征向量
[0032]再利用sigmoid形式的gating机制得到每个通道的权值:
[0033]其中,r为超参数;
[0034]将每个通道权值乘以网络输出的特征:
[0035]对每种特征学习出不同的权重:
[0036]其中,W
T
、P均为可学习的参数,代表第l种特征的权值;
[0037]通过加权融合得到每个回答片段的融合表示为:
[0038]作为本专利技术的进一步的方案:所述回答水平融合的具体步骤包括:
[0039]在回答水平上进行注意力机制的融合,对得到的不同回答片段的特征表示学习出不同的权值代表不同回答部分的重要性:
[0040][0041]其中,W
T
、P均为可学习的参数,代表第j种回答部分的权值;
[0042]再加权融合计算出每个样本的特征表示为:
[0043]将每个样本的特征表示输入至分类器中判断样本的精神状态是否呈阳性,所述分类器为:y
i
=classifier(d
i
)。
[0044]与现有技术相比,本专利技术存在以下技术效果:
[0045]通过采用上述的技术方案,利用从原始语音数据中提取的不同语音学特征,同时在特征层面进行多语音学特征融合以及在回答层面进行语音片段的融合来获得每个样本数据的精神状态特征表示,从而有效地提升模型对精神状态检测的效果。对每个问题的回答内容进行分割,然后对每个分割的语音片段提取若干类型的语音学特征,利用卷积神经网络结合通道感知的注意力机制得到每种特征的表示,再利用注意力机制对不同特征的表示进行加权融合得到每个回答片段的向量表示,进而对不同回答片段表示进行融合然后送入分类器预测精神状态。通过上述设计,减小了需要构建本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于层级多语音学特征融合模型的精神状态检测方法,其特征在于,包括:对原始语音数据进行预处理,以及语音学特征提取,得到语音学特征集;根据得到的语音学特征集输入建立的层级融合模型,进行特征水平融合和回答水平融合,得到所有样本的特征表示;将得到的样本的特征表示输入分类器进行样本的精神状态判定。2.根据权利要求1所述一种基于层级多语音学特征融合模型的精神状态检测方法,其特征在于,所述数据预处理以及语音学特征提取,得到语音特征集的具体步骤包括:建立精神状态检测任务,得到映射函数f,所述映射函数f的预测结果y
i
为:y
i
=f(x
i
),y
i
∈{0,1};其中,y
i
=1表示精神状态呈阳性,y
i
=0表示精神状态呈阴性;将原始语音数据根据被问问题的回答部分分割成若干个语音数据片段;根据得到的若干个语音数据片段进行样本信息定义:x
i
={Q1,A1,

,Q
j
,A
j
,

,Q
n
,A
n
};其中,n表示问题的数量、Q
j
(j∈[1,n])表示每个样本x
i
中的第j个问题、A
j
(j∈[1,n])表示每个样本x
i
中对应于Q
j
的第j个回答;根据若干个被问问题Q
j
移除问题片段,得到仅保留回答片段的样本x
i

为:x
i

={A1,

,A
j
,

,A
n
};根据回答片段A
j
提取语音学特征集H
j
,...

【专利技术属性】
技术研发人员:郭艳蓉周致远郝世杰洪日昌
申请(专利权)人:合肥工业大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1