基于掩蔽语音特征提取的帕金森病患语音覆盖检测方法技术

技术编号:38000495 阅读:15 留言:0更新日期:2023-06-30 10:14
本发明专利技术公开了一种基于掩蔽语音特征提取的帕金森病患语音覆盖检测方法,按照以下步骤进行:从帕金森病患者的原始语音中提取Mel语谱图特征,得到初始帕金森病患全局时序化数据;对初始帕金森病患全局时序化数据中Mel语谱图特征进行掩蔽、重构,得到高级帕金森病患者语音特征数据;基于LibriSpeech数据集,进行掩蔽自监督模型的预训练;预训练好模型进行微调和加权求和,得到基于帕金森病患者语音的掩蔽自监督模型;输入一段语音,经处理后进行覆盖检测,得到覆盖率。有益效果:通过对帕金森病患语音的特征进行提取,作为语音比较基础,获取待比较人员与帕金森病患语音特征的覆盖对比监测,从而便于人们对自我监督。从而便于人们对自我监督。从而便于人们对自我监督。

【技术实现步骤摘要】
基于掩蔽语音特征提取的帕金森病患语音覆盖检测方法


[0001]本专利技术属于语音处理与检测
,具体涉及一种基于掩蔽语音特征提取的帕金森病患语音覆盖检测方法。

技术介绍

[0002]帕金森病(Parkinson's Disease,PD)是一种常见的慢性精神系统疾病。研究表明,帕金森病与语言障碍之间存在一定的病理关系。超过90%的帕金森病患者报告了至少一种最常见的声学相关症状,其中包括声音衰减、发音不准确等。
[0003]近年来,一些学者基于语音发音方便对帕金森病语音发音规律、发音准确性等方面进行了研究,并取得了一些进展。例如有文件记载了从采集的持续元音语音/a/中提取了包括频率微扰(Jitter)和振幅微扰(Shimmer)在内的17种声学特征,分析了利用机器学习技术进行帕金森病患发音特征提取;Tsanas等人在此基础上使用了多种语音信号处理算法得到了相关病理特征,用于区分帕金森病患者和健康人。Moro

Velazquez等人介绍了利用小波变换等方法提取帕金森病语音特征的方法。在语音特征提取方面,近年来出现了深度特征学习方法,通过对原始特征进行多层非线性变换,可获得具有更好判别能力的新特征。国内外学者尝试在语音数据中应用有监督的深度学习实现建立帕金森病与语音之间的关系,并取得了积极的成果。
[0004]帕金森病患者的语音特征学习是帕金森病及时发现的主要手段之一,其中,自监督方法为主要手段。与现有监督的方法相比,自监督方法可以从未标注数据中学习到数据的底层结构表示,从而有助于提高下游任务的性能和收敛速度。目前,自监督的特征提取方法已经在语音信号处理领域取得了很好的效果。对比预测编码(Contrastive Predictive Coding,CPC)使用多层卷积神经网络编码过去的语音表示序列,可在对比二进制分类任务下预测潜在的语音表示序列。自回归预测编码(Autore

gressive Predictive Coding,APC)则使用自回归模型对过去语音表示序列的时间信息进行编码。
[0005]预测编码(Contrastive Predictive Coding,CPC)和自回归预测编码(Autore

gressive Predictive Coding,APC)都属于未来预测编码,这类方法的一个显著不足在于它们只能按照语音的前向顺序进行单向分解。然而,对模型架构的单向性约束将使模型无法很好地预测潜在的语音表示序列,限制了语音表示学习的潜力,并且对于帕金森患者语音来说,其发音不准确,声音音量起伏大,则语音更是难以进行提取特征,从而加大对比分析的难度。基于现有技术,都没有很好的技术方案来进行改进,则有必要争取上述技术缺陷提出一种改进方案。

技术实现思路

[0006]针对上述现有技术的不足,本专利技术所要解决的技术问题是:如何提供一种基于掩蔽语音特征提取的帕金森病患语音覆盖检测方法,对非帕金森患者的语音进行帕金森病患语音覆盖检测,提高帕金森病患语音覆盖准确率,便于日常人们自我进行语音监测。
[0007]为了解决上述技术问题,本专利技术采用了如下的技术方案:
[0008]一种基于掩蔽语音特征提取的帕金森病患语音覆盖检测方法,其关键技术在于按照以下步骤进行:
[0009]步骤1:从帕金森病患者的原始语音数据集中提取Mel语谱图特征,得到初始帕金森病患全局时序化数据;
[0010]步骤2:对初始帕金森病患全局时序化数据中Mel语谱图特征进行掩蔽,并通过掩蔽自监督模型对掩蔽部分进行重构,得到高级帕金森病患者语音特征数据;
[0011]步骤3:基于LibriSpeech数据集,进行掩蔽自监督模型的预训练;
[0012]步骤4:基于迁移学习的思想,利用高级帕金森病患者语音特征数据对预训练好的掩蔽自监督模型进行微调和加权求和,得到基于帕金森病患者语音的掩蔽自监督模型;
[0013]步骤5:输入一段语音,经特征提取后,使用基于帕金森病患者语音的掩蔽自监督模型和随机森林、支持向量机分类器,进行覆盖检测。
[0014]进一步的,步骤2的步骤为:
[0015]步骤21:将步骤1得到的初始帕金森病患全局时序化数据Mel语谱图特征x
t
(t=1,2,

,n)作为掩蔽自监督语音特征提取模型的输入;
[0016]步骤22:选取最优掩蔽策略,对掩蔽后的输入序列进行3倍下采样,将长度为n的输入序列变为长度为n/3的序列;
[0017]其中,最优掩蔽策略为:选择每个输入序列中15%的帧进行掩蔽,被选择的帧在80%的时间内将被零向量替换,10%的时间内替换为随机位置的其他帧,剩余10%的时间内保持不变;
[0018]步骤23:将经过3倍下采样后的输入序列与位置编码相加,作为Transformer编码层的输入;
[0019]步骤24:经过全连接层得到重构后的Mel语谱图z
t
(t=1,2,

,n/3),即高级帕金森病患者语音特征数据,并通过上采样重新映射成长度为n的序列。
[0020]再进一步的技术方案,步骤22中,由于Transformer编码器不包含递归和卷积,所以使用位置编码来使模型了解输入序列的顺序;
[0021]由于声学特征可以为任意长度且具有高方差,因此在模型中引入正余弦位置编码
[0022][0023][0024]其中,pos表示语音序列中的位置,i表示语音帧的位置,d
model
表示语音帧的维度。在位置编码中引入正余弦函数,使得对于任意间距长度的语音帧,其位置编码PE
(pos+k)
可以由PE
(pos)
经过线性函数计算得到。
[0025]再进一步的技术方案,步骤3中进行掩蔽自监督模型的预训练时:采用迁移学习,将说话人识别领域中的LibriSpeech语音数据集中100h子集的语音作为源域数据集,通过学习不同的语音来进行说话人分类检测任务;
[0026]将帕金森病语音检测为目标域检测任务,帕金森病语音数据集作为目标域的训练样本;
[0027]将预训练模型中的参数作为目标域模型的初始化参数。
[0028]再进一步的技术方案,步骤4中,所述微调具体内容为:将预训练后的掩蔽自监督模型在帕金森病语音数据集上微调2个epoch,更新了掩蔽自监督模型的参数后,再从Transformer编码器的最后一层提取输岀。
[0029]再进一步的技术方案,步骤4中,所述加权求和的具体内容为:
[0030]采用来自3层Transformer编码器输出的混合表示,通过soft

max函数进行权重计算,其公式可以表示为
[0031][0032]其中,以第j层编码器输出为例,h
j
为第j层编码器输出值,L为编码层总层数,S(h
j
)则为第j层编码器输出本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于掩蔽语音特征提取的帕金森病患语音覆盖检测方法,其特征在于按照以下步骤进行:步骤1:从帕金森病患者的原始语音数据集中提取Mel语谱图特征,得到初始帕金森病患全局时序化数据;步骤2:对初始帕金森病患全局时序化数据中Mel语谱图特征进行掩蔽,并通过掩蔽自监督模型对掩蔽部分进行重构,得到高级帕金森病患者语音特征数据;步骤3:基于LibriSpeech数据集,进行掩蔽自监督模型的预训练;步骤4:基于迁移学习的思想,利用高级帕金森病患者语音特征数据对预训练好的掩蔽自监督模型进行微调和加权求和,得到基于帕金森病患者语音的掩蔽自监督模型;步骤5:输入一段语音,经特征提取后,使用基于帕金森病患者语音的掩蔽自监督模型和随机森林、支持向量机分类器,进行覆盖检测,得到覆盖率。2.根据权利要求1所述的基于掩蔽语音特征提取的帕金森病患语音覆盖检测方法,其特征在于步骤2的步骤为:步骤21:将步骤1得到的初始帕金森病患全局时序化数据Mel语谱图特征x
t
(t=1,2,

,n)作为掩蔽自监督语音特征提取模型的输入;步骤22:选取最优掩蔽策略,对掩蔽后的输入序列进行3倍下采样,将长度为n的输入序列变为长度为n/3的序列;其中,最优掩蔽策略为:选择每个输入序列中15%的帧进行掩蔽,被选择的帧在80%的时间内将被零向量替换,10%的时间内替换为随机位置的其他帧,剩余10%的时间内保持不变;步骤23:将经过3倍下采样后的输入序列与位置编码相加,作为Transformer编码层的输入;步骤24:经过全连接层得到重构后的Mel语谱图z
t
(t=1,2,

,n/3),即高级帕金森病患者语音特征数据,并通过上采样重新映射成长度为n的序列。3.根据权利要求2所述的基于掩蔽语音特征提取的帕金森病患语音覆盖检测方法,其特征在于:步骤22中,由于Transformer编码器不包含递归和卷积,所以使用位置编码来使模型了解输入序列的顺序;由于声学特征可以为任意长度且具有高方差,因此在模型中引入正余弦位置编码由于声学特征可以为任意长度且具有高方差,因此在模型中引入正余弦位置编码其中,pos表示语音序列中的位置,i表示语音帧的位置,d
model
表示语音帧的维度。在位置编码中引入正余弦函数,使得对于任意间距长度...

【专利技术属性】
技术研发人员:周頔
申请(专利权)人:四川文理学院
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1