一种用于病理语音识别的语音变异性编码方法技术

技术编号:43832125 阅读:29 留言:0更新日期:2024-12-31 18:31
本发明专利技术提供一种用于病理语音识别的语音变异性编码方法,包括构建语音变异性变分自编码器模型,以捕捉并特征化病理语音的声学变异性,重建声学特征;采用声学变异性编码优化训练技术使语音变异性变分自编码器模型避免音素信息,以编码音素无关的声学变异性;基于重建的声学特征,将语音变异性变分自编码器模型应用于病理语音识别系统及构建正常语音合成系统。本发明专利技术的方法有利于提高语音识别系统中声学模型的性能和鲁棒性,使其适应于病理语音识别场景,从而促进特殊语言群体也能够受益于言语驱动的辅助科技与智能设备。

【技术实现步骤摘要】

本专利技术涉及信息,具体涉及一种用于病理语音识别的语音变异性编码方法


技术介绍

1、病理性言语产生可能由多种疾病和生理状况引起的,如神经性疾病像中风,帕金森病、阿尔茨海默病,发音器官异常或损伤像喉癌、腭裂,以及不同情况导致的构音障碍等。病理语音识别技术以及基于语音识别结果合成正常语音的病理语音重构技术对辅助患者生活有重要意义,如辅助患者言语交流、控制智能设备、进行言语康复训练等。

2、病理语音表现为言语含糊不清、语调单调、发音缓慢或费力,气息重,音量低等变异,通常会降低言语的可懂度。这些多种多样的原因导致的语音变异性,其声学表现有很大差异,使得这种变异难以精确建模。再加上病理语音数据量有限,病理语音识别是一项具有挑战性的任务。同时由于训练和测试之间存在巨大差异,使用正常语音训练的商业自动语音识别系统无法直接用于构音障碍语音。

3、针对病理语音识别,主要的处理方式有:(1)优化特征:通过修改信号域和特征域的语音节奏来减少病理语音与正常人语音之间的差异;补充发音知识也可以减少说话者之间的变异性;使用正常人语音训练的深度神经网络或卷积瓶本文档来自技高网...

【技术保护点】

1.一种用于病理语音识别的语音变异性编码方法,其特征在于,包括:

2.根据权利要求1所述的方法,其特征在于,所述构建语音变异性变分自编码器模型,以捕捉并特征化病理语音信号的声学变异性,重建声学特征,包括:

3.根据权利要求2所述的方法,其特征在于,所述基于时序信息,语音变异性变分自编码器通过音素信息和声学信息将声学输入特征重建为含有语音变异性的声学特征,包括:

4.根据权利要求3所述的方法,其特征在于,语音变异性变分自编码器模型中,令o={ot=1:T}为声学特征序列,c={ct=1:T}为音素序列,z={zt=1:T}为声学变异,生成的语音变异性变分...

【技术特征摘要】

1.一种用于病理语音识别的语音变异性编码方法,其特征在于,包括:

2.根据权利要求1所述的方法,其特征在于,所述构建语音变异性变分自编码器模型,以捕捉并特征化病理语音信号的声学变异性,重建声学特征,包括:

3.根据权利要求2所述的方法,其特征在于,所述基于时序信息,语音变异性变分自编码器通过音素信息和声学信息将声学输入特征重建为含有语音变异性的声学特征,包括:

4.根据权利要求3所述的方法,其特征在于,语音变异性变分自编码器模型中,令o={ot=1:t}为声学特征序列,c={ct=1:t}为音素序列,z={zt=1:t}为声学变异,生成的语音变异性变分自编码器模型则可表示为o~p(o|c,z),为了显示编码声学变异,将z视为通过编码器生成的潜在变量,z的后验分布可以通过使用随机梯度变分贝叶斯算法的概率编码器输出分布q(z|o,φ)进行近似,o的条件概率计算如下:

5.根据权利要求4所述的方法,其特征在于,编码...

【专利技术属性】
技术研发人员:茹克艳木·肉孜谢旭荣苏荣锋燕楠王岚
申请(专利权)人:中国科学院深圳先进技术研究院
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1