一种基于中文语音的病态嗓音评估方法技术

技术编号:21062716 阅读:60 留言:0更新日期:2019-05-08 08:23
本发明专利技术提供一种基于中文语音的病态嗓音评估方法,包括如下步骤:利用中文自动语言识别系统完成对输入的连续的语音信号和其对应文本的自动对齐,完成音素切分;根据所述音素切分的时间序列,将所述连续语音信号进行切分并分成元音、清辅音和浊辅音,然后进行特征的提取;所述提取的特征组成特征参数集合,所述特征参数集合经过特征选择器的筛选,然后输入分类器,得到嗓音问题的细致评分。该方法使用大规模正常语音数据库训练自动语音识别系统,按照不同音素的发声特点对切分的语音序列进行分类,分别针对不同音素类型设计特征参数,最终得到针对嗓音问题的客观整体评分及各细致评分,为临床诊断和康复治疗提供重要参考。

A Method for Evaluating Sick Voice Based on Chinese Speech

【技术实现步骤摘要】
一种基于中文语音的病态嗓音评估方法
本专利技术涉及嗓音检测
,具体涉及一种基于中文语音的病态嗓音评估方法。
技术介绍
嗓音是人类语言沟通的载体。发声系统在声带振动的驱使下发出声音,并通过咽喉、口腔组成的通道传播出来。声音承载不同的信息,是人与人之间沟通必不可少的手段。发声系统发出的声音可以通过波形信号来描述,称为嗓音信号。当发声器官处于正常状态时,声带的振动带有明显的周期规律,咽喉口腔组成的传播通道也有规律的变化,因而产生的嗓音信号也很有规律可循。实际生活中,嗓音不只被用作相互交流信息,而且还用于歌唱,表演,表达情感等等目的。嗓音疾病会对我们的日常交流造成困难,降低沟通效率。嗓音障碍的主要原因有过度用嗓,发音不当,或者发声器官感染疾病。嗓音障碍在嗓音信号上有着明显的体现,例如嗓音的声调、音量、共振峰出现不规则特性,或者嗓音的音质、音色等特征出现明显与说话人的年龄、性别、母语以及文化背景不同的异常变化。在对嗓音障碍的临床诊断和治疗过程中,对嗓音信号进行人工感知评价是一个标准而且重要的无创方法。尽管人工感知评价的评价标准和操作步骤已经发展多年,但是由于缺少足够的有经验的言语治疗师,人工感知评价无法满足现代社会中的需求。基于数字信号处理技术的自动嗓音评估,对于嗓音障碍的临床诊断与治疗有着重要的实际应用价值。其优势包括非侵入性,可重复性,客观性,可靠性等。传统的嗓音分析方法一般只是分析以固定发音位置产生的长元音,这使声学信号分析变得简单,但与连续语言相比,长元音存在以下限制:(1)研究表明,嗓音信号质量受到语言因素的影响,如辅音-元音转换,而这些语言因素在长元音中不能体现,故发长元音时的嗓音信号不能代表复杂的自然语言交流时的嗓音信号;(2)长元音发声有诸多限制,如持续保持音量、音高和发声器官位置,这使长元音音频的获得不如自然连续语音简便灵活;(3)另外,也有研究表明,言语治疗师使用长元音进行嗓音感知评价的可靠性不如使用连续语音。目前对病态嗓音的客观评价研究多集中在对嗓音信号质量进行整体的评价,方法有回归分析或分类;但实际上病态嗓音的临床表现多样,有声音嘶哑、发声费力、咽干、失声、颤音等,仅仅评价嗓音问题的整体严重程度不能为临床辨别具体的嗓音问题提供帮助。目前很少有相关研究工作能够细致到量化嗓音的个别特定方面,如声嘶、气息音等。我们认为这些细致的特性研究对于临床治疗是有关键作用的。
技术实现思路
本专利技术为了解决现有技术中没有一种方法可以细致评价病态嗓音的问题,提供一种基于中文语音的病态嗓音评估方法。为了解决上述问题,本专利技术采用的技术方案如下所述:一种基于中文语音的病态嗓音评估方法,包括如下步骤:利用中文自动语言识别系统完成对输入的连续的语音信号和其对应文本的自动对齐,完成音素切分;根据所述音素切分的时间序列,将所述连续语音信号进行切分并分成元音、清辅音和浊辅音,然后进行特征的提取;所述提取的特征组成特征参数集合,所述特征参数集合经过特征选择器的筛选,然后输入分类器,得到嗓音问题的细致评分。优选地,所述中文自动语言识别系统是使用正常语音数据库训练基于深度神经网络-隐马尔可夫模型的中文语音识别系统。优选地,所述中文自动语言识别系统采用了说话人自适应技术。优选地,所述中文自动语言识别系统使用Viterbi算法将连续的语音信号和其对应文本的音素序列强制对齐以完成音素切分工作。优选地,所述步骤S2中的所述特征包括:第一类特征:基频抖动,振幅抖动,信号噪声比,音高,能量强度;第二类特征:语音中断,无声信号比值;第三类特征:梅尔倒谱系数;第四类特征:高低频能量比,基频变化量,信号噪声比变化量,连续能量差值,连续能量差值变化量,归一化能量。优选地,对所述元音提取所述第一类特征、第二类特征和第四类特征的参数;对所述浊辅音提取第二类特征、第三类特征、第四类特征的参数;对所述清辅音提取第三类特征、第四类特征的参数。优选地,所述第四类特征中:所述高低频能量比HiLo的计算公式为:其中,Ehi为1200HZ以上频段的能量,Elo为1200HZ以下频段的能量,E0为背景噪声能量;所述基频变化量var_F0的计算公式为:其中,F0为一帧信号的基频,n为一段连续语音的总帧数目,var是调用MATLAB中的var函数;所述信号噪声比变化量var_HNR的计算公式为:其中,HNR为信噪比,n为一段连续语音的总帧数目;所述连续能量差值D3_Energy的计算公式为:其中,E(t)为第t帧的时域能量;所述连续能量差值变化量var_D3的计算公式为:其中,n为一段连续语音的总帧数;所述归一化能量E_nor的计算公式为:其中,Evoice为语音信号的能量,Enoise为静音部分的底噪能量。优选地,所述步骤S3中所述细致评分针对待评估的嗓音问题,所述待评估的嗓音问题包括如下嗓音问题:Q1:总体感觉上一段嗓音的病变的严重程度;Q2:感觉到嗓音异常、不规则、不清晰;Q3:感觉到嗓音里有呼气或漏气现象;Q4:感觉到发音过度用力;Q5:发音过程中,存在突然不受控制的停顿;Q6:感觉到突然不受控制的基频或声调变化;Q7:发音过程中存在快速连续的爆裂声;Q8:感觉到有规律有周期的声调或响度的变化;Q9:嗓音中存在明显的基频或声调与说话人性别、年龄和文化教育背景不符合的异常;Q10:发音音量明显与说话内容不符合的过大或者过小。优选地,所述细致评分得出针对嗓音问题的严重程度,所述严重程度包括:正常或轻微、中度、严重。本专利技术还提供一种基于中文语音的病态嗓音评估系统,包括语音输入模块、采用如上任一所述方法的语音评估模块、评估结果输出模块,所述语音输入模块用于接受实时录音或音频,并将所述实时录音或音频传输给语音评估模块;所述语音评估模块用于对所述实时录音或音频进行评估,并将评估结果传输给评估结果输出模块;所述结果输出模块用于将所述评估结果输出。本专利技术的有益效果为:提供一种基于中文语音的病态嗓音评估方法,该方法使用大规模正常语音数据库训练,按照不同音素的发声特点对切分的语音序列进行分类,针对不同的语音序列设计不同的特征参数,最终得到嗓音问题的细致评分,嗓音问题的客观评分,为临床诊断和康复治疗提供重要参考。附图说明图1是本专利技术实施例1中基于中文语音的病态嗓音评估方法的步骤图。图2是本专利技术实施例1中基于中文语音的病态嗓音评估方法的演示图。图3是本专利技术实施例1中基于深度神经网络-隐马尔可夫模型的中文语音识别系统。图4是本专利技术实施例1中评分分类器方法的示意图。图5是本专利技术实施例1中没有声嘶语音中元音的HiLo值分布直方图。图6是本专利技术实施例1中有严重声嘶语音中元音的HiLo值分布直方图。图7是本专利技术实施例1中没有气息音语音中元音的HiLo值分布直方图。图8是本专利技术实施例1中有严重气息音语音中元音的HiLo值分布直方图。图9是本专利技术实施例1中音量正常语音中元音的E_nor值分布直方图。图10本专利技术实施例1中有中度、严重低音量语音中元音的E_nor值分布直方图。图11是本专利技术实施例3中基于中文语音的病态嗓音评估系统的示意图。具体实施方式下面结合附图通过具体实施例对本专利技术进行详细的介绍,以使更好的理解本专利技术,但下述实施例并不限制本专利技术范围。另外,需要说明的是,下述实施例中所提供的图本文档来自技高网
...

【技术保护点】
1.一种基于中文语音的病态嗓音评估方法,其特征在于,包括如下步骤:S1:利用中文自动语言识别系统完成对输入的连续的语音信号和其对应文本的自动对齐,完成音素切分;S2:根据所述音素切分的时间序列,将所述连续语音信号进行切分并分成元音、清辅音和浊辅音,然后进行特征的提取;S3:所述提取的特征组成特征参数集合,所述特征参数集合经过特征选择器的筛选,然后输入分类器,得到嗓音问题的细致评分。

【技术特征摘要】
1.一种基于中文语音的病态嗓音评估方法,其特征在于,包括如下步骤:S1:利用中文自动语言识别系统完成对输入的连续的语音信号和其对应文本的自动对齐,完成音素切分;S2:根据所述音素切分的时间序列,将所述连续语音信号进行切分并分成元音、清辅音和浊辅音,然后进行特征的提取;S3:所述提取的特征组成特征参数集合,所述特征参数集合经过特征选择器的筛选,然后输入分类器,得到嗓音问题的细致评分。2.如权利要求1所述的基于中文语音的病态嗓音评估方法,其特征在于,所述中文自动语言识别系统是使用正常语音数据库训练基于深度神经网络-隐马尔可夫模型的中文语音识别系统。3.如权利要求1所述的基于中文语音的病态嗓音评估方法,其特征在于,所述中文自动语言识别系统采用了说话人自适应技术。4.如权利要求1所述的基于中文语音的病态嗓音评估方法,其特征在于,所述中文自动语言识别系统使用Viterbi算法将连续的语音信号和其对应文本的音素序列强制对齐以完成音素切分工作。5.如权利要求1所述的基于中文语音的病态嗓音评估方法,其特征在于,所述步骤S2中的所述特征包括:第一类特征:基频抖动,振幅抖动,信号噪声比,音高,能量强度;第二类特征:语音中断,无声信号比值;第三类特征:梅尔倒谱系数;第四类特征:高低频能量比,基频变化量,信号噪声比变化量,连续能量差值,连续能量差值变化量,归一化能量。6.如权利要求5所述的基于中文语音的病态嗓音评估方法,其特征在于,对所述元音提取所述第一类特征、第二类特征和第四类特征的参数;对所述浊辅音提取第二类特征、第三类特征、第四类特征的参数;对所述清辅音提取第三类特征、第四类特征的参数。7.如权利要求5所述的基于中文语音的病态嗓音评估方法,其特征在于,所述第四类特征中:所述高低频能量比HiLo的计算公式为:其中,Ehi为6000HZ以上频段的能量,Elo为6000HZ以下频段的能量,E0为背...

【专利技术属性】
技术研发人员:李丹刘媛媛
申请(专利权)人:香港中文大学深圳研究院
类型:发明
国别省市:广东,44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1