当前位置: 首页 > 专利查询>苏州大学专利>正文

基于声道参数的汉语耳语音声调识别方法技术

技术编号:3044396 阅读:227 留言:0更新日期:2012-04-11 18:40
本发明专利技术公开了一种基于声道参数的汉语耳语音声调识别方法,对录制的耳语音进行数字化采样,对采样数据进行分析,识别出耳语音的声调,其特征在于:所述的对采样数据进行分析是,对耳语音采样数据进行分帧加窗,窗长不大于20毫秒,求取每一帧语音的线性预测模型参数,据此计算每一帧语音信号的增益参数,由此获得语音信号增益轨迹曲线,与标准语音声调曲线进行对比,确定耳语音的声调。本发明专利技术基于声道参数,采用声道增益参数分析方法,实现了汉语耳语音的声调识别,应用于汉语的语音识别系统,识别率高,具有显著的优越性。

【技术实现步骤摘要】

本专利技术涉及一种语音识别的方法,具体涉及一种汉语耳语音的声调的识别 方法。
技术介绍
耳语音是一种有别于正常语音的发音模式,其主要特点是发音时音量低且 声带完全不振动。耳语,作为一种特殊的语言交流方式,有着广泛的应用领域。在医学方面,语音临床医学专家研究耳语音模式以期帮助失音患者,并致 力于观察耳语发音是否有利于喉部手术病人噪音的恢复和治疗。从通信的角度 来看,在公众场合如会议环境中,为了避免对他人的干扰或为了通话的保密性, 人们有时需要利用耳语进行电话交流。此外,耳语音课题的研究也能够为公安 司法部门的语音识别、话者识别提供依据。在国外,有些用于低比特率语音编 码和语音识别的数据库中也包括了对耳语音的要求。目前,对于耳语音的研究,主要从语音学的角度集中在耳语音发音特征分 析、耳语音与正常语音的比较等方面。已有研究的一些主要结论有①耳语音与正常语音相比有很大差异,这种差异在浊音段更加突出。②耳语音的激励源 为噪声,发音时声带不振动,因而没有基音频率信息。③耳语音是气声发音, 其能量比正常语音低约20dB,信噪比更低。④耳语音虽然没有基音,但从听 觉上仍能感知声调和音髙。⑤耳语音仍存在共振峰,但第一共振峰的振幅较小, 频率向髙端偏移,带宽大于正常语音,第二、第三共振峰也有类似的情形。目 前对耳语音的研究中,由于语言语系的差异,基本上不涉及耳语音声调的提取 和识别。作为声调语言的汉语,拥有世界上人数最多的使用者。与英语等其它语调 语言相比,声调语言所携带的语义量是无调语言的约四倍。声调的提取是声调 语言研究中不可或缺的一部分,耳语音声调的研究在耳语增加、耳语识别、耳 语转换等方面都有着举足轻重的意义。在正常语音中,人们通常采用韵母段基音频率的轨迹曲线,来表征语音的声调。而在耳语音中,由于发音时声带不振 动,不存在基音频率,因此无法利用该参数进行四声识别。加拿大维多利亚大学语言学系的Man Gao在2002年发表的硕士学位论文 Tones in Whispered Chinese: Articulatory Features and Perceptual Cues 中,从三个步骤对汉语耳语音的声调进行了分析首先,通过喉部内腔镜观测正常音与耳语发音时的咽喉动作差异;其次,采集孤立字与语句环境下两男两女四声语音;最后进行听觉感知实验。该文从听觉感知的角度对耳语音的声调 进行了研究,但并不能直接应用于计算机语音识别系统中去。《电声技术》2003 年第11期上,沙丹青等在《耳语音声调特征的研究》 一文中,介绍了耳语音 的声学特性,通过人耳听觉实验验证了孤立的耳语音节是携有声调信息的,并 进一步得出幅值包络和音长都是耳语音声调识别的重要因素。但是,采用幅值 包络方式进行耳语音声调识别难度较大,识别率低。
技术实现思路
本专利技术目的是提供一种汉语耳语音的声调识别方法,通过基于声道参数的 识别,提髙耳语音声调的识别率。为达到上述目的,本专利技术采用的技术方案是 一种基于声道参数的汉语耳 语音声调识别方法,对录制的耳语音进行数字化采样,对采样数据进行分析, 识别出耳语音的声调,所述的对采样数据进行分析是,对耳语音采样数据进行 分帧加窗,窗长不大于20毫秒,求取每一帧语音的线性预测模型参数,据此 计算每一帧语音信号的增益参数,由此获得语音信号增益轨迹曲线,与标准语音声调曲线进行对比,确定耳语音的声调。上述技术方案中,所述对釆样数据进行分析中,在进行所述分帧加窗之前, 先对语音进行预加重,即提升髙频部分。由此,使信号的频谱变得平坦,保持 在低频到髙频的整个频带中,能用同样的信噪比求频谱,以便于频谱分析或声 道参数分析。所述预加重采用一阶数字滤波器H(z)二l-^1,其中,H是传递函数,z为z变换,U为预加重系数,li <1。鉴于语音信号的短时性,分帧时,窗长不大于20亳秒。所述分帧加窗采用汉明(Hamming)窗<formula>formula see original document page 5</formula>为其它值式中,n为加窗点,N为窗长。求取每一帧语音的线性预测模型参数时,在最小均方根误差准则下,利用 格型法实现。用过去P个样点值来预测现在或未来的样点值S(n)二^a,s(ri-i),i = l预测误差e(n)为e(n^s(n)-§(n) = s(n)ta|S(n-i),通过最小均方误差准则使预测误差e(n)达到最小值的方法来决定唯一的一组线性预测系数ai(i^,2,…,0)。 所述增益参数为,G2=R (0)-^>kRn(k),式中,R为自相关函数,p为样点数。k = l在求得完整的语音信号增益轨迹曲线后,进行平滑、插值及时间归一化。 由于上述技术方案运用,本专利技术与现有技术相比具有下列优点1. 本专利技术基于声道参数,采用声道增益参数分析方法,实现了汉语耳语 音的声调识别,可以进一步应用于汉语的语音识别系统。2. 本专利技术比幅值包络方式更能体现语音固有的信息,因而识别率髙,实 验表明,本专利技术的识别率既高于幅值包络方式的识别率,也髙于人耳辨听实验 的识别率,应用于语音识别系统时具有显著的优越性。附图说明 图1是汉语语音四声标准曲线;图2是实施例一中采用增益参数与语音幅值包络曲线对汉语耳语音声调 信息提取的对比图。具体实施方式 下面结合附图及实施例对本专利技术作进一步描述实施例一参考杨顺安提出的汉语普通话对一化字调模型,做出汉语语音四声曲线,如附图1所示,图中实线为一声,短虚线为二声,点划线为三声, 长虚线为四声。采用自行录制的耳语音,进行数字化采样,采样频率为8000Hz。先对语 音进行预加重,即提升高频部分。由此,使信号的频谱变得平坦,保持在低频 到髙频的整个频带中,能用同样的信噪比求频谱,以便于频谱分析或声道参数 分析。所述预加重采用一阶数字滤波器H(z)-l,z1,其中,H是传递函数,z为z变换,W为预加重系数,U <1。对耳语音采样数据进行分帧加窗,取128点分帧,窗长为16亳秒,帧移 为1/4,所述分帧加窗采用汉明(Hamming)窗式中,n为加窗点,N为窗长。求取每一帧语音的线性预测模型参数,在最小均方根误差准则下,利用格型法实现。用过去P个样点值来预测现在或未来的样点值S(n)二 j>,s(n-i),预测误差e(n)为e(nXn)-S(n)i(n)j^s(n-i),通过最小均方误差准则使预测误差e(n)达到最小值的方法来决定唯一的一组线性预测系数ai(i = l,2,…,0)。据此计算每一帧语音信号的增益参数,G2=Rn(0)-j>kRn(k),式中,R为自相关函数,p为样点数。由此获得语音信号增益轨迹曲线。在求得完整的语音信号增益轨迹曲线后,进行平滑、插值及时间归一化, 计算其与字调模型的均方误差,比较函数斜率、拐点值,进行判决,输出最后 结果。附图2为采用时域参数一一语音幅值包络曲线及频域参数一一声道增益 对四声汉语耳语声调信息提取的比较,图中实线为增益参数曲线,虚线为语音 幅值包络曲线。由此可以看出,尽管幅值包络在一定程度上能够反映语音声调,但相较于声道增益参数,其识别率低。实验的统计结果如下:识人耳辨听实验y。幅值包络%声道增益参数%别一四本文档来自技高网
...

【技术保护点】
一种基于声道参数的汉语耳语音声调识别方法,对录制的耳语音进行数字化采样,对采样数据进行分析,识别出耳语音的声调,其特征在于:所述的对采样数据进行分析是,对耳语音采样数据进行分帧加窗,窗长不大于20毫秒,求取每一帧语音的线性预测模型参数,据此计算每一帧语音信号的增益参数,由此获得语音信号增益轨迹曲线,与标准语音声调曲线进行对比,确定耳语音的声调。

【技术特征摘要】
1. 一种基于声道参数的汉语耳语音声调识别方法,对录制的耳语音进行数字化采样,对采样数据进行分析,识别出耳语音的声调,其特征在于所述的对采样数据进行分析是,对耳语音采样数据进行分帧加窗,窗长不大于20毫秒,求取每一帧语音的线性预测模型参数,据此计算每一帧语音信号的增益参数,由此获得语音信号增益轨迹曲线,与标准语音声调曲线进行对比,确定耳语音的声调。2. 根据权利要求1所述的基于声道参数的汉语耳语音声调识别方法,其 特征在于所述对采样数据进行分析中,在进行所述分帧加窗之前,先对语音 进行预加重,即提升髙频部分。3. 根据权利要求2所述的基于声道参数的汉语耳...

【专利技术属性】
技术研发人员:赵鹤鸣龚呈卉
申请(专利权)人:苏州大学
类型:发明
国别省市:32[中国|江苏]

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1
相关领域技术
  • 暂无相关专利