基于特征转换规则的汉语耳语音向自然语音实时转换方法技术

技术编号：3048229 阅读：231 留言：0更新日期：2012-04-11 18:40

本发明专利技术提供一种汉语耳语音向自然语音实时转换方法，该转换方法通过对激励信息的特征分析和提取，对各声调采用多项式曲线混合模型确定语音韵母段的声调调型，进一步产生基频轨迹。根据耳语音与自然语音的线谱频率之间的关系，采用经验映射修正法将耳语音线谱频率向自然语音线谱频率转换。在得到激励和声道参数的基础上，采用修正的ＭＥＬＰ模型重建自然语音，对重建语音的主客观评价显示，本发明专利技术所提供的方法可使重建语音得到较高的满意度。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及语音转换
和通信
，特别地，涉及一种基于特征转换规则的汉语耳语音向自然语音实时转换方法。
技术介绍
取的一种通讯方式。在日常生活中耳语是常见的，例如在办公室用手机通话，国家安全部门工作的需要等。关于耳语音的特征分析、识别、重建长期以来受到部分学者的关注，而此类各项研究的主要目标则是根据耳语音恢复相应的自然语音。从相关的研究报道来看，依据耳语音的信息用人工智能方法产生相应自然语音的方案主要有两种，一种是识别，另一种是重建。识别法需要建立耳语音和自然语音两个语料库，通过选取能够反映各个耳语音差异的特征，选用合适的识别模型进行训练和识别，根据识别结果从相应的自然语音的数据库中提出该耳语音所对应的自然音。识别法在针对特定人的语料库中，可得到与说话人完全吻合的自然语音，可懂度和听觉舒适度勿庸质疑，但是在非特定人的场合下，往往在能保证语义的条件下说话人的信息得不到保证。该方法需要较大数据量的训练，对未参加识别的语音样本其识别率会明显降低。南京大学的栗学丽采用MELP模型将汉语耳语音转换为自然音，侧重于讨论耳语音与自然语音的特征之间的差别。其存在的问题主要在于其一方面忽略了声调才莫型对于合成语音的重要性，另一方面采用线性方法将耳语音的声道参数向正常语音参数的转换，而影响了合成语音的质量。美国的Morris讨论了英语耳语音的重建和识别。由于英语为非声调语言 Morris对于激励信息则相对忽略，而着重强调声道信息对于合成语音的重要性，建立共振峰频率和带宽与线谱频率之间的函数关系，根据耳语音与自然语音的共振峰...

【技术保护点】
一种汉语耳语音向自然语音实时转换的方法，其特征在于：该方法包括以下阶段，　耳语音信号的预处理阶段，该阶段对耳语音信号先后进行端点检测处理和声韵分割处理；　耳语音信号的特征分析及提取阶段，其中所述特征分析及提取包括激励特征的分析及提取和声道特征的分析及提取，该阶段对耳语音信号的预处理阶段得到的结果分别进行激励特征提取操作和声道特征提取操作，并采取声调与基频估计方法将激励特征提取操作提取的激励信息转换产生基频信息，以及采取声道参数转换规则将声道特征提取操作提取的声道信息转换产生自然语音声道信息；　语音合成阶段，耳语音信号的特征分析及提取阶段最终获取的基频信息和自然语音声道信息在该阶段进行语音合成而产生相应的自然语音信号，从而实现耳语音向自然语音的实时转换。

【技术特征摘要】
1. 一种汉语耳语音向自然语音实时转换的方法，其特征在于该方法包括以下阶段，耳语音信号的预处理阶段，该阶段对耳语音信号先后进行端点检测处理和声韵分割处理；耳语音信号的特征分析及提取阶段，其中所述特征分析及提取包括激励特征的分析及提取和声道特征的分析及提取，该阶段对耳语音信号的预处理阶段得到的结果分别进行激励特征提取操作和声道特征提取操作，并采取声调与基频估计方法将激励特征提取操作提取的激励信息转换产生基频信息，以及采取声道参数转换规则将声道特征提取操作提取的声道信息转换产生自然语音声道信息；语音合成阶段，耳语音信号的特征分析及提取阶段最终获取的基频信息和自然语音声道信息在该阶段进行语音合成而产生相应的自然语音信号，从而实现耳语音向自然语音的实时转换。2.根据权利要求1所述的汉语耳语音向自然语音实时转换的方法，其特征在于在上述耳语音信号的特征分析及提取阶段所采取的声调与基频估计方法包括以下步骤，步骤(l),分析激励信息的声调及性别特征；步骤(2)，在判断出说话人声调之后，采用用于拟合汉语四声声调曲线的多项式曲线混合^^莫型建立一个合适的声调调型，所述多项式曲线混合模型表示为= _(116 )4 +0.01x(a12612)2 +613/2 (0 = _8 X (fl2/ + 621 )6 + (fl^/1 + 622 )2 + 623= 3X(-10x(a31/73|)6十(32632)2) + Z733/4 (/) = —5 x (a41, + )4 — 0.5 x + 642) + 643其中，t表示归一化的时间，可通过对参数all、 a12、 a21、 a22、 a31、 a32、 a41、 a42、 bll、 b12、 b21、 b22、 b31、 b32、 b41、 b42、 b13、 b23、 b33、 b43进行适当设定以选择声调曲线形状，进一步根据所知的基准音高对该归一化曲线进行相应的尺度放...

【专利技术属性】
技术研发人员：陈雪勤，赵鹤鸣，
申请(专利权)人：苏州大学，
类型：发明
国别省市：32[中国|江苏]

全部详细技术资料下载我是这个专利的主人