当前位置: 首页 > 专利查询>苏州大学专利>正文

基于特征转换规则的汉语耳语音向自然语音实时转换方法技术

技术编号:3048229 阅读:231 留言:0更新日期:2012-04-11 18:40
本发明专利技术提供一种汉语耳语音向自然语音实时转换方法,该转换方法通过对激励信息的特征分析和提取,对各声调采用多项式曲线混合模型确定语音韵母段的声调调型,进一步产生基频轨迹。根据耳语音与自然语音的线谱频率之间的关系,采用经验映射修正法将耳语音线谱频率向自然语音线谱频率转换。在得到激励和声道参数的基础上,采用修正的MELP模型重建自然语音,对重建语音的主客观评价显示,本发明专利技术所提供的方法可使重建语音得到较高的满意度。

【技术实现步骤摘要】

本专利技术涉及语音转换
和通信
,特别地,涉及一种基 于特征转换规则的汉语耳语音向自然语音实时转换方法。
技术介绍
取的一种通讯方式。在日常生活中耳语是常见的,例如在办公室用手机通 话,国家安全部门工作的需要等。关于耳语音的特征分析、识别、重建长 期以来受到部分学者的关注,而此类各项研究的主要目标则是根据耳语音 恢复相应的自然语音。从相关的研究报道来看,依据耳语音的信息用人工智能方法产生相应 自然语音的方案主要有两种, 一种是识别,另一种是重建。识别法需要建立耳语音和自然语音两个语料库,通过选取能够反映各 个耳语音差异的特征,选用合适的识别模型进行训练和识别,根据识别结 果从相应的自然语音的数据库中提出该耳语音所对应的自然音。识别法在 针对特定人的语料库中,可得到与说话人完全吻合的自然语音,可懂度和 听觉舒适度勿庸质疑,但是在非特定人的场合下,往往在能保证语义的条 件下说话人的信息得不到保证。该方法需要较大数据量的训练,对未参加 识别的语音样本其识别率会明显降低。南京大学的栗学丽采用MELP模型将汉语耳语音转换为自然音,侧重 于讨论耳语音与自然语音的特征之间的差别。其存在的问题主要在于其一 方面忽略了声调才莫型对于合成语音的重要性,另 一方面采用线性方法将耳 语音的声道参数向正常语音参数的转换,而影响了合成语音的质量。美国 的Morris讨论了英语耳语音的重建和识别。由于英语为非声调语言 Morris对于激励信息则相对忽略,而着重强调声道信息对于合成语音的 重要性,建立共振峰频率和带宽与线谱频率之间的函数关系,根据耳语音与自然语音的共振峰频率和带宽的变化量来调整线谱频率参数。该方案计 算量大,不易实现实时转换。
技术实现思路
本专利技术的目的在于提供一种汉语耳语音向自然语音实时转换方法,通 过对汉语耳语音和相应自然音的分析比较,总结出两种语音的各个特征参 数之间的区别和联系,通过对特征参数之间的转换机理的研究,采取经验 模态方案取得相应的自然音的特征值,采用基于共振峰的语音合成器,并 对重建后的语音进行主客观评价,从而弥补现有技术的不足。本专利技术提供一种汉语耳语音向自然语音实时转换的方法,该方法包括 以下阶段,耳语音信号的预处理阶段,该阶段对耳语音信号先后进行端点检测处理和声韵分割处理;耳语音信号的特征分析及提取阶段,其中所述阶段对耳语音信号的预处理阶段得到的结果分别进行激励特征提取操作 和声道特征提取操作,并采取声调模型与基频估计方法将激励特征提取操 作提取的激励信息转换产生基频信息,以及釆取声道参数转换规则将声道 特征提取操作提取的声道信息转换产生自然语音声道信息;语音合成阶 段,耳语音信号的特征分析及提取阶段最终获取的基频信息和自然语音声 道信息在该阶段进行语音合成而产生相应的自然语音信号,从而实现耳语 音向自然语音的实时转换。附图说明图1为本专利技术的基于规则的语音重建的模型示意图2为本专利技术的归一化的四种声调曲线;图3为本专利技术的不同参数下第三声调归一化曲线;图4a为本专利技术的汉语元音/a/正常音和耳语音的声道频率特性曲线图4b为本专利技术的汉语元音/a/正常音和耳语音的LSP参数曲线图4c为本专利技术的汉语元音/a/正常音与调整后的耳语音的LSP参数曲 线图;图4d为本专利技术汉语元音/a/正常音与调整后的耳语音的声道频率特 性曲线图5a为本专利技术的耳语音/ao yun hui/的时域波形图; 图5b为本专利技术的重建语音/ao yun hui/的时域波形图; 图5c为本专利技术的耳语音/ao yun hui/的语^潜图; 图5d为本专利技术的重建语音/ao yun hui/的语谦图; 图5e为本专利技术的耳语音/hui/—帧细节波形; 图5f为本专利技术的重建语音/hui/—帧细节波形;具体实施例方式以下将参照附图并结合具体实施方式对本专利技术进行详细说明。1 重建模型耳语音的发音机理与正常音不同,它在声学特征上与正常音有较大差 异,如声带无振动、音量小、无基频等。汉语由声母与韵母组成,而声母 主要为辅音充当,从发音机理上讲,辅音是由气体在舌面和唇上摩擦产生 的湍流形成的。耳语音的声母部分与正常音的发音方式没有大的区别,而 韵母部分发音时声门保持半开状态,声门前部完全靠拢,后部分声门有一 个三角裂隙,声带不振动,从肺部出来的气流通过开放区产生摩擦噪声, 此时呼出的气体通过声门开口的收缩产生湍气流。根据耳语音的发音特点,将耳语音向自然语音转换时,韵母部分为主 要的分析转换对象,因此端点检测和声韵母分割作为语音重建模型的预处 理部分非常必要。在此基础上,以耳语音和对应的自然语音为分析对象, 从耳语音的特征载体中挖掘声调及基频的信息,通过比较耳语音与自然语 音的声道特征载体,建立将声道特征从耳语音向自然语音转换的规则函 数。语音重建的模型如图1所示。2 特征分析及提取提供正确的激励和声道信息是将耳语音转换为正常语音的关键点。由 于耳语音的特殊发音机理,它与正常音的激励信息差异明显,尤为突出的 是耳语音为噪声激励信号,它的浊音部分没有周期性,因而耳语音信号中 不存在明显的基频和声调信息,而这恰恰是合成自然语音必不可少的激励源信息。人们在发耳语音时,声门处于半开状态,声道由声门到嘴唇部分 以及气管和肺部共同组成,这与人们发自然语音时的声道有所区别,因此 两者的声道特征信息也是不同的。2. 1激励特征分析 2.1.1声调及性别特征在缺失声调最直接的载体一一基频的条件下,耳语音的其他特征在声 调感知方面由配角转为主角。根据其对耳语音声调识别的贡献大小可排序 如下听神经发放率、幅值包络、声道长度、音长、声门面积、共振峰。 横向比较,其中听神经发放率作为声调特征时,耳语音的声调识别率最高。 其原因在于听神经纤维将耳蜗内毛细胞与听觉中枢神经系统联接起来,它 是听觉中枢的唯一信息来源。每条听觉神经纤维与基底膜的一个特定部位 相对应,并在一个特定频率上发放。神经的激发频率与有多少神经元参与 有关,声强愈高,神经元愈多,而神经元的激发频率亦愈快。正常状态下, 放电率与声刺激强度关系呈J形。同时已有的研究表明,听神经纤维具有 与刺激同步发放的能力,听觉神经纤维能够对共振峰的刺激谐波锁相或同 步。因此,听神经发放与声刺激的强度、频谱、共振峰等信息密切相关。 尽管如此,由于识别率的原因,听神经发放率依然不是最为理想的特征量, 目前尚未发现一个如自然语音中的基频那样占绝对主导地位的特征参数。耳语音的声调载体可表示为由上述多个特征量组合成的一个矢量,并 且耳语在发音时往往倾向于拉长音长以强调声调,因此在进行声调识别时 运算量是一个棘手的问题。为解决这一问题,可采取先对各音节所有帧的 特征矢量进行聚类,然后送入局部有监督特征映射神经网络进行识别。这 一识别模型很大程度上降低了神经网络的不收敛率,且有效地提高了识别 速度。在缺少基频信息的条件下,说话人的音高依然可以被粗线条感知,尤 其是性别特征可较为准确地被辨听。其主要线索在于共振峰频率中携带了 与说话人有关的信息,研究表明男性的共振峰频率普遍较女性低。以此作 为说话人性别的判决依据。2. 1. 2基频轨迹在判断出说话人性别及语音的声调以后,建立一个合适的基频轨迹对 于语音合成至关重要。本专利技术提出了多项式本文档来自技高网
...

【技术保护点】
一种汉语耳语音向自然语音实时转换的方法,其特征在于:该方法包括以下阶段, 耳语音信号的预处理阶段,该阶段对耳语音信号先后进行端点检测处理和声韵分割处理; 耳语音信号的特征分析及提取阶段,其中所述特征分析及提取包括激励特征的分析及提取和声道特征的分析及提取,该阶段对耳语音信号的预处理阶段得到的结果分别进行激励特征提取操作和声道特征提取操作,并采取声调与基频估计方法将激励特征提取操作提取的激励信息转换产生基频信息,以及采取声道参数转换规则将声道特征提取操作提取的声道信息转换产生自然语音声道信息; 语音合成阶段,耳语音信号的特征分析及提取阶段最终获取的基频信息和自然语音声道信息在该阶段进行语音合成而产生相应的自然语音信号,从而实现耳语音向自然语音的实时转换。

【技术特征摘要】
1. 一种汉语耳语音向自然语音实时转换的方法,其特征在于该方法包括以下阶段,耳语音信号的预处理阶段,该阶段对耳语音信号先后进行端点检测处理和声韵分割处理;耳语音信号的特征分析及提取阶段,其中所述特征分析及提取包括激励特征的分析及提取和声道特征的分析及提取,该阶段对耳语音信号的预处理阶段得到的结果分别进行激励特征提取操作和声道特征提取操作,并采取声调与基频估计方法将激励特征提取操作提取的激励信息转换产生基频信息,以及采取声道参数转换规则将声道特征提取操作提取的声道信息转换产生自然语音声道信息;语音合成阶段,耳语音信号的特征分析及提取阶段最终获取的基频信息和自然语音声道信息在该阶段进行语音合成而产生相应的自然语音信号,从而实现耳语音向自然语音的实时转换。2.根据权利要求1所述的汉语耳语音向自然语音实时转换的方法, 其特征在于在上述耳语音信号的特征分析及提取阶段所采取的声调与基 频估计方法包括以下步骤,步骤(l),分析激励信息的声调及性别特征;步骤(2),在判断出说话人声调之后,采用用于拟合汉语四声声调曲 线的多项式曲线混合^^莫型建立一个合适的声调调型,所述多项式曲线混合 模型表示为= _(116 )4 +0.01x(a12612)2 +613/2 (0 = _8 X (fl2/ + 621 )6 + (fl^/1 + 622 )2 + 623= 3X(-10x(a31/73|)6十(32632)2) + Z733/4 (/) = —5 x (a41, + )4 — 0.5 x + 642) + 643其中,t表示归一化的时间,可通过对参数all、 a12、 a21、 a22、 a31、 a32、 a41、 a42、 bll、 b12、 b21、 b22、 b31、 b32、 b41、 b42、 b13、 b23、 b33、 b43进行适当设定以选择声调曲线形状,进一 步根据所知的基准音高对该归 一化曲线进行相应的尺度放...

【专利技术属性】
技术研发人员:陈雪勤赵鹤鸣
申请(专利权)人:苏州大学
类型:发明
国别省市:32[中国|江苏]

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1