【技术实现步骤摘要】
【国外来华专利技术】
本专利技术涉及语音处理领域,尤其涉及为语音转换过程选择施主发音人的技术。
技术介绍
语音转换的目的在于将源(即,施主)发音人的语音变换为目标发音人的语 音。虽然出于此目的已提出了多种算法,但是没有一种能够确保不同施主-目标发 音人对的等效性能。语音转换性能对施主-目标发音人对的依赖性对于实际应用是不利的。然而, 在大多数情形中,目标发音人是固定的,即语音转换应用旨在生成特定目标发音人 的语音,而施主发音人可以从一组候选人中选择。作为一个示例,考虑涉及在例如 计算机游戏应用中将普通语音变换为名人语音的配音应用。不是使用该实际的名人 来记录声轨——这可能非常昂贵或不可行,而是使用语音转换系统将普通人的语音 (即,施主的语音)转换成听起来与该名人相同的语音。在这种情形中,在一组施 主候选人即可利用的人中选择最合适的施主发音人从而显著地提高了输出质量。例 如,来自女性罗马语发音人的语音在一特定应用中可能比来自男性德语发音人的语 音更适合作为施主语音。然而,从所有可能的候选人当中收集整个训练数据库、为 每个可能的候选人执行适当的转换、在各转换之间进行比较、以及获得一个或 ...
【技术保护点】
一种施主分级系统,包括: 声学特征提取器,用于从施主语音样本和目标发音人语音样本提取一个或多个声学特征;以及 自适应系统,用于根据所述声学特征生成语音转换质量值的预测。
【技术特征摘要】
【国外来华专利技术】US 2005-3-14 60/661,8021.一种施主分级系统,包括声学特征提取器,用于从施主语音样本和目标发音人语音样本提取一个或多个声学特征;以及自适应系统,用于根据所述声学特征生成语音转换质量值的预测。2. 如权利要求1所述的系统,其特征在于,所述自适应系统是根据包括 施主语音样本、目标发音人语音样本、以及实际语音转换质量值在内的训练数 据集来训练的。3. 如权利要求1所述的系统,其特征在于,所述语音转换质量值包括对 从所述施主语音样本得到的经过变换的语音样本与所述目标发音人样本之间 的相似性的主观分级。4. 如权利要求1所述的系统,其特征在于,所述语音转换质量值包括MOS 质量值。5. 如权利要求1所述的系统,其特征在于,所述一个或多个声学特征是 从包括以下特征的组中选择的LSF距离、持续时间分布的分级和、音高分布 的分级和、包括多个逐帧能量值的能量分布的分级和、频谱倾斜值分布的分级 和、EGG信号周期的每周期开商值分布的分级和、周期间频率微扰值分布的分 级和、周期间振幅微扰值分布的分级和、软发声索引分布的分级和、第一与第 二谐波之间逐帧振幅差分布的分级和、逐周期EGG形状值分布的分级和,及 其组合。6. 如权利要求5所述的系统,其特征在于,所述持续时间分布包括来自 包含音素持续时间、单词持续时间、发声持续时间、以及词间静默持续时间的 组中的持续时间特征。7. 如权利要求5所述的系统,其特征在于,所述一个周期的EGG形状值 是包括声门闭合瞬间到所述周期的最大值之间的部分、声襞打开时的所述EGG 信号部分、以及声襞闭合时的部分的组中部分的最小二乘拟合线的斜率。8. —种包括如权利要求1所述的施主分级系统的施主选择系统,其特征 在于,来自多个施主的多个语音样本被与所述目标语音样本配对,并且根据所 述多个语音样本中每一个的预测从所述多个施主当中选择一个施主。9. 一种用于将施主分级的方法,包括从来自施主语音样本和目标发音人语音样本的特征当中提取一个或多个 声学特征;以及使用经过训练的自适应系统,根据所述声学特征对语音转换质量值进行预10. 如权利要求9所述的方法,其特征在于,所述自适应系统是根据包括 施主语音样本、目标发音人语音样本、以及实际语音转换质量值在内的训练数 据集来训练的。11. 如权利要求9所述的方法,其特征在于,所述语音转换质量值包括对 从所述事主语音样本得到的经过变换的语音样本与所述目标发音人样本之间 的相似性的主观分级。12. 如权利要求9所述的方法,其特征在于,所述语音转换质量值包括MOS质量值。13. 如权利要求9所述的方法,其特征在于,所述一个或多个声学特征是 从包括以下特征的组中选择的LSF距离、持续时间分布的分级和、音高分布 的...
【专利技术属性】
技术研发人员:O特克,L阿斯兰,F杜特弛,
申请(专利权)人:沃克索尼克股份有限公司,
类型:发明
国别省市:US[美国]
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。