语音字体说话者以及韵律插值制造技术

技术编号:23162894 阅读:39 留言:0更新日期:2020-01-21 22:12
提供了多语音字体插值。多语音字体插值引擎允许通过对来自现有的字体的说话者特性和韵律进行插值,而产生具有宽泛的多种说话者特性和/或韵律的计算机生成的话音。使用来自多语音字体的预测模型,多语音字体插值引擎预测对从待说出的文本中所获得的音素序列的说话者特性和/或韵律有影响的参数的值。对于每个参数,通过根据所预测的值的加权的插值而生成额外的参数值。利用经插值的参数值来修改现有的语音字体改变了话音的风格和/或情绪,同时保留了原始的语音的基本音质。多语音字体插值引擎允许说话者特性和/或韵律从一个语音字体移植到另一个语音字体,或者允许针对现有的语音字体而生成全新的说话者特性和/或韵律。

【技术实现步骤摘要】
语音字体说话者以及韵律插值本申请是申请日为2015/02/23、申请号为201580010713.9的中国专利申请的分案申请。
技术介绍
传统的文本话音转换(TTS)技术使用单个语音字体(voicefont)。该语音字体是利用从一个配音员获得的录音语料库而训练的。所得到的语音字体强烈地与当录制语料库时该配音员所使用的韵律和特性相对应。从而,当被录音时,配音员必须使用在TTS语音中所期望的相同的风格和情绪。随着TTS的使用变得越来越普遍,在各种应用场景中TTS语音的灵活性变得日益重要。例如,利用TTS来与用户进行通信的交互式应用应该给用户提供从能够表达丰富的情绪类型和说话风格的多种语音个性中进行选择的功能。随着TTS应用变得更加具有对话性和个性,TTS应用适配单个语音的说话风格和/或说话的情绪以与具有对话性的内容相匹配的功能也是令人期望的。使得录音覆盖针对甚至单个语音的多个情绪和风格是昂贵的。获得令人期望的针对多个语音的多个录音不仅是昂贵的,而且是不切实际的。使用传统的语音适配技术来将情绪或说话风格从一个录音/语音字体移植至其它语音字体的尝试得出了低质本文档来自技高网...

【技术保护点】
1.一种用于呈现用户界面以针对从源语音字体推导的计算机生成的话音生成多语音字体的方法,所述方法包括以下步骤:/n标识多个源语音字体;/n生成用户界面,所述用户界面包括与所述多语音字体的语音字体特性相关联的源语音字体权重选择控件,所述源语音字体权重选择控件允许基于所述源语音字体权重选择控件针对所述多个源语音字体中的每个源语音字体的位置来向所述多个源语音字体中的每个源语音字体分配相对于所述其它源语音字体中的每个源语音字体的相对权重,以便控制所述多个源语音字体中的每个源语音字体对所述多语音字体的所述语音字体特性的贡献;以及/n显示所述用户界面。/n

【技术特征摘要】
20140226 US 14/190,8751.一种用于呈现用户界面以针对从源语音字体推导的计算机生成的话音生成多语音字体的方法,所述方法包括以下步骤:
标识多个源语音字体;
生成用户界面,所述用户界面包括与所述多语音字体的语音字体特性相关联的源语音字体权重选择控件,所述源语音字体权重选择控件允许基于所述源语音字体权重选择控件针对所述多个源语音字体中的每个源语音字体的位置来向所述多个源语音字体中的每个源语音字体分配相对于所述其它源语音字体中的每个源语音字体的相对权重,以便控制所述多个源语音字体中的每个源语音字体对所述多语音字体的所述语音字体特性的贡献;以及
显示所述用户界面。


2.根据权利要求1所述的方法,其中,所述用户界面还包括:允许调整所述多语音字体的整体属性的多语音字体属性控件。


3.根据权利要求2所述的方法,其中,所述多语音字体属性控件是与从包括话音速率、音高水平和音高范围的一群多语音字体属性中选择的多语音字体属性相关联的。


4.根据权利要求1所述的方法,其中,所述用户界面还包括:允许标识所述多个源语音字体的语音字体选择控件。


5.根据权利要求1所述的方法,还包括以下步骤:
获得待被渲染成计算机生成的话音的文本;以及
使用所述多语音字体来将所述文本渲染成计算机生成的话音。


6.根据权利要求5所述的方法,其中,使用所述多语音字体来将所述文本渲染成话音包括:
针对每个源语音字体来预测所述文本的特性值;
基于被分配给所述多个源语音字体中的每个源语音字体的相对权重来合并所预测的特性值以产生经插值的特性值;以及
使用所述经插值的特性来将所述文本渲染成计算机生成的话音。


7.根据权利要求5所述的方法,其中,所述用户界面还包括:允许输入文本以用于文本话音转换渲染的文本输入控件,并且其中,获得待被渲染成计算机生成的话音的文本的步骤包括:从所述文本输入控件获得所述文本。


8.根据权利要求5所述的方法,还包括以下步骤:经由音频输出换能器来播放所述经渲染的文本。


9.根据权利要求5所述的方法,其中,所述用户界面还包括话音保存控件,并且所述方法还包括以下步骤:响应于对所述话音保存控件的致动而将所述经渲染的文本保存为音频文件。


10.根据权利要求1所述的方法,其中,所述用户界面还包括:包含多个语音字体特性标签选择器的语音字体特性标签选择控件,所述多个语音字体特性标签选择器中的每个语音字体特性标签选择器与包括用于不同语音字体特性的源语音字体权重选择控件的语音字体特性标签相关联,并且其中,所述方法还包括以下步骤:
接收对语音字体特性标签选择器的用户选择;以及
响应于接收对所述语音字体特性标签选择器的所述用户选择,显示与所选择的语音字体特性标签选择器相关联的语音字体特性标签。


11.根据权利要求1所述的方法,其中,所述源语音字体权重选择控件是与从包括以下各项的一群语音字体特性中选择的语音字体特性相关联的:持续时间语音字体特性、f0语音字体特性、以及频谱语音字体特性。


12.根据权利要求1所述的方法,其中,所述用户界面还包括:允许保存所述多语音字体以供再次使用的字体保存控件。


13.一种用于针对从源语音字体推导的计算机生成的...

【专利技术属性】
技术研发人员:栾剑L·何M·梁
申请(专利权)人:微软技术许可有限责任公司
类型:发明
国别省市:美国;US

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1