文本转语音方法和装置制造方法及图纸

技术编号：24097195 阅读：35 留言：0更新日期：2020-05-09 10:59

本发明专利技术公开文本转语音方法和装置，其中，一种文本转语音方法，包括：响应于接收到的文本序列，对所述文本序列进行特征提取得到文本特征序列；对所述文本特征序列进行处理得到声学特征序列、以及所述声学特征序列和所述文本特征序列之间的对齐信息；基于所述对齐信息确定所述声学特征序列中的每一时刻声学特征与所述文本特征序列中的每一文本特征的对应关系；以及基于所述声学特征序列合成音频序列，输出所述音频序列和所述对应关系。本申请实施例的方案通过在输出高自然度的合成语音的同时，输出准确的语音与文本的对应关系，从而帮助虚拟形象建模渲染时保持口型与声音高度一致，提升了用户体验。

Text to speech method and device

全部详细技术资料下载

【技术实现步骤摘要】
文本转语音方法和装置
本专利技术属于智能对话
，尤其涉及文本转语音方法和装置。
技术介绍
现有技术中，虚拟人物建模与渲染技术在动画、游戏和电影等行业得到广泛应用，并且使虚拟人物讲话时能够具有自然流畅并与声音同步的口型动作是提升用户体验的关键。语音合成的目的是对给定文本生成自然的语音波形。近年来，越来越多的研究者们逐渐在语音合成领域采用深度神经网络技术来帮助提高合成效果。当虚拟人物使用的语音是由语音合成系统生成时，语音合成系统应当给出和语音同步的声韵母时长序列(声韵母可以直接映射成口型，多个声韵母可能映射成同一个口型。不直接给口型的原因是目前学术界、工业界对于普通话存在多种声韵母到口型的映射方案，输出无损的原始信息——声韵母时长序列方便合作方使用自定义的映射方案)。相关技术中，存在基于隐马尔可夫模型的参数式语音合成技术，进一步的，还存在基于神经网络的参数式语音合成技术，也就是使用神经网络模型逐步取代基于隐马尔可夫模型的参数式语音合成中的统计模型，但是整体架构不变(例如仍旧包含了时长...

【技术保护点】
1.一种文本转语音方法，包括：/n响应于接收到的文本序列，对所述文本序列进行特征提取得到文本特征序列；/n对所述文本特征序列进行处理得到声学特征序列、以及所述声学特征序列和所述文本特征序列之间的对齐信息；/n基于所述对齐信息确定所述声学特征序列中的每一时刻声学特征与所述文本特征序列中的每一文本特征的对应关系；/n基于所述声学特征序列合成音频序列，输出所述音频序列和所述对应关系。/n

【技术特征摘要】
1.一种文本转语音方法，包括：
响应于接收到的文本序列，对所述文本序列进行特征提取得到文本特征序列；
对所述文本特征序列进行处理得到声学特征序列、以及所述声学特征序列和所述文本特征序列之间的对齐信息；
基于所述对齐信息确定所述声学特征序列中的每一时刻声学特征与所述文本特征序列中的每一文本特征的对应关系；
基于所述声学特征序列合成音频序列，输出所述音频序列和所述对应关系。

2.根据权利要求1所述的方法，其中，所述文本特征序列包括声韵母序列，所述方法还包括：
基于所述声学特征序列中的每一时刻声学特征与声韵母序列中的每一声韵母的对应关系确定声韵母时长序列。

3.根据权利要求2所述的方法，其中，所述输出所述音频序列和所述对应关系包括：
输出所述音频序列和与所述音频序列对应的声韵母序列。

4.根据权利要求1-3中任一项所述的方法，其中，所述特征提取包括分词、多音字分析和词性分析。

5.根据权利要求4所述的方法，其中，所述对所述文本特征序列进行处理包括采用端到端神经网络对所述文本特征序列进行处理。

6.一种文本转语音装置，包括：
特征提取，配置为响应于接收到的文本序列，对所述文本序列进行特征提取得到文...

【专利技术属性】
技术研发人员：周扬，张辉，
申请(专利权)人：苏州思必驰信息科技有限公司，
类型：发明
国别省市：江苏;32

全部详细技术资料下载我是这个专利的主人