语音合成方法、装置、计算机可读存储介质及终端设备制造方法及图纸

技术编号：34186779 阅读：70 留言：0更新日期：2022-07-17 14:26

本申请属于语音处理技术领域，尤其涉及一种语音合成方法、装置、计算机可读存储介质及终端设备。所述方法包括：获取待进行语音合成的目标文本；使用预设的文本分析模型对所述目标文本进行各个维度并行的文本特征分析，得到所述目标文本的文本特征；其中，所述文本分析模型为预先经过多任务联合训练得到的深度神经网络模型；根据所述文本特征进行语音合成处理，得到与所述目标文本对应的目标语音。在本申请中，将各个维度的文本特征分析过程由依次串行处理方式改进为并行处理方式，通过多任务联合训练充分利用各个维度之间的关联性，极大提升了整体上的语音合成效果。提升了整体上的语音合成效果。提升了整体上的语音合成效果。

全部详细技术资料下载

【技术实现步骤摘要】
语音合成方法、装置、计算机可读存储介质及终端设备

[0001]本申请属于语音处理
，尤其涉及一种语音合成方法、装置、计算机可读存储介质及终端设备。

技术介绍

[0002]语音合成(Text To Speech，TTS)技术，是指将任意的文本转化为语音的技术。随着移动互联网和人工智能技术的快速发展，语音合成技术在语音助手、智能机器人、文本阅读以及新闻播报等场景得到了广泛的应用。在现有的语言合成方法中，一般是会将文本依次进行分词分析、多音字分析以及韵律分析等维度的文本分析过程，从而得到其文本特征。但在这种方式下，各个文本分析过程是相互独立的，忽略了彼此之间的关联性，从而导致整体上的语音合成效果较差。

技术实现思路

[0003]有鉴于此，本申请实施例提供了一种语音合成方法、装置、计算机可读存储介质及终端设备，以解决现有的语音合成方法效果较差的问题。
[0004]本申请实施例的第一方面提供了一种语音合成方法，可以包括：
[0005]获取待进行语音合成的目标文本；
[0006]使用预设的文...

【技术保护点】

【技术特征摘要】
1.一种语音合成方法，其特征在于，包括：获取待进行语音合成的目标文本；使用预设的文本分析模型对所述目标文本进行各个维度并行的文本特征分析，得到所述目标文本的文本特征；其中，所述文本分析模型为预先经过多任务联合训练得到的深度神经网络模型；根据所述文本特征进行语音合成处理，得到与所述目标文本对应的目标语音。2.根据权利要求1所述的语音合成方法，其特征在于，所述文本分析模型包括分词分析模型、多音字分析模型和韵律分析模型，且所述分词分析模型、所述多音字分析模型和所述韵律分析模型并行进行文本特征分析；所述文本特征包括分词特征、多音字特征和韵律特征；所述使用预设的文本分析模型对所述目标文本进行各个维度并行的文本特征分析，得到所述目标文本的文本特征，包括：使用所述分词分析模型对所述目标文本进行分词维度的文本特征分析，得到所述目标文本的分词特征；使用所述多音字分析模型对所述目标文本进行多音字维度的文本特征分析，得到所述目标文本的多音字特征；使用所述韵律分析模型对所述目标文本进行韵律维度的文本特征分析，得到所述目标文本的韵律特征。3.根据权利要求2所述的语音合成方法，其特征在于，在使用预设的文本分析模型对所述目标文本进行各个维度并行的文本特征分析之前，还包括：获取预设的第一训练数据集；所述第一训练数据集包括若干个第一训练样本，每个第一训练样本包括训练文本以及对应的分词特征、多音字特征和韵律特征；以每个第一训练样本的训练文本作为分词分析模型、多音字分析模型和韵律分析模型的共同输入，以每个第一训练样本的分词特征作为分词分析模型的预期输出，以每个第一训练样本的多音字特征作为多音字分析模型的预期输出，以每个第一训练样本的韵律特征作为韵律分析模型的预期输出，对初始的文本分析模型进行多任务联合训练，得到已训练的文本分析模型。4.根据权利要求2所述的语音合成方法，其特征在于，所述分词分析模型、所述多音字分析模型和所述韵律分析模型包括共享的第一文本特征分析层和各自独立的第二文本特征分析层。5.根据权利要求1所述的语音合成方法，其特征在于，所述根据所述文本特征进行语音合成处理，得到与...

【专利技术属性】
技术研发人员：黄东延，谭欢，
申请(专利权)人：深圳市优必选科技股份有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人