一种语音合成方法和装置制造方法及图纸

技术编号：30321321 阅读：27 留言：0更新日期：2021-10-09 23:45

本发明专利技术实施例提供了一种语音合成方法和装置，所述方法包括：获取待合成文本；生成所述待合成文本的隐层特征以及韵律特征，并预测所述待合成文本中每一字符的时长；基于所述待合成文本的隐层特征、韵律特征、以及所述待合成文本中每一字符的时长，生成所述待合成文本对应的声学特征；根据所述待合成文本对应的声学特征，生成所述待合成文本对应的文本语音。从而实现无需预处理大量素材，而通过提取文本中的隐层特征以及韵律特征，并基于字符预测语音时长，实现字符级别的语音合成。而且合成语音质量较好，同时可以降低语音合成的难度，以便用户可以根据实际需要应用于不同场景中，满足用户的个性化需求。用户的个性化需求。用户的个性化需求。

全部详细技术资料下载

【技术实现步骤摘要】
一种语音合成方法和装置

[0001]本专利技术涉及语音处理
，特别是涉及一种语音合成方法和一种语音合成装置。

技术介绍

[0002]现有技术中，通常可以基于音素实现语音合成。具体而言，基于音素的语音合成需要提前采集大量的单词以及单词对应的音素作为素材，实现文本至语音的转换；还需要提前采集大量的单词与单词对应的停顿信息作为素材，实现语音的韵律预测。但是，单词、音素、停顿信息等素材的预处理需要花费较大工作量，且基于大量素材的语音合成通常对电子设备的处理能力具有较高要求，导致语音合成工作难度较大，且基于音素的语音合成的准确率不高。

技术实现思路

[0003]鉴于上述问题，提出了本专利技术实施例以便提供一种克服上述问题或者至少部分地解决上述问题的一种语音合成方法和相应的一种语音合成装置。
[0004]为了解决上述问题，本专利技术实施例公开了一种语音合成方法，包括：
[0005]获取待合成文本；
[0006]生成所述待合成文本的隐层特征以及韵律特征，并预测所述待合成文本中每一字符的时长；
[0007]基于所述待合成文本的隐层特征、韵律特征、以及所述待合成文本中每一字符的时长，生成所述待合成文本对应的声学特征；
[0008]根据所述待合成文本对应的声学特征，生成所述待合成文本对应的文本语音。
[0009]可选地，所述生成所述待合成文本的隐层特征以及韵律特征，并预测所述待合成文本中每一字符的时长的步骤，包括：
[0010]采用所述待合成文本对应的语种和/...

【技术保护点】

【技术特征摘要】
1.一种语音合成方法，其特征在于，包括：获取待合成文本；生成所述待合成文本的隐层特征以及韵律特征，并预测所述待合成文本中每一字符的时长；基于所述待合成文本的隐层特征、韵律特征、以及所述待合成文本中每一字符的时长，生成所述待合成文本对应的声学特征；根据所述待合成文本对应的声学特征，生成所述待合成文本对应的文本语音。2.根据权利要求1所述的方法，其特征在于，所述生成所述待合成文本的隐层特征以及韵律特征，并预测所述待合成文本中每一字符的时长的步骤，包括：采用所述待合成文本对应的语种和/或语音风格的声学模型，生成所述待合成文本的隐层特征以及韵律特征，并预测所述待合成文本中每一字符的时长。3.根据权利要求1或2所述的方法，其特征在于，所述生成所述待合成文本的隐层特征以及韵律特征，并预测所述待合成文本中每一字符的时长的步骤，包括：将所述待合成文本通过编码器输出所述待合成文本的隐层特征；将所述隐层特征通过时长模型输出所述待合成文本中每一字符的时长；将所述隐层特征通过变分自动编码器输出韵律特征。4.根据权利要求1或2所述的方法，其特征在于，所述基于所述待合成文本的隐层特征、韵律特征、以及所述待合成文本中每一字符的时长，生成所述待合成文本对应的声学特征的步骤，包括：基于所述待合成文本中每一字符的时长，所述隐层特征的长度进行调整；将调整后的所述隐层特征以及所述待合成文本的韵律特征通过解码器输出所述待合成文本对应的声学特征。5.根据权利要求1所述的方法，其特征在于，所述采用所述待合成文本对应的声学特征，生成所述待合成文本对应的文本语音的步骤，包括：将所述待合成文本对应的声学特征输入预设的声码器中，获取所述声码器输出的所述待合成文本对应的文本语音。6.根据权利要求2所述的方法，其特征在于，所述声学模型采用如下方式训练得到：获取一语种的训练文本以及所述训练文本对应的训练音频；采用所述一语种的训练文本以及所述训练文本对应的训练音频，对待训练的所述声学模型进行训练，得到训练完成的所述语种的声学模型。7.根据要求6所述的方法，其特征在于，所述一语种的训练文本以及所述训练文本对应的训练音频包括来自若干人的训练文本以及所述训练文本对应的训练音频；所述采用所述一语种的训练文本以及所述训练文本对应的训练音频，对待训练的所述声学模型进行训练，得到训练完成的所述语种的声学模型的步骤，包括：采用一语种中若干人的训练文本以及所述训练文本对应的训练音频，对待训练的所述声学模...

【专利技术属性】
技术研发人员：方鹏，刘恺，陈伟，
申请(专利权)人：北京搜狗科技发展有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人