一种语音合成方法和装置制造方法及图纸

技术编号:30321321 阅读:27 留言:0更新日期:2021-10-09 23:45
本发明专利技术实施例提供了一种语音合成方法和装置,所述方法包括:获取待合成文本;生成所述待合成文本的隐层特征以及韵律特征,并预测所述待合成文本中每一字符的时长;基于所述待合成文本的隐层特征、韵律特征、以及所述待合成文本中每一字符的时长,生成所述待合成文本对应的声学特征;根据所述待合成文本对应的声学特征,生成所述待合成文本对应的文本语音。从而实现无需预处理大量素材,而通过提取文本中的隐层特征以及韵律特征,并基于字符预测语音时长,实现字符级别的语音合成。而且合成语音质量较好,同时可以降低语音合成的难度,以便用户可以根据实际需要应用于不同场景中,满足用户的个性化需求。用户的个性化需求。用户的个性化需求。

【技术实现步骤摘要】
一种语音合成方法和装置


[0001]本专利技术涉及语音处理
,特别是涉及一种语音合成方法和一种语音合成装置。

技术介绍

[0002]现有技术中,通常可以基于音素实现语音合成。具体而言,基于音素的语音合成需要提前采集大量的单词以及单词对应的音素作为素材,实现文本至语音的转换;还需要提前采集大量的单词与单词对应的停顿信息作为素材,实现语音的韵律预测。但是,单词、音素、停顿信息等素材的预处理需要花费较大工作量,且基于大量素材的语音合成通常对电子设备的处理能力具有较高要求,导致语音合成工作难度较大,且基于音素的语音合成的准确率不高。

技术实现思路

[0003]鉴于上述问题,提出了本专利技术实施例以便提供一种克服上述问题或者至少部分地解决上述问题的一种语音合成方法和相应的一种语音合成装置。
[0004]为了解决上述问题,本专利技术实施例公开了一种语音合成方法,包括:
[0005]获取待合成文本;
[0006]生成所述待合成文本的隐层特征以及韵律特征,并预测所述待合成文本中每一字符的时长;
[0007]基于所述待合成文本的隐层特征、韵律特征、以及所述待合成文本中每一字符的时长,生成所述待合成文本对应的声学特征;
[0008]根据所述待合成文本对应的声学特征,生成所述待合成文本对应的文本语音。
[0009]可选地,所述生成所述待合成文本的隐层特征以及韵律特征,并预测所述待合成文本中每一字符的时长的步骤,包括:
[0010]采用所述待合成文本对应的语种和/或语音风格的声学模型,生成所述待合成文本的隐层特征以及韵律特征,并预测所述待合成文本中每一字符的时长。
[0011]可选地,所述生成所述待合成文本的隐层特征以及韵律特征,并预测所述待合成文本中每一字符的时长的步骤,包括:
[0012]将所述待合成文本通过编码器输出所述待合成文本的隐层特征;
[0013]将所述隐层特征通过时长模型输出所述待合成文本中每一字符的时长;
[0014]将所述隐层特征通过变分自动编码器输出韵律特征。
[0015]可选地,所述基于所述待合成文本的隐层特征、韵律特征、以及所述待合成文本中每一字符的时长,生成所述待合成文本对应的声学特征的步骤,包括:
[0016]基于所述待合成文本中每一字符的时长,所述隐层特征的长度进行调整;
[0017]将调整后的所述隐层特征以及所述待合成文本的韵律特征通过解码器输出所述待合成文本对应的声学特征。
[0018]可选地,所述采用所述待合成文本对应的声学特征,生成所述待合成文本对应的文本语音的步骤,包括:
[0019]将所述待合成文本对应的声学特征输入预设的声码器中,获取所述声码器输出的所述待合成文本对应的文本语音。
[0020]可选地,所述声学模型采用如下方式训练得到:
[0021]获取一语种的训练文本以及所述训练文本对应的训练音频;
[0022]采用所述一语种的训练文本以及所述训练文本对应的训练音频,对待训练的所述声学模型进行训练,得到训练完成的所述语种的声学模型。
[0023]可选地,所述一语种的训练文本以及所述训练文本对应的训练音频包括来自若干人的训练文本以及所述训练文本对应的训练音频;
[0024]所述采用所述一语种的训练文本以及所述训练文本对应的训练音频,对待训练的所述声学模型进行训练,得到训练完成的所述语种的声学模型的步骤,包括:
[0025]采用一语种中若干人的训练文本以及所述训练文本对应的训练音频,对待训练的所述声学模型进行训练,得到训练完成的所述语种的声学模型;
[0026]采用所述语种中目标语音风格的训练文本以及所述训练文本对应的训练音频,对待训练的所述声学模型进行训练,得到训练完成的所述目标语音风格的声学模型。
[0027]可选地,所述声学模型采用如下方式训练得到:
[0028]获取训练文本以及所述训练文本对应的训练音频;
[0029]提取所述训练音频中的目标声学特征;
[0030]将所述训练文本输入待训练的声学模型中,获取所述待训练的声学模型输出的模型声学特征;
[0031]比较所述模型声学特征以及所述目标声学特征之间的相似度;
[0032]基于所述模型声学特征以及所述目标声学特征之间的相似度,调整所述待训练的声学模型中的模型参数,完成所述声学模型训练。
[0033]可选地,所述时长模型采用如下方式训练得到:
[0034]提取所述训练音频中每一字符的标准时长;
[0035]将所述训练文本输入编码器中,获取所述编码器输出的所述训练文本的隐层特征;
[0036]将所述隐层特征作为输入,将所述训练音频中每一字符的标准时长作为训练目标,对所述待训练的时长模型进行训练,得到时长模型。
[0037]可选地,所述提取所述训练音频中每一字符的标准时长的步骤,包括:
[0038]将所述训练音频以及所述隐层特征输入预设的切分模型中;
[0039]所述切分模型基于所述隐层特征,标注所述训练音频中每一字符的起点与终点;
[0040]基于所述训练音频中每一字符的起点与终点,确定所述训练音频中每一字符的标准时长。
[0041]本专利技术实施例还公开一种语音合成合成装置,包括:
[0042]文本获取模块,用于获取待合成文本;
[0043]第一特征生成模块,用于生成所述待合成文本的隐层特征以及韵律特征,并预测所述待合成文本中每一字符的时长;
[0044]第二特征生成模块,用于基于所述待合成文本的隐层特征、韵律特征、以及所述待合成文本中每一字符的时长,生成所述待合成文本对应的声学特征;
[0045]语音合成模块,用于根据所述待合成文本对应的声学特征,生成所述待合成文本对应的文本语音。
[0046]可选地,所述第一特征生成模块包括:
[0047]第一特征生成子模块,用于采用所述待合成文本对应的语种和/或语音风格的声学模型,生成所述待合成文本的隐层特征以及韵律特征,并预测所述待合成文本中每一字符的时长。
[0048]可选地,所述第一特征生成模块包括:
[0049]编码器处理子模块,用于将所述待合成文本通过编码器输出所述待合成文本的隐层特征;
[0050]时长模块处理子模块,用于将所述隐层特征通过时长模型输出所述待合成文本中每一字符的时长;
[0051]变分自动编码器处理子模块,用于将所述隐层特征通过变分自动编码器输出韵律特征。
[0052]可选地,所述第二特征生成子模块包括:
[0053]调整子模块,用于基于所述待合成文本中每一字符的时长,所述隐层特征的长度进行调整;
[0054]解码器处理子模块,用于将调整后的所述隐层特征以及所述待合成文本的韵律特征通过解码器输出所述待合成文本对应的声学特征。
[0055]可选地,所述语音合成模块包括:
[0056]语本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种语音合成方法,其特征在于,包括:获取待合成文本;生成所述待合成文本的隐层特征以及韵律特征,并预测所述待合成文本中每一字符的时长;基于所述待合成文本的隐层特征、韵律特征、以及所述待合成文本中每一字符的时长,生成所述待合成文本对应的声学特征;根据所述待合成文本对应的声学特征,生成所述待合成文本对应的文本语音。2.根据权利要求1所述的方法,其特征在于,所述生成所述待合成文本的隐层特征以及韵律特征,并预测所述待合成文本中每一字符的时长的步骤,包括:采用所述待合成文本对应的语种和/或语音风格的声学模型,生成所述待合成文本的隐层特征以及韵律特征,并预测所述待合成文本中每一字符的时长。3.根据权利要求1或2所述的方法,其特征在于,所述生成所述待合成文本的隐层特征以及韵律特征,并预测所述待合成文本中每一字符的时长的步骤,包括:将所述待合成文本通过编码器输出所述待合成文本的隐层特征;将所述隐层特征通过时长模型输出所述待合成文本中每一字符的时长;将所述隐层特征通过变分自动编码器输出韵律特征。4.根据权利要求1或2所述的方法,其特征在于,所述基于所述待合成文本的隐层特征、韵律特征、以及所述待合成文本中每一字符的时长,生成所述待合成文本对应的声学特征的步骤,包括:基于所述待合成文本中每一字符的时长,所述隐层特征的长度进行调整;将调整后的所述隐层特征以及所述待合成文本的韵律特征通过解码器输出所述待合成文本对应的声学特征。5.根据权利要求1所述的方法,其特征在于,所述采用所述待合成文本对应的声学特征,生成所述待合成文本对应的文本语音的步骤,包括:将所述待合成文本对应的声学特征输入预设的声码器中,获取所述声码器输出的所述待合成文本对应的文本语音。6.根据权利要求2所述的方法,其特征在于,所述声学模型采用如下方式训练得到:获取一语种的训练文本以及所述训练文本对应的训练音频;采用所述一语种的训练文本以及所述训练文本对应的训练音频,对待训练的所述声学模型进行训练,得到训练完成的所述语种的声学模型。7.根据要求6所述的方法,其特征在于,所述一语种的训练文本以及所述训练文本对应的训练音频包括来自若干人的训练文本以及所述训练文本对应的训练音频;所述采用所述一语种的训练文本以及所述训练文本对应的训练音频,对待训练的所述声学模型进行训练,得到训练完成的所述语种的声学模型的步骤,包括:采用一语种中若干人的训练文本以及所述训练文本对应的训练音频,对待训练的所述声学模...

【专利技术属性】
技术研发人员:方鹏刘恺陈伟
申请(专利权)人:北京搜狗科技发展有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1