语音合成方法、装置、计算设备和计算机存储介质制造方法及图纸

技术编号:37890905 阅读:7 留言:0更新日期:2023-06-18 11:54
本发明专利技术公开了一种语音合成方法、装置、计算设备和计算机存储介质。其中方法包括:根据待处理文本生成音素序列,将所述音素序列输入到经预训练的声学模型中得到声学特征数据;根据预设的基频控制点或者控制曲线得到基频控制向量,利用所述基频控制向量对所述声学特征数据中的第一基频进行转换得到第二基频;利用所述第二基频替换所述声学特征数据中的第一基频,将替换后的所述声学特征数据输入到经预训练的声码器模型中得到目标音频。通过上述技术方案,本发明专利技术能够基于预设的基频控制点或控制曲线修改根据声学模型得到的声学特征数据中的基频,进而实现对生成音频的音调进行控制。制。制。

【技术实现步骤摘要】
语音合成方法、装置、计算设备和计算机存储介质


[0001]本专利技术涉及计算机应用
,具体涉及一种语音合成方法、计算设备和计算机存储介质。

技术介绍

[0002]现有的语音合成技术方案的研究方向大部分针对语音合成的音质效果,或者一些如重读拖音等音调特征的控制,但这些控制是模型本身学习出来的,对音调特征的控制不够灵活。
[0003]目前语音合成中韵律可控的方案,大部分针对时长可控,没有对音调特征进行直接操作的显式可控。而针对音调可控的方案,大部分基于VAE模型和参照编码器(Recerenceencoder)等方案,需在训练阶段引入非常复杂的模型结构,而且控制也不直接,需要从参考音频中拿到韵律特征,不能够进行显式控制。

技术实现思路

[0004]鉴于上述问题,提出了本专利技术以便提供一种克服上述问题或者至少部分地解决上述问题的语音合成方法、计算设备和计算机存储介质。
[0005]根据本专利技术的一个方面,提供了一种语音合成方法,所述方法包括:
[0006]根据待处理文本生成音素序列,将所述音素序列输入到经预训练的声学模型中得到声学特征数据;
[0007]根据预设的基频控制点或者控制曲线得到基频控制向量,利用所述基频控制向量对所述声学特征数据中的第一基频进行转换得到第二基频;
[0008]利用所述第二基频替换所述声学特征数据中的第一基频,将替换后的所述声学特征数据输入到经预训练的声码器模型中得到目标音频。
[0009]可选的,根据预设的基频控制点或者控制曲线得到基频控制向量,利用所述基频控制向量对所述声学特征数据中的第一基频进行转换得到第二基频之前,还包括:
[0010]根据预设条件对所述声学特征数据中的第一基频是否需要转换进行判断;
[0011]若判断结果为是,则根据预设的基频控制点或者控制曲线得到基频控制向量,利用所述基频控制向量对所述声学特征数据中的第一基频进行转换得到第二基频。
[0012]可选的,根据预设条件对所述声学特征数据中的第一基频是否需要转换进行判断,进一步包括:
[0013]将所述声学特征数据中的基频互相关系数输入到预设的清浊音判断表达式,计算所述清浊音判断表达式的值;
[0014]判断所述值是否大于预设阈值;
[0015]若是,则对所述声学特征数据中的第一基频进行转换,否则不进行转换。
[0016]可选的,根据预设的基频控制点得到基频控制向量包括:
[0017]对所述基频控制点进行线性插值处理,得到与所述声学特征数据的帧数长度相同
的基频控制向量。
[0018]可选的,对基频控制点进行线性插值处理,得到与声学频谱数据的帧数长度相同的基频控制向量,包括如下的任一种:
[0019]根据预设比例对所述基频控制点进行线性插值,得到所述基频控制向量;
[0020]根据预设占位符对所述基频控制点进行线性插值,得到所述基频控制向量;
[0021]按照相对时间百分比对所述基频控制点进行线性插值,得到所述基频控制向量;
[0022]在音频时长已知的情况下,根据绝对时间点对所述基频控制点进行线性插值,得到所述基频控制向量。
[0023]可选的,所述声学模型包括Tacotron系列模型,所述声码器模型包括Lpcnet模型,所述声学频谱数据包括巴克倒谱系数。
[0024]可选的,所述声学模型或所述声码器模型的样本音频包括以下至少一项:
[0025]第一发音对象的音频;第二发音对象的音频;所述第一发音对象的音频经过频谱拉伸或者压缩后得到的音频;
[0026]其中,所述声码器模型中的基频采用由音频制作工具提取的基频。
[0027]根据本专利技术的另一方面,提供了一种语音合成装置,所述装置包括:
[0028]输入模块,适于根据待处理文本生成音素序列,将所述音素序列输入到经预训练的声学模型中得到声学特征数据;
[0029]转换模块,适于根据预设的基频控制点或者控制曲线得到基频控制向量,利用所述基频控制向量对所述声学特征数据中的第一基频进行转换得到第二基频;
[0030]合成模块,适于利用所述第二基频替换所述声学特征数据中的第一基频,将替换后的所述声学特征数据输入到经预训练的声码器模型中得到目标音频。
[0031]根据本专利技术的又一方面,提供了一种计算设备,包括:处理器、存储器、通信接口和通信总线,所述处理器、所述存储器和所述通信接口通过所述通信总线完成相互间的通信;
[0032]所述存储器用于存放至少一可执行指令,所述可执行指令使所述处理器执行上述语音合成方法对应的操作。
[0033]根据本专利技术的再一方面,提供了一种计算机存储介质,所述存储介质中存储有至少一可执行指令,所述可执行指令使处理器执行如上述语音合成方法对应的操作。
[0034]根据本专利技术的语音合成方案,首先,根据待处理文本生成音素序列,利用声学模型将音素序列生成声学特征数据;然后,利用基频控制向量对所述声学特征数据中的基频进行转换;最后,将转换后的声学特征数据输入到声码器模型中得到目标音频。由此可见,上述方案能够根据输入的基频控制点或控制曲线修改声码器模型中的基频特征,而基频特征是控制音调的最重要的部分,从而通过对基频特征的直接控制实现了对音调的稳定、直接和显式控制,由此解决了现有技术中对音调进行控制的神经网络模型复杂且控制不直接等问题。
[0035]上述说明仅是本专利技术技术方案的概述,为了能够更清楚了解本专利技术的技术手段,而可依照说明书的内容予以实施,并且为了让本专利技术的上述和其它目的、特征和优点能够更明显易懂,以下特举本专利技术的具体实施方式。
附图说明
[0036]通过阅读下文优选实施方式的详细描述,各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的,而并不认为是对本专利技术的限制。而且在整个附图中,用相同的参考符号表示相同的部件。在附图中:
[0037]图1示出了本专利技术一实施例提供的语音合成方法流程图;
[0038]图2a和图2b示出了本专利技术一实施例提供的基频控制曲线以及转换之后的基频对比的示意图;
[0039]图3示出了本专利技术一实施例提供的语音合成的流程示意图;
[0040]图4示出了本专利技术一实施例提供的语音合成装置的结构示意图;
[0041]图5示出了本专利技术一实施例提供的计算设备的结构示意图。
具体实施方式
[0042]下面将参照附图更详细地描述本专利技术的示例性实施例。虽然附图中显示了本专利技术的示例性实施例,然而应当理解,可以以各种形式实现本专利技术而不应被这里阐述的实施例所限制。相反,提供这些实施例是为了能够更透彻地理解本专利技术,并且能够将本专利技术的范围完整的传达给本领域的技术人员。
[0043]图1示出了本专利技术语音合成方法实施例的流程图,该方法应用于计算设备中。所述计算设备包括但不限于智能终端设备、计算机设备和/或云,所述智能终端设本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种语音合成方法,其特征在于,所述方法包括:根据待处理文本生成音素序列,将所述音素序列输入到经预训练的声学模型中得到声学特征数据;根据预设的基频控制点或者控制曲线得到基频控制向量,利用所述基频控制向量对所述声学特征数据中的第一基频进行转换得到第二基频;利用所述第二基频替换所述声学特征数据中的第一基频,将替换后的所述声学特征数据输入到经预训练的声码器模型中得到目标音频。2.根据权利要求1所述的方法,其特征在于,根据预设的基频控制点或者控制曲线得到基频控制向量,利用所述基频控制向量对所述声学特征数据中的第一基频进行转换得到第二基频之前,还包括:根据预设条件对所述声学特征数据中的第一基频是否需要转换进行判断;若判断结果为是,则根据预设的基频控制点或者控制曲线得到基频控制向量,利用所述基频控制向量对所述声学特征数据中的第一基频进行转换得到第二基频。3.根据权利要求2所述的方法,其特征在于,根据预设条件对所述声学特征数据中的第一基频是否需要转换进行判断,进一步包括:将所述声学特征数据中的基频互相关系数输入到预设的清浊音判断表达式,计算所述清浊音判断表达式的值;判断所述值是否大于预设阈值;若是,则对所述声学特征数据中的第一基频进行转换,否则不进行转换。4.根据权利要求1

3中任一项所述的方法,其特征在于,根据预设的基频控制点得到基频控制向量包括:对所述基频控制点进行线性插值处理,得到与所述声学特征数据的帧数长度相同的基频控制向量。5.根据权利要求4所述的方法,其特征在于,对基频控制点进行线性插值处理,得到与声学频谱数据的帧数长度相同的基频控制向量,包括如下的任一种:根据预设比例对所述基频控制点进行线性插值,得到所述基频控制向量;根据预设占位符对所述基频控制点进行线性插值,得到所述基频控制向...

【专利技术属性】
技术研发人员:孙莉
申请(专利权)人:中国移动通信集团有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1