基于文本的语音变声方法、装置、电子设备及存储介质制造方法及图纸

技术编号:34445941 阅读:21 留言:0更新日期:2022-08-06 16:41
本发明专利技术涉及语音语义领域,揭露一种基于文本的语音变声方法、装置、电子设备及可读存储介质,所述方法包括:获取目标文本及音频数据,利用预设语音合成模型对所述目标文件进行音素转换,得到音素序列,其中,所述语音合成模型包括编码器、解码器、残差网络和声码器,对所述音频数据进行频谱转换,得到目标频谱,根据所述目标频谱,利用所述编码器、所述解码器和所述残差网络依次对所述音素序列进行处理,得到目标梅尔频谱;利用所述声码器对所述目标梅尔频谱进行音频转换,得到目标音频。本发明专利技术可以提高语音变声的精准率及效率。提高语音变声的精准率及效率。提高语音变声的精准率及效率。

【技术实现步骤摘要】
基于文本的语音变声方法、装置、电子设备及存储介质


[0001]本专利技术涉及语音语义领域,尤其涉及一种基于文本的语音变声方法、装置、电子设备及可读存储介质。

技术介绍

[0002]语音变声指的是通过更改语音的语音频率从而实现音色变化的技术,例如,变声器可以实现语音变声。
[0003]目前常见的语音变声都是基于一段语音的基础上进行语音变声,当录制语音的环境噪音较大,或录制人的发音不标准时,容易导致变声结果与语音大相径庭,从而造成变声失败。

技术实现思路

[0004]本专利技术提供一种基于文本的语音变声方法、装置、电子设备及可读存储介质,其目的在于提高基于文本的语音变声的精准率及效率。
[0005]为实现上述目的,本专利技术提供的一种基于文本的语音变声方法,所述方法包括:
[0006]获取目标文本及音频数据,利用预设语音合成模型对所述目标文件进行音素转换,得到音素序列,其中,所述语音合成模型包括编码器、解码器、残差网络和声码器;
[0007]对所述音频数据进行频谱转换,得到目标频谱;
[0008]利用所述编码器对所述音素序列进行上下文特征提取,得到隐藏特征矩阵;
[0009]根据所述隐藏特征矩阵及所述目标频谱,利用所述解码器对所述目标文本的梅尔频谱进行预测,得到预测梅尔频谱;
[0010]利用所述残差网络对所述预测梅尔频谱进行残差连接,得到目标梅尔频谱;
[0011]利用所述声码器对所述目标梅尔频谱进行音频转换,得到目标音频。
[0012]可选地,所述利用所述编码器对所述音素序列进行上下文特征提取,得到隐藏特征矩阵,包括:
[0013]利用所述编码器中预设层数的卷积层对所述音素序列进行卷积处理,得到所述音素序列的特征矩阵;
[0014]对所述特征矩阵进行修正线性单元激活处理及批归一化处理,得到优化特征矩阵;
[0015]利用所述编码器中预设的双向长短时记忆网络,对所述优化特征矩阵进行计算,得到隐藏特征矩阵。
[0016]可选地,所述根据所述隐藏特征矩阵及所述目标频谱,利用所述解码器对所述目标文本的梅尔频谱进行预测,得到预测梅尔频谱,包括:
[0017]利用所述解码器中的注意力网络提取所述隐藏特征矩阵中的上下文向量,得到第一当前时间步的上下文向量;
[0018]将所述第一当前时间步的上下文向量与预设的梅尔频谱进行串联操作,并将串联
结果输入至所述解码器中双层长短时记忆层中,得到第二当前时间步的上下文向量;
[0019]利用所述解码器中后处理网络对所述第二当前时间步的上下文向量进行第一线性投影,得到当前时间步的上下文标量;
[0020]根据所述目标频谱,利用所述后处理网络对所述第二当前时间步的上下文向量进行第二线性投影并对所述第二线性投影后的上下文标量进行梅尔频谱预测,得到第二当前时间步的梅尔频谱;
[0021]根据所述当前时间步的上下文标量,利用预设的第一激活函数计算梅尔频谱预测完成的概率;
[0022]判断所述梅尔频谱预测完成的概率是否小于预设的阈值;
[0023]当所述梅尔频谱预测完成的概率不小于所述阈值时,将所述第二当前时间步的上下文向量与所述第二当前时间步的梅尔频谱进行串联操作,并返回所述将串联结果输入至所述解码器中双层长短时记忆层中的步骤,直至所述梅尔频谱预测完成的概率小于所述阈值时,得到预测梅尔频谱。
[0024]可选地,所述利用所述解码器中的注意力网络提取所述隐藏特征矩阵中的上下文向量,得到第一当前时间步的上下文向量,包括:
[0025]利用所述注意力网络中的线性层对所述隐藏特征矩阵进行线性投影,得到键矩阵;
[0026]将所述注意力网络中的注意力权重值输入至预设的卷积层中,生成位置特征矩阵;
[0027]利用所述线性层对所述位置特征矩阵进行线性投影,得到附加特征矩阵;
[0028]将所述附加特征矩阵与所述键矩阵进行相加,并利用预设的第二激活函数处理相加结果,得到注意力概率向量;
[0029]利用预设的映射函数对所述注意力概率向量进行映射,得到当前注意力的权重向量;
[0030]将所述当前注意力权重向量与所述隐藏特征矩阵进行相乘操作,得到第一当前时间步的上下文向量。
[0031]可选地,所述对所述音频数据进行频谱转换,得到目标频谱,包括:
[0032]对所述音频数据进行预加重处理、分帧处理及加窗处理,得到目标语音信号;
[0033]可选地,所述利用预设语音合成模型对所述目标文件进行音素转换,得到音素序列,包括:
[0034]利用语种分析工具对所述目标文本进行语种分析,确定所述目标文本的语种;
[0035]利用所述语种对应分词规则,对所述目标文本进行语句切分处理,得到切分语句文本;
[0036]根据预设的文本格式规则,将所述切分语句文本中的非文字转化为文字;
[0037]对所述切分语句文本进行分词处理,得到分词文本;
[0038]根据预设的文字音素映射词典,对所述分词文本进行映射,得到音素;
[0039]对所述音素进行向量转化,得到音素向量;
[0040]按照文本顺序对所述音素向量进行编码排序,得到音素序列。
[0041]可选地,所述利用所述残差网络对所述预测梅尔频谱进行残差连接,得到目标梅
尔频谱,包括:
[0042]利用预设的残差网络对所述预测梅尔频谱进行残差计算,得到残差梅尔频谱;
[0043]将所述残差梅尔频谱与所述预测梅尔频谱进行叠加,得到目标梅尔频谱。为了解决上述问题,本专利技术还提供一种线下产品推荐装置,所述装置包括:
[0044]音素序列转化模块,用于获取目标文本及音频数据,利用预设语音合成模型对所述目标文件进行音素转换,得到音素序列,其中,所述语音合成模型包括编码器、解码器、残差网络和声码器;
[0045]目标梅尔频谱获取模块,用于对所述音频数据进行频谱转换,得到目标频谱,利用所述编码器对所述音素序列进行上下文特征提取,得到隐藏特征矩阵,根据所述隐藏特征矩阵及所述目标频谱,利用所述解码器对所述目标文本的梅尔频谱进行预测,得到预测梅尔频谱,利用所述残差网络对所述预测梅尔频谱进行残差连接,得到目标梅尔频谱;
[0046]目标音频获取模块,用于利用所述声码器对所述目标梅尔频谱进行音频转换,得到目标音频。
[0047]为了解决上述问题,本专利技术还提供一种电子设备,所述电子设备包括:
[0048]存储器,存储至少一个计算机程序;及
[0049]处理器,执行所述存储器中存储的计算机程序以实现上述所述的基于文本的语音变声方法。
[0050]为了解决上述问题,本专利技术还提供一种计算机可读存储介质,所述计算机可读存储介质中存储有至少一个计算机程序,所述至少一个计算机程序被电子设备中的处理器执行以实现上述所述的基于文本的语音变声方法。
[0051]本专利技术实本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于文本的语音变声方法,其特征在于,所述方法包括:获取目标文本及音频数据,利用预设语音合成模型对所述目标文件进行音素转换,得到音素序列,其中,所述语音合成模型包括编码器、解码器、残差网络和声码器;对所述音频数据进行频谱转换,得到目标频谱;利用所述编码器对所述音素序列进行上下文特征提取,得到隐藏特征矩阵;根据所述隐藏特征矩阵及所述目标频谱,利用所述解码器对所述目标文本的梅尔频谱进行预测,得到预测梅尔频谱;利用所述残差网络对所述预测梅尔频谱进行残差连接,得到目标梅尔频谱;利用所述声码器对所述目标梅尔频谱进行音频转换,得到目标音频。2.如权利要求1所述的基于文本的语音变声方法,其特征在于,所述利用所述编码器对所述音素序列进行上下文特征提取,得到隐藏特征矩阵,包括:利用所述编码器中预设层数的卷积层对所述音素序列进行卷积处理,得到所述音素序列的特征矩阵;对所述特征矩阵进行修正线性单元激活处理及批归一化处理,得到优化特征矩阵;利用所述编码器中预设的双向长短时记忆网络,对所述优化特征矩阵进行计算,得到隐藏特征矩阵。3.如权利要求1所述的基于文本的语音变声方法,其特征在于,所述根据所述隐藏特征矩阵及所述目标频谱,利用所述解码器对所述目标文本的梅尔频谱进行预测,得到预测梅尔频谱,包括:利用所述解码器中的注意力网络提取所述隐藏特征矩阵中的上下文向量,得到第一当前时间步的上下文向量;将所述第一当前时间步的上下文向量与预设的梅尔频谱进行串联操作,并将串联结果输入至所述解码器中双层长短时记忆层中,得到第二当前时间步的上下文向量;利用所述解码器中后处理网络对所述第二当前时间步的上下文向量进行第一线性投影,得到当前时间步的上下文标量;根据所述目标频谱,利用所述后处理网络对所述第二当前时间步的上下文向量进行第二线性投影并对所述第二线性投影后的上下文标量进行梅尔频谱预测,得到第二当前时间步的梅尔频谱;根据所述当前时间步的上下文标量,利用预设的第一激活函数计算梅尔频谱预测完成的概率;判断所述梅尔频谱预测完成的概率是否小于预设的阈值;当所述梅尔频谱预测完成的概率不小于所述阈值时,将所述第二当前时间步的上下文向量与所述第二当前时间步的梅尔频谱进行串联操作,并返回所述将串联结果输入至所述解码器中双层长短时记忆层中的步骤,直至所述梅尔频谱预测完成的概率小于所述阈值时,得到预测梅尔频谱。4.如权利要求3所述的基于文本的语音变声方法,其特征在于,所述利用所述解码器中的注意力网络提取所述隐藏特征矩阵中的上下文向量,得到第一当前时间步的上下文向量,包括:利用所述注意力网络中的线性层对所述隐藏特征矩阵进行线性投影,得到键矩阵;
将所述注意力网络中的注意力权重值输入至预设的卷积层中,生成位置特征矩阵;利用所述线性层对所述位置特征矩阵进行线性投影,得到附加特征矩阵;将...

【专利技术属性】
技术研发人员:朱超
申请(专利权)人:平安科技深圳有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1