基于文本的语音变声方法、装置、电子设备及存储介质制造方法及图纸

技术编号：34445941 阅读：21 留言：0更新日期：2022-08-06 16:41

本发明专利技术涉及语音语义领域，揭露一种基于文本的语音变声方法、装置、电子设备及可读存储介质，所述方法包括：获取目标文本及音频数据，利用预设语音合成模型对所述目标文件进行音素转换，得到音素序列，其中，所述语音合成模型包括编码器、解码器、残差网络和声码器，对所述音频数据进行频谱转换，得到目标频谱，根据所述目标频谱，利用所述编码器、所述解码器和所述残差网络依次对所述音素序列进行处理，得到目标梅尔频谱；利用所述声码器对所述目标梅尔频谱进行音频转换，得到目标音频。本发明专利技术可以提高语音变声的精准率及效率。提高语音变声的精准率及效率。提高语音变声的精准率及效率。

全部详细技术资料下载

【技术实现步骤摘要】
基于文本的语音变声方法、装置、电子设备及存储介质

[0001]本专利技术涉及语音语义领域，尤其涉及一种基于文本的语音变声方法、装置、电子设备及可读存储介质。

技术介绍

[0002]语音变声指的是通过更改语音的语音频率从而实现音色变化的技术，例如，变声器可以实现语音变声。
[0003]目前常见的语音变声都是基于一段语音的基础上进行语音变声，当录制语音的环境噪音较大，或录制人的发音不标准时，容易导致变声结果与语音大相径庭，从而造成变声失败。

技术实现思路

[0004]本专利技术提供一种基于文本的语音变声方法、装置、电子设备及可读存储介质，其目的在于提高基于文本的语音变声的精准率及效率。
[0005]为实现上述目的，本专利技术提供的一种基于文本的语音变声方法，所述方法包括：
[0006]获取目标文本及音频数据，利用预设语音合成模型对所述目标文件进行音素转换，得到音素序列，其中，所述语音合成模型包括编码器、解码器、残差网络和声码器；
[0007]对所述音频数据进行频谱转换，得到目标频谱；
[0008]利用所述编码器对所述音素序列进行上下文特征提取，得到隐藏特征矩阵；
[0009]根据所述隐藏特征矩阵及所述目标频谱，利用所述解码器对所述目标文本的梅尔频谱进行预测，得到预测梅尔频谱；
[0010]利用所述残差网络对所述预测梅尔频谱进行残差连接，得到目标梅尔频谱；
[0011]利用所述声码器对所述目标梅尔频谱进行音频转换，得到目标音频。
[00...

【技术保护点】

【技术特征摘要】
1.一种基于文本的语音变声方法，其特征在于，所述方法包括：获取目标文本及音频数据，利用预设语音合成模型对所述目标文件进行音素转换，得到音素序列，其中，所述语音合成模型包括编码器、解码器、残差网络和声码器；对所述音频数据进行频谱转换，得到目标频谱；利用所述编码器对所述音素序列进行上下文特征提取，得到隐藏特征矩阵；根据所述隐藏特征矩阵及所述目标频谱，利用所述解码器对所述目标文本的梅尔频谱进行预测，得到预测梅尔频谱；利用所述残差网络对所述预测梅尔频谱进行残差连接，得到目标梅尔频谱；利用所述声码器对所述目标梅尔频谱进行音频转换，得到目标音频。2.如权利要求1所述的基于文本的语音变声方法，其特征在于，所述利用所述编码器对所述音素序列进行上下文特征提取，得到隐藏特征矩阵，包括：利用所述编码器中预设层数的卷积层对所述音素序列进行卷积处理，得到所述音素序列的特征矩阵；对所述特征矩阵进行修正线性单元激活处理及批归一化处理，得到优化特征矩阵；利用所述编码器中预设的双向长短时记忆网络，对所述优化特征矩阵进行计算，得到隐藏特征矩阵。3.如权利要求1所述的基于文本的语音变声方法，其特征在于，所述根据所述隐藏特征矩阵及所述目标频谱，利用所述解码器对所述目标文本的梅尔频谱进行预测，得到预测梅尔频谱，包括：利用所述解码器中的注意力网络提取所述隐藏特征矩阵中的上下文向量，得到第一当前时间步的上下文向量；将所述第一当前时间步的上下文向量与预设的梅尔频谱进行串联操作，并将串联结果输入至所述解码器中双层长短时记忆层中，得到第二当前时间步的上下文向量；利用所述解码器中后处理网络对所述第二当前时间步的上下文向量进行第一线性投影，得到当前时间步的上下文标量；根据所述目标频谱，利用所述后处理网络对所述第二当前时间步的上下文向量进行第二线性投影并对所述第二线性投影后的上下文标量进行梅尔频谱预测，得到第二当前时间步的梅尔频谱；根据所述当前时间步的上下文标量，利用预设的第一激活函数计算梅尔频谱预测完成的概率；判断所述梅尔频谱预测完成的概率是否小于预设的阈值；当所述梅尔频谱预测完成的概率不小于所述阈值时，将所述第二当前时间步的上下文向量与所述第二当前时间步的梅尔频谱进行串联操作，并返回所述将串联结果输入至所述解码器中双层长短时记忆层中的步骤，直至所述梅尔频谱预测完成的概率小于所述阈值时，得到预测梅尔频谱。4.如权利要求3所述的基于文本的语音变声方法，其特征在于，所述利用所述解码器中的注意力网络提取所述隐藏特征矩阵中的上下文向量，得到第一当前时间步的上下文向量，包括：利用所述注意力网络中的线性层对所述隐藏特征矩阵进行线性投影，得到键矩阵；
将所述注意力网络中的注意力权重值输入至预设的卷积层中，生成位置特征矩阵；利用所述线性层对所述位置特征矩阵进行线性投影，得到附加特征矩阵；将...

【专利技术属性】
技术研发人员：朱超，
申请(专利权)人：平安科技深圳有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人