语音转换方法、装置、设备及存储介质制造方法及图纸

技术编号：30323504 阅读：16 留言：0更新日期：2021-10-09 23:52

本发明专利技术涉及人工智能，提供一种语音转换方法、装置、设备及存储介质。该方法能够划分样本音频，得到第一音频片段，对第一音频片段进行重采样处理，得到第二音频片段，编码第一音频片段及第二音频片段，得到文本信息及音频特征，解码文本信息及音频特征，得到预测音频，编码预测音频进行编码处理，得到预测文本，计算第一损失值及第二损失值并调整预设学习器的网络参数，得到转换模型，将转换音频输入至转换模型中，得到初始音频，基于期望音色信息更新初始音频中的音色信息，得到目标音频。本发明专利技术能够实现对转换音频中的音色信息及音频节奏的转换，提高语音转换效果。此外，本发明专利技术还涉及区块链技术，所述目标音频可存储于区块链中。中。中。

全部详细技术资料下载

【技术实现步骤摘要】
语音转换方法、装置、设备及存储介质

[0001]本专利技术涉及人工智能
，尤其涉及一种语音转换方法、装置、设备及存储介质。

技术介绍

[0002]在目前的语音转换方式中，由于这种方式无法衡量出变分自编码器对于内容信息与说话人信息的解耦能力，造成在语音转换过程中只能做到转变说话人的音色，而无法做到节奏及韵律的自由转换。

技术实现思路

[0003]鉴于以上内容，有必要提供一种语音转换方法、装置、设备及存储介质，能够实现对转换音频中的音色信息及音频节奏的转换，从而提高语音转换效果。
[0004]一方面，本专利技术提出一种语音转换方法，所述语音转换方法包括：
[0005]获取样本音频，并获取预设学习器，所述预设学习器包括第一编码器、第二编码器及解码器；
[0006]对所述样本音频进行划分，得到第一音频片段，并对所述第一音频片段进行重采样处理，得到第二音频片段；
[0007]基于所述第一编码器对所述第一音频片段进行编码处理，得到文本信息，并基于所述第二编码器对所述第二音频片段进行编码处理，得到音频特征；
[0008]基于所述解码器对所述文本信息及所述音频特征进行解码处理，得到预测音频；
[0009]基于所述第一编码器对所述预测音频进行编码处理，得到预测文本；
[0010]基于所述第二音频片段及所述预测音频计算第一损失值，并基于所述文本信息及所述预测文本计算第二损失值；
[0011]根据所述第一损失值及所述第二损失值调整所述预设学习器的网络参数...

【技术保护点】

【技术特征摘要】
1.一种语音转换方法，其特征在于，所述语音转换方法包括：获取样本音频，并获取预设学习器，所述预设学习器包括第一编码器、第二编码器及解码器；对所述样本音频进行划分，得到第一音频片段，并对所述第一音频片段进行重采样处理，得到第二音频片段；基于所述第一编码器对所述第一音频片段进行编码处理，得到文本信息，并基于所述第二编码器对所述第二音频片段进行编码处理，得到音频特征；基于所述解码器对所述文本信息及所述音频特征进行解码处理，得到预测音频；基于所述第一编码器对所述预测音频进行编码处理，得到预测文本；基于所述第二音频片段及所述预测音频计算第一损失值，并基于所述文本信息及所述预测文本计算第二损失值；根据所述第一损失值及所述第二损失值调整所述预设学习器的网络参数，得到转换模型；当接收到转换请求时，根据所述转换请求获取转换音频及期望音色信息；将所述转换音频输入至所述转换模型中，得到初始音频，并基于所述期望音色信息更新所述初始音频中的音色信息，得到目标音频。2.如权利要求1所述的语音转换方法，其特征在于，所述对所述第一音频片段进行重采样处理，得到第二音频片段包括：获取所述第一音频片段中每帧音频的音频频率；根据预设值对所述音频频率进行处理，得到第一频率；根据所述第一频率更新所述音频频率，得到所述第二音频片段。3.如权利要求1所述的语音转换方法，其特征在于，所述第一编码器包括多个编码卷积网络及第一循环神经网络，每个编码卷积网络包括编码卷积层及编码归一化层，所述基于所述第一编码器对所述第一音频片段进行编码处理，得到文本信息包括：对所述第一音频片段进行预处理，得到第一梅谱信息；基于所述多个编码卷积网络对所述第一梅谱信息进行处理，得到网络输出结果，包括：基于所述编码卷积层对所述第一梅谱信息进行卷积处理，得到卷积结果；基于所述编码归一化层对所述卷积结果进行归一化处理，得到归一化结果，并将所述归一化结果确定为下一个编码卷积网络的第一梅谱信息，直至所述多个编码卷积网络都参与处理所述第一梅谱信息，得到所述网络输出结果；基于所述第一循环神经网络分析所述网络输出结果，得到所述文本信息。4.如权利要求1所述的语音转换方法，其特征在于，所述第二编码器包括第二循环神经网络及全连接网络，所述基于所述第二编码器对所述第二音频片段进行编码处理，得到音频特征包括：对所述第二音频片段进行预处理，得到第二梅谱信息；基于所述第二循环神经网络提取所述第二梅谱信息中的特征，得到特征信息；获取所述全连接网络中的权值矩阵及偏置向量；基于所述权值矩阵及所述偏置向量对所述特征信息进行分析，得到所述音频特征。5.如权利要求1所述的语音转换方法，其特征在于，所述解码器包括第三循环神经网
络、多个解码卷积网络及第四循环神经网络，每个解码卷积网络包括解码卷积层及解码归一化层，所述基于所述解码器对所述文本信息及所述音频特征进行解码处理，得到预测音频包括：获取所述文本信息中每个维度的第一元素数量，并获取所述音频特征中每个维度的第二元素数量；若所述第一元素数量与所述第二元素数量相同，从所述文本信息中提取与第一预设标签对应的维度中的元素作为文本元素，所述第一预设标签用于指示言语信息；从所述文本信息中提取与第二预设标签对应的维度中的元素作为音频元素，所述第二预设...

【专利技术属性】
技术研发人员：张旭龙，王健宗，
申请(专利权)人：平安科技深圳有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人