语音转换方法、装置、设备及存储介质制造方法及图纸

技术编号:30323504 阅读:16 留言:0更新日期:2021-10-09 23:52
本发明专利技术涉及人工智能,提供一种语音转换方法、装置、设备及存储介质。该方法能够划分样本音频,得到第一音频片段,对第一音频片段进行重采样处理,得到第二音频片段,编码第一音频片段及第二音频片段,得到文本信息及音频特征,解码文本信息及音频特征,得到预测音频,编码预测音频进行编码处理,得到预测文本,计算第一损失值及第二损失值并调整预设学习器的网络参数,得到转换模型,将转换音频输入至转换模型中,得到初始音频,基于期望音色信息更新初始音频中的音色信息,得到目标音频。本发明专利技术能够实现对转换音频中的音色信息及音频节奏的转换,提高语音转换效果。此外,本发明专利技术还涉及区块链技术,所述目标音频可存储于区块链中。中。中。

【技术实现步骤摘要】
语音转换方法、装置、设备及存储介质


[0001]本专利技术涉及人工智能
,尤其涉及一种语音转换方法、装置、设备及存储介质。

技术介绍

[0002]在目前的语音转换方式中,由于这种方式无法衡量出变分自编码器对于内容信息与说话人信息的解耦能力,造成在语音转换过程中只能做到转变说话人的音色,而无法做到节奏及韵律的自由转换。

技术实现思路

[0003]鉴于以上内容,有必要提供一种语音转换方法、装置、设备及存储介质,能够实现对转换音频中的音色信息及音频节奏的转换,从而提高语音转换效果。
[0004]一方面,本专利技术提出一种语音转换方法,所述语音转换方法包括:
[0005]获取样本音频,并获取预设学习器,所述预设学习器包括第一编码器、第二编码器及解码器;
[0006]对所述样本音频进行划分,得到第一音频片段,并对所述第一音频片段进行重采样处理,得到第二音频片段;
[0007]基于所述第一编码器对所述第一音频片段进行编码处理,得到文本信息,并基于所述第二编码器对所述第二音频片段进行编码处理,得到音频特征;
[0008]基于所述解码器对所述文本信息及所述音频特征进行解码处理,得到预测音频;
[0009]基于所述第一编码器对所述预测音频进行编码处理,得到预测文本;
[0010]基于所述第二音频片段及所述预测音频计算第一损失值,并基于所述文本信息及所述预测文本计算第二损失值;
[0011]根据所述第一损失值及所述第二损失值调整所述预设学习器的网络参数,得到转换模型;
[0012]当接收到转换请求时,根据所述转换请求获取转换音频及期望音色信息;
[0013]将所述转换音频输入至所述转换模型中,得到初始音频,并基于所述期望音色信息更新所述初始音频中的音色信息,得到目标音频。
[0014]根据本专利技术优选实施例,所述对所述第一音频片段进行重采样处理,得到第二音频片段包括:
[0015]获取所述第一音频片段中每帧音频的音频频率;
[0016]根据预设值对所述音频频率进行处理,得到第一频率;
[0017]根据所述第一频率更新所述音频频率,得到所述第二音频片段。
[0018]根据本专利技术优选实施例,所述第一编码器包括多个编码卷积网络及第一循环神经网络,每个编码卷积网络包括编码卷积层及编码归一化层,所述基于所述第一编码器对所述第一音频片段进行编码处理,得到文本信息包括:
[0019]对所述第一音频片段进行预处理,得到第一梅谱信息;
[0020]基于所述多个编码卷积网络对所述第一梅谱信息进行处理,得到网络输出结果,包括:基于所述编码卷积层对所述第一梅谱信息进行卷积处理,得到卷积结果;基于所述编码归一化层对所述卷积结果进行归一化处理,得到归一化结果,并将所述归一化结果确定为下一个编码卷积网络的第一梅谱信息,直至所述多个编码卷积网络都参与处理所述第一梅谱信息,得到所述网络输出结果;
[0021]基于所述第一循环神经网络分析所述网络输出结果,得到所述文本信息。
[0022]根据本专利技术优选实施例,所述第二编码器包括第二循环神经网络及全连接网络,所述基于所述第二编码器对所述第二音频片段进行编码处理,得到音频特征包括:
[0023]对所述第二音频片段进行预处理,得到第二梅谱信息;
[0024]基于所述第二循环神经网络提取所述第二梅谱信息中的特征,得到特征信息;
[0025]获取所述全连接网络中的权值矩阵及偏置向量;
[0026]基于所述权值矩阵及所述偏置向量对所述特征信息进行分析,得到所述音频特征。
[0027]根据本专利技术优选实施例,所述解码器包括第三循环神经网络、多个解码卷积网络及第四循环神经网络,每个解码卷积网络包括解码卷积层及解码归一化层,所述基于所述解码器对所述文本信息及所述音频特征进行解码处理,得到预测音频包括:
[0028]获取所述文本信息中每个维度的第一元素数量,并获取所述音频特征中每个维度的第二元素数量;
[0029]若所述第一元素数量与所述第二元素数量相同,从所述文本信息中提取与第一预设标签对应的维度中的元素作为文本元素,所述第一预设标签用于指示言语信息;
[0030]从所述文本信息中提取与第二预设标签对应的维度中的元素作为音频元素,所述第二预设标签用于指示节奏信息;
[0031]计算每个所述文本元素与相应元素位置上的每个所述音频元素的总和,得到目标元素;
[0032]基于所述目标元素更新所述第二预设标签对应的维度中的元素,得到输入矩阵;
[0033]基于所述第三循环神经网络对所述输入矩阵进行特征提取,得到第一特征信息;
[0034]基于所述多个解码卷积网络对所述第一特征信息进行反卷积处理,得到第二特征信息;
[0035]基于所述第四循环神经网络分析所述第二特征信息,得到预测梅谱信息;
[0036]基于梅谱映射表对所述预测梅谱信息进行映射处理,得到所述预测音频。
[0037]根据本专利技术优选实施例,所述基于所述第二音频片段及所述预测音频计算第一损失值包括:
[0038]对所述第二音频片段进行向量映射,得到目标矩阵,并对所述预测音频进行向量映射,得到预测矩阵;
[0039]获取所述目标矩阵中的矩阵元素作为目标矩阵元素,并确定所述目标矩阵元素在所述目标矩阵中的矩阵位置;
[0040]从所述预测矩阵中获取与所述矩阵位置对应的矩阵元素作为预测矩阵元素;
[0041]计算所述目标矩阵元素与所述预测矩阵元素的差值,得到多个元素差值,并计算
所述多个元素差值的平均值,得到所述第二损失值。
[0042]根据本专利技术优选实施例,所述基于所述期望音色信息更新所述初始音频中的音色信息,得到目标音频包括:
[0043]确定基于所述第二音频片段生成所述目标矩阵的编码方式;
[0044]基于所述编码方式生成所述初始音频所对应的初始矩阵;
[0045]基于预先训练好的音色提取模型分析所述初始矩阵,得到所述音色信息;
[0046]基于所述编码方式对所述期望音色信息进行编码,得到期望向量;
[0047]根据所述期望向量更新所述初始矩阵中的所述音色信息,得到期望矩阵,并根据所述期望矩阵生成所述目标音频。
[0048]另一方面,本专利技术还提出一种语音转换装置,所述语音转换装置包括:
[0049]获取单元,用于获取样本音频,并获取预设学习器,所述预设学习器包括第一编码器、第二编码器及解码器;
[0050]处理单元,用于对所述样本音频进行划分,得到第一音频片段,并对所述第一音频片段进行重采样处理,得到第二音频片段;
[0051]编码单元,用于基于所述第一编码器对所述第一音频片段进行编码处理,得到文本信息,并基于所述第二编码器对所述第二音频片段进行编码处理,得到音频特征;
[0052]解码单元,用于基于所述解码器对所述文本本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种语音转换方法,其特征在于,所述语音转换方法包括:获取样本音频,并获取预设学习器,所述预设学习器包括第一编码器、第二编码器及解码器;对所述样本音频进行划分,得到第一音频片段,并对所述第一音频片段进行重采样处理,得到第二音频片段;基于所述第一编码器对所述第一音频片段进行编码处理,得到文本信息,并基于所述第二编码器对所述第二音频片段进行编码处理,得到音频特征;基于所述解码器对所述文本信息及所述音频特征进行解码处理,得到预测音频;基于所述第一编码器对所述预测音频进行编码处理,得到预测文本;基于所述第二音频片段及所述预测音频计算第一损失值,并基于所述文本信息及所述预测文本计算第二损失值;根据所述第一损失值及所述第二损失值调整所述预设学习器的网络参数,得到转换模型;当接收到转换请求时,根据所述转换请求获取转换音频及期望音色信息;将所述转换音频输入至所述转换模型中,得到初始音频,并基于所述期望音色信息更新所述初始音频中的音色信息,得到目标音频。2.如权利要求1所述的语音转换方法,其特征在于,所述对所述第一音频片段进行重采样处理,得到第二音频片段包括:获取所述第一音频片段中每帧音频的音频频率;根据预设值对所述音频频率进行处理,得到第一频率;根据所述第一频率更新所述音频频率,得到所述第二音频片段。3.如权利要求1所述的语音转换方法,其特征在于,所述第一编码器包括多个编码卷积网络及第一循环神经网络,每个编码卷积网络包括编码卷积层及编码归一化层,所述基于所述第一编码器对所述第一音频片段进行编码处理,得到文本信息包括:对所述第一音频片段进行预处理,得到第一梅谱信息;基于所述多个编码卷积网络对所述第一梅谱信息进行处理,得到网络输出结果,包括:基于所述编码卷积层对所述第一梅谱信息进行卷积处理,得到卷积结果;基于所述编码归一化层对所述卷积结果进行归一化处理,得到归一化结果,并将所述归一化结果确定为下一个编码卷积网络的第一梅谱信息,直至所述多个编码卷积网络都参与处理所述第一梅谱信息,得到所述网络输出结果;基于所述第一循环神经网络分析所述网络输出结果,得到所述文本信息。4.如权利要求1所述的语音转换方法,其特征在于,所述第二编码器包括第二循环神经网络及全连接网络,所述基于所述第二编码器对所述第二音频片段进行编码处理,得到音频特征包括:对所述第二音频片段进行预处理,得到第二梅谱信息;基于所述第二循环神经网络提取所述第二梅谱信息中的特征,得到特征信息;获取所述全连接网络中的权值矩阵及偏置向量;基于所述权值矩阵及所述偏置向量对所述特征信息进行分析,得到所述音频特征。5.如权利要求1所述的语音转换方法,其特征在于,所述解码器包括第三循环神经网
络、多个解码卷积网络及第四循环神经网络,每个解码卷积网络包括解码卷积层及解码归一化层,所述基于所述解码器对所述文本信息及所述音频特征进行解码处理,得到预测音频包括:获取所述文本信息中每个维度的第一元素数量,并获取所述音频特征中每个维度的第二元素数量;若所述第一元素数量与所述第二元素数量相同,从所述文本信息中提取与第一预设标签对应的维度中的元素作为文本元素,所述第一预设标签用于指示言语信息;从所述文本信息中提取与第二预设标签对应的维度中的元素作为音频元素,所述第二预设...

【专利技术属性】
技术研发人员:张旭龙王健宗
申请(专利权)人:平安科技深圳有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1