音色转换方法、装置、存储介质及计算机设备制造方法及图纸

技术编号:38009582 阅读:5 留言:0更新日期:2023-06-30 10:29
本发明专利技术公开了一种音色转换方法、装置、存储介质及计算机设备,涉及人工智能技术领域,主要在于能够提高音色的转换准确度。其中方法包括:获取待转换音频数据和目标音色;将待转换音频数据输入至预设语义预测模型中进行语义预测,得到待转换音频数据对应的语义信息向量;确定目标音色对应的音色特征向量;将语义信息向量和音色特征向量进行交叉处理,得到音色交叉特征向量;将音色交叉特征向量输入至预设音色转换模型中进行音色转换,得到目标音频,其中,目标音频为带有目标音色和待转换音频数据中原始语气的音频。本发明专利技术适用于对音色进行转换。进行转换。进行转换。

【技术实现步骤摘要】
音色转换方法、装置、存储介质及计算机设备


[0001]本专利技术涉及人工智能
,尤其是涉及一种音色转换方法、装置、存储介质及计算机设备。

技术介绍

[0002]随着AI(ArtificialIntelligence,人工智能)技术在内容创作方面的快速发展,AI从只作为用于辅助内容创作的工具,到如今的AIGC(AI Generated Content,利用人工智能技术来生成内容方式)已经能够独立完成对话聊天、视频生成等创意性工作,进化速度十分明显。AIGC已经广泛应用于各类场景,例如音色复刻技术在短视频场景的应用,因此将音频转化为指定音色的音频变得尤为重要。
[0003]目前,通常将语音中的文本拆解为音素来训练算法,并利用训练后的算法来进行音色转换。然而,该算法是针对文本进行音色转换,文本无法获知原始语音中的语气,会导致音色转换后的语音中没有原始语音中的语气,从而导致音色转换的准确度较低。

技术实现思路

[0004]本专利技术提供了一种音色转换方法、装置、存储介质及计算机设备,主要在于能够提高音色的转换准确度。
[0005]根据本专利技术的第一个方面,提供一种音色转换方法,包括:
[0006]获取待转换音频数据和目标音色;
[0007]将所述待转换音频数据输入至预设语义预测模型中进行语义预测,得到所述待转换音频数据对应的语义信息向量;
[0008]确定所述目标音色对应的音色特征向量;
[0009]将所述语义信息向量和所述音色特征向量进行交叉处理,得到音色交叉特征向量;
[0010]将所述音色交叉特征向量输入至预设音色转换模型中进行音色转换,得到目标音频,其中,所述目标音频为带有所述目标音色和待转换音频数据中原始语气的音频。
[0011]优选地,在所述将所述待转换音频数据输入至预设语义预测模型中进行语义预测,得到所述待转换音频数据对应的语义信息向量之前,所述方法还包括:
[0012]构建预设初始语义预测模型;
[0013]获取样本音频数据,以及所述样本音频数据对应的实际语义信息向量;
[0014]将所述样本音频数据输入至所述预设初始语义预测模型中进行语义预测,得到预测语义信息向量;
[0015]基于所述实际语义信息向量和所述预测语义信息向量,构建所述预设初始语义预测模型对应的损失函数;
[0016]基于所述损失函数,对所述预设初始语义预测模型进行训练,构建所述预设语义预测模型。
[0017]优选地,所述预设语义预测模型为预设编码器,所述预设编码器包括注意力层和前馈神经网络层,所述将所述待转换音频数据输入至预设语义预测模型中进行语义预测,得到所述待转换音频数据对应的语义信息向量,包括:
[0018]确定所述待转换音频数据对应的频率特征向量;
[0019]将所述频率特征向量输入至所述注意力层进行特征提取,得到所述待转换音频数据对应的第一特征向量;
[0020]将所述第一特征向量和所述频率特征向量相加,得到所述待转换音频数据对应的第二特征向量;
[0021]将所述第二特征向量输入至所述前馈神经网络层进行特征提取,得到所述待转换音频数据对应的语义信息向量。
[0022]优选地,所述确定所述待转换音频数据对应的频率特征向量,包括:
[0023]对所述待转换音频数据依次进行预加重、分帧和加窗处理,得到处理后的音频数据;
[0024]对所述处理后的音频数据进行傅里叶变换,得到所述待转换音频数据对应的语谱图;
[0025]利用梅尔滤波器组对所述语谱图进行滤波,得到所述梅尔滤波器组输出的带有能量波的频谱图,并计算所述能量波的对数,得到对数频谱图;
[0026]对所述对数频谱图进行离散余弦变换,得到所述待转换音频数据对应的频率特征向量。
[0027]优选地,所述将所述语义信息向量和所述音色特征向量进行交叉处理,得到音色交叉特征向量,包括:
[0028]对所述语义信息向量和所述音色特征向量做交叉卷积处理,得到第一交叉向量;
[0029]对所述语义信息向量和所述音色特征向量做低阶交叉处理,得到第二交叉向量;
[0030]对所述语义信息向量和所述音色特征向量做交叉线性处理,得到第三交叉向量;
[0031]利用预设变换函数对所述第一交叉向量、所述第二交叉向量和所述第三交叉向量做变换处理,得到所述音色交叉特征向量。
[0032]优选地,所述将所述音色交叉特征向量输入至预设音色转换模型中进行音色转换,得到目标音频,包括:
[0033]获取高斯噪声,并确定针对所述高斯噪声进行去噪的噪声步数索引;
[0034]将所述高斯噪声、所述噪声步数索引和所述音色交叉特征向量输入至预设音色转换模型中进行音色转换,得到目标音频。
[0035]优选地,所述预设音色转换模型为预设声码器模型,所述预设声码器模型由位置编码层,降采样层和条件上采样层组成,所述将所述高斯噪声、所述噪声步数索引和所述音色交叉特征向量输入至预设音色转换模型中进行音色转换,得到目标音频,包括:
[0036]将所述噪声步数索引输入至所述位置编码层,通过所述位置编码层输出降噪特征向量;
[0037]将所述降噪特征向量与所述音色交叉特征向量相加,得到融合特征向量;
[0038]将所述高斯噪声输入至所述降采样层,得到噪音特征向量;
[0039]将所述噪音特征向量和所述融合特征向量输入至所述条件上采样层,得到所述目
标音频。
[0040]根据本专利技术的第二个方面,提供一种音色转换装置,包括:
[0041]获取单元,用于获取待转换音频数据和目标音色;
[0042]语义预测单元,用于将所述待转换音频数据输入至预设语义预测模型中进行语义预测,得到所述待转换音频数据对应的语义信息向量;
[0043]确定单元,用于确定所述目标音色对应的音色特征向量;
[0044]交叉处理单元,用于将所述语义信息向量和所述音色特征向量进行交叉处理,得到音色交叉特征向量;
[0045]音色转换单元,用于将所述音色交叉特征向量输入至预设音色转换模型中进行音色转换,得到目标音频,其中,所述目标音频为带有所述目标音色和待转换音频数据中原始语气的音频。
[0046]根据本专利技术的第三个方面,提供一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现以上音色转换方法。
[0047]根据本专利技术的第四个方面,提供一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现以上音色转换方法。
[0048]根据本专利技术提供的一种音色转换方法、装置、存储介质及计算机设备,与目前将语音中的文本拆解为音素来训练算法,并利用训练后的算法来进行音色转换的方式相比,本专利技术通过获取待转换音频数据和目标音色;并将所述待转换音频数据输入至预设语义预测模型中进行语义预测,得到所述待本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种音色转换方法,其特征在于,包括:获取待转换音频数据和目标音色;将所述待转换音频数据输入至预设语义预测模型中进行语义预测,得到所述待转换音频数据对应的语义信息向量;确定所述目标音色对应的音色特征向量;将所述语义信息向量和所述音色特征向量进行交叉处理,得到音色交叉特征向量;将所述音色交叉特征向量输入至预设音色转换模型中进行音色转换,得到目标音频,其中,所述目标音频为带有所述目标音色和待转换音频数据中原始语气的音频。2.根据权利要求1所述的方法,其特征在于,在所述将所述待转换音频数据输入至预设语义预测模型中进行语义预测,得到所述待转换音频数据对应的语义信息向量之前,所述方法还包括:构建预设初始语义预测模型;获取样本音频数据,以及所述样本音频数据对应的实际语义信息向量;将所述样本音频数据输入至所述预设初始语义预测模型中进行语义预测,得到预测语义信息向量;基于所述实际语义信息向量和所述预测语义信息向量,构建所述预设初始语义预测模型对应的损失函数;基于所述损失函数,对所述预设初始语义预测模型进行训练,构建所述预设语义预测模型。3.根据权利要求1所述的方法,其特征在于,所述预设语义预测模型为预设编码器,所述预设编码器包括注意力层和前馈神经网络层,所述将所述待转换音频数据输入至预设语义预测模型中进行语义预测,得到所述待转换音频数据对应的语义信息向量,包括:确定所述待转换音频数据对应的频率特征向量;将所述频率特征向量输入至所述注意力层进行特征提取,得到所述待转换音频数据对应的第一特征向量;将所述第一特征向量和所述频率特征向量相加,得到所述待转换音频数据对应的第二特征向量;将所述第二特征向量输入至所述前馈神经网络层进行特征提取,得到所述待转换音频数据对应的语义信息向量。4.根据权利要求3所述的方法,其特征在于,所述确定所述待转换音频数据对应的频率特征向量,包括:对所述待转换音频数据依次进行预加重、分帧和加窗处理,得到处理后的音频数据;对所述处理后的音频数据进行傅里叶变换,得到所述待转换音频数据对应的语谱图;利用梅尔滤波器组对所述语谱图进行滤波,得到所述梅尔滤波器组输出的带有能量波的频谱图,并计算所述能量波的对数,得到对数频谱图;对所述对数频谱图进行离散余弦变换,得到所述待转换音频数据对应的频率特征向量。5.根据权利要求1所述的方法,其特征在于,所述将所述语义信息向量和所述音色特征向量进行...

【专利技术属性】
技术研发人员:刘子威赵鑫程斌
申请(专利权)人:北京智美源素科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1