音色转换方法、装置、存储介质及计算机设备制造方法及图纸

技术编号：38009582 阅读：5 留言：0更新日期：2023-06-30 10:29

本发明专利技术公开了一种音色转换方法、装置、存储介质及计算机设备，涉及人工智能技术领域，主要在于能够提高音色的转换准确度。其中方法包括：获取待转换音频数据和目标音色；将待转换音频数据输入至预设语义预测模型中进行语义预测，得到待转换音频数据对应的语义信息向量；确定目标音色对应的音色特征向量；将语义信息向量和音色特征向量进行交叉处理，得到音色交叉特征向量；将音色交叉特征向量输入至预设音色转换模型中进行音色转换，得到目标音频，其中，目标音频为带有目标音色和待转换音频数据中原始语气的音频。本发明专利技术适用于对音色进行转换。进行转换。进行转换。

全部详细技术资料下载

【技术实现步骤摘要】
音色转换方法、装置、存储介质及计算机设备

[0001]本专利技术涉及人工智能
，尤其是涉及一种音色转换方法、装置、存储介质及计算机设备。

技术介绍

[0002]随着AI(ArtificialIntelligence，人工智能)技术在内容创作方面的快速发展，AI从只作为用于辅助内容创作的工具，到如今的AIGC(AI Generated Content，利用人工智能技术来生成内容方式)已经能够独立完成对话聊天、视频生成等创意性工作，进化速度十分明显。AIGC已经广泛应用于各类场景，例如音色复刻技术在短视频场景的应用，因此将音频转化为指定音色的音频变得尤为重要。
[0003]目前，通常将语音中的文本拆解为音素来训练算法，并利用训练后的算法来进行音色转换。然而，该算法是针对文本进行音色转换，文本无法获知原始语音中的语气，会导致音色转换后的语音中没有原始语音中的语气，从而导致音色转换的准确度较低。

技术实现思路

[0004]本专利技术提供了一种音色转换方法、装置、存储介质及计算机设备，主要在于能够提高音色的转换准确度。
[0005]根据本专利技术的第一个方面，提供一种音色转换方法，包括：
[0006]获取待转换音频数据和目标音色；
[0007]将所述待转换音频数据输入至预设语义预测模型中进行语义预测，得到所述待转换音频数据对应的语义信息向量；
[0008]确定所述目标音色对应的音色特征向量；
[0009]将所述语义信息向量和所述音色特征向量进行交叉处理，得到...

【技术保护点】

【技术特征摘要】
1.一种音色转换方法，其特征在于，包括：获取待转换音频数据和目标音色；将所述待转换音频数据输入至预设语义预测模型中进行语义预测，得到所述待转换音频数据对应的语义信息向量；确定所述目标音色对应的音色特征向量；将所述语义信息向量和所述音色特征向量进行交叉处理，得到音色交叉特征向量；将所述音色交叉特征向量输入至预设音色转换模型中进行音色转换，得到目标音频，其中，所述目标音频为带有所述目标音色和待转换音频数据中原始语气的音频。2.根据权利要求1所述的方法，其特征在于，在所述将所述待转换音频数据输入至预设语义预测模型中进行语义预测，得到所述待转换音频数据对应的语义信息向量之前，所述方法还包括：构建预设初始语义预测模型；获取样本音频数据，以及所述样本音频数据对应的实际语义信息向量；将所述样本音频数据输入至所述预设初始语义预测模型中进行语义预测，得到预测语义信息向量；基于所述实际语义信息向量和所述预测语义信息向量，构建所述预设初始语义预测模型对应的损失函数；基于所述损失函数，对所述预设初始语义预测模型进行训练，构建所述预设语义预测模型。3.根据权利要求1所述的方法，其特征在于，所述预设语义预测模型为预设编码器，所述预设编码器包括注意力层和前馈神经网络层，所述将所述待转换音频数据输入至预设语义预测模型中进行语义预测，得到所述待转换音频数据对应的语义信息向量，包括：确定所述待转换音频数据对应的频率特征向量；将所述频率特征向量输入至所述注意力层进行特征提取，得到所述待转换音频数据对应的第一特征向量；将所述第一特征向量和所述频率特征向量相加，得到所述待转换音频数据对应的第二特征向量；将所述第二特征向量输入至所述前馈神经网络层进行特征提取，得到所述待转换音频数据对应的语义信息向量。4.根据权利要求3所述的方法，其特征在于，所述确定所述待转换音频数据对应的频率特征向量，包括：对所述待转换音频数据依次进行预加重、分帧和加窗处理，得到处理后的音频数据；对所述处理后的音频数据进行傅里叶变换，得到所述待转换音频数据对应的语谱图；利用梅尔滤波器组对所述语谱图进行滤波，得到所述梅尔滤波器组输出的带有能量波的频谱图，并计算所述能量波的对数，得到对数频谱图；对所述对数频谱图进行离散余弦变换，得到所述待转换音频数据对应的频率特征向量。5.根据权利要求1所述的方法，其特征在于，所述将所述语义信息向量和所述音色特征向量进行...

【专利技术属性】
技术研发人员：刘子威，赵鑫，程斌，
申请(专利权)人：北京智美源素科技有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人