声音转换模型的更新方法及应用方法技术

技术编号：35457033 阅读：12 留言：0更新日期：2022-11-03 12:17

本申请公开了一种声音转换模型的更新方法及应用方法，涉及计算机技术领域，该方案无需花费大量时间和成本采集新音色的样本音频。该方法包括：步骤A：调用声音转换模型对第一音频信号和目标音色的第二音频信号进行特征处理得到第三音频信号；步骤B：调用声音转换模型对第一音频信号和第三音频信号进行特征处理得到重构的第一音频信号；步骤C：确定第一音频信号与重构的第一音频信号的接近程度参数是否满足终止条件；步骤D：若不满足终止条件则基于接近程度参数对声音转换模型的参数进行更新，并在更新后重复执行步骤A至步骤C直至确定满足终止条件；在满足终止条件的情况下获取最后一次更新的声音转换模型。后一次更新的声音转换模型。后一次更新的声音转换模型。

全部详细技术资料下载

【技术实现步骤摘要】
声音转换模型的更新方法及应用方法

[0001]本申请涉及计算机
，尤其涉及一种声音转换模型的更新方法及应用方法。

技术介绍

[0002]目前，基于声音转换(voice conversion，VC)算法训练得到的声音转换模型，可实现在语义内容不变的情况下对音色的转换。比如，基于VC算法训练得到的声音转换模型可实现将动漫人物A的声音转换为动漫人物B的音频，但原始声音中所具备的韵律信息(如顿挫、重读、语速等)却无法进行灵活调整。
[0003]由于在训练声音转换模型的过程中无法采集所有可能的音色的音频，所以声音转换模型难以实现对任意音色的转换功能，并且对于训练音频数据需要原始音色和目标音色内容一致或者对于训练数据的语义范围有限制，训练数据量大，成本高。
[0004]现有的，当需要增加新的目标音色的转换功能时，需采集新音色的样本音频重新对声音转换模型进行更新，以使更新后的声音转换模型支持对新音色的转换功能。然而，现有在对声音转换模型进行更新时，需要花费大量的时间和成本采集较多的新音色的样本音频。

技术实现思路

[0005]本申请提供一种声音转换模型的更新方法及应用方法，该方案无需花费大量时间和成本采集新音色的样本音频，即可以实现对输入的音频信号进行音色转换，生成具有目标音色的音频。
[0006]为达到上述目的，本申请采用如下技术方案：
[0007]第一方面，本申请提供一种声音转换模型的更新方法，包括：步骤A：调用声音转换模型对第一音频信号和第二音频信号进行特征处理，得到第三...

【技术保护点】

【技术特征摘要】
1.一种声音转换模型的更新方法，其特征在于，包括：步骤A：调用声音转换模型对第一音频信号和第二音频信号进行特征处理，得到第三音频信号；所述第二音频信号为目标音色的音频信号；步骤B：调用所述声音转换模型对所述第一音频信号和所述第三音频信号进行特征处理，得到重构的第一音频信号；步骤C：确定所述第一音频信号与所述重构的第一音频信号的接近程度参数是否满足终止条件；步骤D：在确定所述接近程度参数不满足所述终止条件的情况下，基于所述接近程度参数对所述声音转换模型的参数进行更新，并在更新后重复执行步骤A至步骤C，直至确定所述接近程度参数满足所述终止条件；在确定所述接近程度参数满足所述终止条件的情况下，获取最后一次更新的声音转换模型。2.根据权利要求1所述的方法，其特征在于，所述声音转换模型由预设声音识别模型、第一编码器、第二编码器和解码器构成，所述调用声音转换模型对第一音频信号和第二音频信号进行特征处理，得到第三音频信号，包括：通过所述预设声音识别模型提取所述第一音频信号的第一语义内容，并通过所述第一编码器提取所述第一音频信号的至少一个第一韵律特征向量，且通过所述第二编码器提取所述第二音频信号的第二音色特征向量；通过所述解码器对所述第一语义内容、所述至少一个第一韵律特征向量和所述第二音色特征向量进行音频合成处理，得到所述第三音频信号；所述调用所述声音转换模型对所述第一音频信号和所述第三音频信号进行特征处理，得到重构的第一音频信号，包括：通过所述预设声音识别模型提取所述第三音频信号的第二语义内容，并通过所述第一编码器提取所述第三音频信号的至少一个第二韵律特征向量，且通过所述第二编码器提取所述第一音频信号的第一音色特征向量；通过所述解码器对所述第二语义内容、所述至少一个第二韵律特征向量和所述第一音色特征向量进行音频合成处理，得到所述重构的第一音频信号。3.根据权利要求2所述的方法，其特征在于，所述接近程度参数至少包括所述第一音频信号与所述重构的第一音频信号的第一损失值，所述确定所述第一音频信号与所述重构的第一音频信号的接近程度参数是否满足终止条件，包括：确定所述第一损失值是否达到第一预设条件；若所述第一损失值达到所述第一预设条件，则确定所述接近程度参数满足所述终止条件。4.根据权利要求3所述的方法，其特征在于，所述接近程度参数还包括所述第一语义内容和所述第二语义内容的第二损失值、所述至少一个第一韵律特征向量和所述至少一个第二韵律特征向量的第三损失值以及所述第一音色特征向量和第三音色特征向量的第四损失值；所述第三音色特征向量通过调用所述第二编码器对所述重构的第一音频信号进行特征提取得到，所述方法还包括：确定所述第一损失值是否达到所述第一预设条件，确定所述第二损失值是否达到第二预设条件，并确定所述第三损失值是否达到第三预设条件，且确定所述第四损失值是否达到第四预设条件；
若所述第一损失值达到所述第一预设条件，所述第二损失值达到所述第二预设条件，所述第三损失值达到所述第三预设条件，且所述第四损失值达到所述第四预设条件，则确定所述接近程度参数满足所述终止条件。5.根据权利要求2所述的方法，其特征在于，所述第二编码器为变分自编码器，所述方法还包括：步骤E：调用所述变分自编码器对所述第一音频信号进行特征处理，得到高维高斯空间中的第四音色特征向量，并通过KL散度计算所述高维高斯空间中的第四音色特征向量与标准高维高斯概率分布的第五损失值；步骤F：确定所述第五损失值是否满足第五预设条件；步骤G：在确定所述第五损失值不满足所述第五预设条件的情况下，基于所述第五损失值对所述变分自编码器的参数进行更新，并在更新后重复执行步骤E至步骤F，直至所述第五损失值满足所述第五预设条件；在确定所述第五损失值满足所述第五预设条件的情况下，获取最后一次更新的所述变分自编码器，并基于更...

【专利技术属性】
技术研发人员：王斌，
申请(专利权)人：上海墨舞科技有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人