声音转换模型的更新方法及应用方法技术

技术编号:35457033 阅读:12 留言:0更新日期:2022-11-03 12:17
本申请公开了一种声音转换模型的更新方法及应用方法,涉及计算机技术领域,该方案无需花费大量时间和成本采集新音色的样本音频。该方法包括:步骤A:调用声音转换模型对第一音频信号和目标音色的第二音频信号进行特征处理得到第三音频信号;步骤B:调用声音转换模型对第一音频信号和第三音频信号进行特征处理得到重构的第一音频信号;步骤C:确定第一音频信号与重构的第一音频信号的接近程度参数是否满足终止条件;步骤D:若不满足终止条件则基于接近程度参数对声音转换模型的参数进行更新,并在更新后重复执行步骤A至步骤C直至确定满足终止条件;在满足终止条件的情况下获取最后一次更新的声音转换模型。后一次更新的声音转换模型。后一次更新的声音转换模型。

【技术实现步骤摘要】
声音转换模型的更新方法及应用方法


[0001]本申请涉及计算机
,尤其涉及一种声音转换模型的更新方法及应用方法。

技术介绍

[0002]目前,基于声音转换(voice conversion,VC)算法训练得到的声音转换模型,可实现在语义内容不变的情况下对音色的转换。比如,基于VC算法训练得到的声音转换模型可实现将动漫人物A的声音转换为动漫人物B的音频,但原始声音中所具备的韵律信息(如顿挫、重读、语速等)却无法进行灵活调整。
[0003]由于在训练声音转换模型的过程中无法采集所有可能的音色的音频,所以声音转换模型难以实现对任意音色的转换功能,并且对于训练音频数据需要原始音色和目标音色内容一致或者对于训练数据的语义范围有限制,训练数据量大,成本高。
[0004]现有的,当需要增加新的目标音色的转换功能时,需采集新音色的样本音频重新对声音转换模型进行更新,以使更新后的声音转换模型支持对新音色的转换功能。然而,现有在对声音转换模型进行更新时,需要花费大量的时间和成本采集较多的新音色的样本音频。

技术实现思路

[0005]本申请提供一种声音转换模型的更新方法及应用方法,该方案无需花费大量时间和成本采集新音色的样本音频,即可以实现对输入的音频信号进行音色转换,生成具有目标音色的音频。
[0006]为达到上述目的,本申请采用如下技术方案:
[0007]第一方面,本申请提供一种声音转换模型的更新方法,包括:步骤A:调用声音转换模型对第一音频信号和第二音频信号进行特征处理,得到第三音频信号;第二音频信号为目标音色的音频信号;步骤B:调用声音转换模型对第一音频信号和第三音频信号进行特征处理,得到重构的第一音频信号;步骤C:确定第一音频信号与重构的第一音频信号的接近程度参数是否满足终止条件;步骤D:在确定接近程度参数不满足终止条件的情况下,基于接近程度参数对声音转换模型的参数进行更新,并在更新后重复执行步骤A至步骤C,直至确定接近程度参数满足终止条件;在确定接近程度参数满足终止条件的情况下,获取最后一次更新的声音转换模型。
[0008]本申请提供的技术方案中,为了实现对输入音色转换为目标音色的功能,可以调用声音转换模型对第一音频信号和目标音色对应的第二音频信号进行特征处理得到第三音频信号,然后可以基于得到的第三音频信号和第一音频信号重构第一音频信号,之后可以基于第一音频信号与重构的第一音频信号的接近程度参数对声音转换模型的参数进行更新,反复执行上述步骤直至接近程度参数满足终止条件,在确定所述接近程度参数满足所述终止条件的情况下,获取最后一次更新的声音转换模型。当第一音频信号与重构的第
一音频信号的接近程度参数满足终止条件时,表示当前声音转换模型可以很好的实现对第一音频信号的重构,也即是当前声音转换模型对声音转换过程中的各种特征(包括目标音色)有很好的捕获能力,可以实现对目标音色的转换功能。可以看出,本申请提供的技术方案中,通过对第一音频信号进行重构,并基于第一音频信号与重构的第一音频信号的接近程度参数对声音转换模型进行更新,可以实现对输入的音频信号进行音色转换,生成具有目标音色的音频,同时可以实现将输入的音频信号的音色转换成新增目标音色的转换功能,这样,无需花费大量的时间和成本采集较多的新音色的样本音频。
[0009]而本申请实施例中,能够实现在转换音色的同时按照用户的需求对输出声音的韵律特征进行有针对性的调整,从而能够进一步提升直播场景中声音的丰富性和表达力。
[0010]可选的,在一种可能的设计方式中,声音转换模型由预设声音识别模型、第一编码器、第二编码器和解码器构成,上述“调用声音转换模型对第一音频信号和第二音频信号进行特征处理,得到第三音频信号”可以包括:通过预设声音识别模型提取第一音频信号的第一语义内容,并通过第一编码器提取第一音频信号的至少一个第一韵律特征向量,且通过第二编码器提取第二音频信号的第二音色特征向量;通过解码器对第一语义内容、至少一个第一韵律特征向量和第二音色特征向量进行音频合成处理,得到第三音频信号;
[0011]调用声音转换模型对第一音频信号和第三音频信号进行特征处理,得到重构的第一音频信号可以包括:通过预设声音识别模型提取第三音频信号的第二语义内容,并通过第一编码器提取第三音频信号的至少一个第二韵律特征向量,且通过第二编码器提取第一音频信号的第一音色特征向量;通过解码器对第二语义内容、至少一个第二韵律特征向量和第一音色特征向量进行音频合成处理,得到重构的第一音频信号。
[0012]可选的,在另一种可能的设计方式中,接近程度参数至少包括第一音频信号与重构的第一音频信号的第一损失值,上述“确定第一音频信号与重构的第一音频信号的接近程度参数是否满足终止条件”可以包括:确定第一损失值是否达到第一预设条件;若第一损失值达到第一预设条件,则确定接近程度参数满足终止条件。
[0013]可选的,在另一种可能的设计方式中,接近程度参数还包括第一语义内容和第二语义内容的第二损失值、至少一个第一韵律特征向量和至少一个第二韵律特征向量的第三损失值以及第一音色特征向量和第三音色特征向量的第四损失值;第三音色特征向量通过调用第二编码器对重构的第一音频信号进行特征提取得到;
[0014]本申请提供的方法还可以包括:
[0015]确定第一损失值是否达到第一预设条件,确定第二损失值是否达到第二预设条件,并确定第三损失值是否达到第三预设条件,且确定第四损失值是否达到第四预设条件;
[0016]若第一损失值达到第一预设条件,第二损失值达到第二预设条件,第三损失值达到第三预设条件,且第四损失值达到第四预设条件,则确定接近程度参数满足终止条件。
[0017]可选的,在另一种可能的设计方式中,第二编码器为变分自编码器,本申请提供的声音转换模型的更新方法还可以包括:步骤E:调用变分自编码器对第一音频信号进行特征处理,得到高维高斯空间中的第四音色特征向量,并通过KL散度计算高维高斯空间中的第四音色特征向量与标准高维高斯概率分布的第五损失值;步骤F:确定第五损失值是否满足第五预设条件;步骤G:在确定第五损失值不满足第五预设条件的情况下,基于第五损失值对变分自编码器的参数进行更新,并在更新后重复执行步骤E至步骤F,直至第五损失值满
足第五预设条件;在确定第五损失值满足第五预设条件的情况下,获取最后一次更新的变分自编码器,并基于更新的变分自编码器对声音转换模型进行更新。
[0018]可选的,在另一种可能的设计方式中,至少一个第一韵律特征向量至少用于表征第一音频信号的基频、音量、语速以及顿挫中的至少一个,至少一个第二韵律特征向量至少用于表征第三音频信号的基频、音量、语速以及顿挫中的至少一个。
[0019]可选的,在另一种可能的设计方式中,基于接近程度参数对声音转换模型的参数进行更新可以包括:基于接近程度参数,结合梯度下降法则、反向传播算法和链式法则对声音转换模型的参数进行更新。
[0020]第二方面,本申请提供一种声音转换模本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种声音转换模型的更新方法,其特征在于,包括:步骤A:调用声音转换模型对第一音频信号和第二音频信号进行特征处理,得到第三音频信号;所述第二音频信号为目标音色的音频信号;步骤B:调用所述声音转换模型对所述第一音频信号和所述第三音频信号进行特征处理,得到重构的第一音频信号;步骤C:确定所述第一音频信号与所述重构的第一音频信号的接近程度参数是否满足终止条件;步骤D:在确定所述接近程度参数不满足所述终止条件的情况下,基于所述接近程度参数对所述声音转换模型的参数进行更新,并在更新后重复执行步骤A至步骤C,直至确定所述接近程度参数满足所述终止条件;在确定所述接近程度参数满足所述终止条件的情况下,获取最后一次更新的声音转换模型。2.根据权利要求1所述的方法,其特征在于,所述声音转换模型由预设声音识别模型、第一编码器、第二编码器和解码器构成,所述调用声音转换模型对第一音频信号和第二音频信号进行特征处理,得到第三音频信号,包括:通过所述预设声音识别模型提取所述第一音频信号的第一语义内容,并通过所述第一编码器提取所述第一音频信号的至少一个第一韵律特征向量,且通过所述第二编码器提取所述第二音频信号的第二音色特征向量;通过所述解码器对所述第一语义内容、所述至少一个第一韵律特征向量和所述第二音色特征向量进行音频合成处理,得到所述第三音频信号;所述调用所述声音转换模型对所述第一音频信号和所述第三音频信号进行特征处理,得到重构的第一音频信号,包括:通过所述预设声音识别模型提取所述第三音频信号的第二语义内容,并通过所述第一编码器提取所述第三音频信号的至少一个第二韵律特征向量,且通过所述第二编码器提取所述第一音频信号的第一音色特征向量;通过所述解码器对所述第二语义内容、所述至少一个第二韵律特征向量和所述第一音色特征向量进行音频合成处理,得到所述重构的第一音频信号。3.根据权利要求2所述的方法,其特征在于,所述接近程度参数至少包括所述第一音频信号与所述重构的第一音频信号的第一损失值,所述确定所述第一音频信号与所述重构的第一音频信号的接近程度参数是否满足终止条件,包括:确定所述第一损失值是否达到第一预设条件;若所述第一损失值达到所述第一预设条件,则确定所述接近程度参数满足所述终止条件。4.根据权利要求3所述的方法,其特征在于,所述接近程度参数还包括所述第一语义内容和所述第二语义内容的第二损失值、所述至少一个第一韵律特征向量和所述至少一个第二韵律特征向量的第三损失值以及所述第一音色特征向量和第三音色特征向量的第四损失值;所述第三音色特征向量通过调用所述第二编码器对所述重构的第一音频信号进行特征提取得到,所述方法还包括:确定所述第一损失值是否达到所述第一预设条件,确定所述第二损失值是否达到第二预设条件,并确定所述第三损失值是否达到第三预设条件,且确定所述第四损失值是否达到第四预设条件;
若所述第一损失值达到所述第一预设条件,所述第二损失值达到所述第二预设条件,所述第三损失值达到所述第三预设条件,且所述第四损失值达到所述第四预设条件,则确定所述接近程度参数满足所述终止条件。5.根据权利要求2所述的方法,其特征在于,所述第二编码器为变分自编码器,所述方法还包括:步骤E:调用所述变分自编码器对所述第一音频信号进行特征处理,得到高维高斯空间中的第四音色特征向量,并通过KL散度计算所述高维高斯空间中的第四音色特征向量与标准高维高斯概率分布的第五损失值;步骤F:确定所述第五损失值是否满足第五预设条件;步骤G:在确定所述第五损失值不满足所述第五预设条件的情况下,基于所述第五损失值对所述变分自编码器的参数进行更新,并在更新后重复执行步骤E至步骤F,直至所述第五损失值满足所述第五预设条件;在确定所述第五损失值满足所述第五预设条件的情况下,获取最后一次更新的所述变分自编码器,并基于更...

【专利技术属性】
技术研发人员:王斌
申请(专利权)人:上海墨舞科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1