语音转换方法、装置、电子设备和存储介质制造方法及图纸

技术编号:32647818 阅读:53 留言:0更新日期:2022-03-12 18:33
本发明专利技术提供一种语音转换方法、装置、电子设备和存储介质,其中方法包括:确定源发音人语音的发音人无关特征;基于样本语音的发音人无关特征和声学特征,对所述源发音人语音的发音人无关特征进行声学转换,得到目标声学特征,所述样本语音中的部分为类人声音频;基于所述目标声学特征进行语音合成,得到目标发音人的目标语音。本发明专利技术提供的方法、装置、电子设备和存储介质,通过在样本语音中添加类人声音频,使得样本语音能够覆盖人声各声部的音域,由此能够学习到更广音域下语音的发音人无关特征和声学特征,因此能够克服跨音域转换时的音域匹配问题,保证语音转换尤其是跨音频转换的转换效果。的转换效果。的转换效果。

【技术实现步骤摘要】
语音转换方法、装置、电子设备和存储介质


[0001]本专利技术涉及计算机
,尤其涉及一种语音转换方法、装置、电子设备和存储介质。

技术介绍

[0002]歌声转换是一种对源发音人的歌声进行转换,使其具有目标发音人的音色,同时能够保持歌声内容不变的技术。
[0003]目前常见的歌声转换方法即any to one的歌声转换方法,是指将任意的源发音人歌声转换成特定的目标发音人音色的方法,该方法有着数据获取成本低、实用性高、应用范围广等优势。
[0004]但是上述方法中,不同源发音人与特定的目标发音人的歌唱音域之间常常存在较大差距,例如源发音人歌声数据音域广、音调高,而目标发音人训练数据音域窄、音调低,由此转换后的歌声高音会出现哑、鲁棒性差等情况,跨音域转换效果不佳。

技术实现思路

[0005]本专利技术提供一种语音转换方法、装置、电子设备和存储介质,用以解决现有技术中跨音域转换效果不佳的问题。
[0006]本专利技术提供一种语音转换方法,包括:
[0007]确定源发音人语音的发音人无关特征;
[0008]基于样本语音的发音人无关特征和声学特征,对所述源发音人语音的发音人无关特征进行声学转换,得到目标声学特征,所述样本语音中的部分为类人声音频;
[0009]基于所述目标声学特征进行语音合成,得到目标发音人的目标语音。
[0010]根据本专利技术提供的一种语音转换方法,所述类人声音频基于如下步骤确定:
[0011]确定类人声源;
[0012]获取所述类人声源在人声全音域的单轨单音数据,作为所述类人声音频。
[0013]根据本专利技术提供的一种语音转换方法,所述发音人无关特征包括表现力特征,所述表现力特征基于对应语音中多个频段的频率响应幅度确定。
[0014]根据本专利技术提供的一种语音转换方法,所述表现力特征包括多个频段的频率响应特征,所述频率响应特征基于对应频段的幅度谱确定。
[0015]根据本专利技术提供的一种语音转换方法,所述基于所述目标声学特征进行语音合成,得到目标发音人的目标语音,包括:
[0016]基于声码器,对所述目标声学特征进行语音合成,得到目标发音人的目标语音,所述声码器包括高频建模部分。
[0017]根据本专利技术提供的一种语音转换方法,所述基于样本语音的发音人无关特征和声学特征,对所述源发音人语音的发音人无关特征进行声学转换,得到目标声学特征,包括:
[0018]基于转换模型,对所述源发音人语音的发音人无关特征进行声学转换,得到目标
声学特征;
[0019]所述转换模型基于如下步骤训练得到:
[0020]基于所述样本语音的发音人标识、发音人无关特征和声学特征,训练多人转换模型;
[0021]在所述多人转换模型的基础上,应用目标发音人语音的发音人无关特征和声学特征进行训练,得到所述转换模型。
[0022]根据本专利技术提供的一种语音转换方法,所述在所述多人转换模型的基础上,应用目标发音人语音的发音人无关特征和声学特征进行训练,得到所述转换模型,包括:
[0023]去除所述多人转换模型中用于编码发音人标识的部分,得到初始模型;
[0024]在所述多人转换模型的基础上,应用目标发音人语音的发音人无关特征和声学特征进行训练,得到所述转换模型。
[0025]本专利技术还提供一种语音转换装置,包括:
[0026]特征确定单元,用于确定源发音人语音的发音人无关特征;
[0027]声学转换单元,用于基于样本语音的发音人无关特征和声学特征,对所述源发音人语音的发音人无关特征进行声学转换,得到目标声学特征,所述样本语音中的部分为类人声音频;
[0028]语音合成单元,用于基于所述目标声学特征进行语音合成,得到目标发音人的目标语音。
[0029]本专利技术还提供一种电子设备,包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现如上述任一种所述语音转换方法的步骤。
[0030]本专利技术还提供一种非暂态计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现如上述任一种所述语音转换方法的步骤。
[0031]本专利技术提供的语音转换方法、装置、电子设备和存储介质,通过在样本语音中添加类人声音频,使得样本语音能够覆盖人声各声部的音域,由此能够学习到更广音域下语音的发音人无关特征和声学特征,因此能够克服跨音域转换时的音域匹配问题,保证语音转换尤其是跨音频转换的转换效果。
附图说明
[0032]为了更清楚地说明本专利技术或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图简要地说明,显而易见地,下面描述中的附图是本专利技术的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
[0033]图1是本专利技术提供的语音转换方法的流程示意图;
[0034]图2是本专利技术提供的转换模型的训练方法的流程示意图;
[0035]图3是本专利技术提供的多人转换模型的结构示意图;
[0036]图4是本专利技术提供的语音转换装置的结构示意图;
[0037]图5是本专利技术提供的电子设备的结构示意图。
具体实施方式
[0038]为使本专利技术的目的、技术方案和优点更加清楚,下面将结合本专利技术中的附图,对本专利技术中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本专利技术一部分实施例,而不是全部的实施例。基于本专利技术中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本专利技术保护的范围。
[0039]语音转换是一种对源发音人的语音进行转换,使其具有目标发音人的音色,同时能够保持语音内容不变的技术,歌声转换属于语音转换中的一种。
[0040]目前常用于歌声转换的any to one方法,受限于目标发音人自身的音域、歌唱水平,以及歌声录制成本等因素,源发音人与目标发音人的歌唱音域之间常常存在较大差距,例如源发音人歌声数据音域广、音调高,而目标发音人训练数据音域窄、音调低,由此转换后的歌声高音会出现哑、鲁棒性差等情况,跨音域转换效果不佳。
[0041]针对这一问题,本专利技术实施例提供一种语音转换方法,该方法可应用于演讲、主持等场景下的语音转换,也可以应用于日常说话的普通语音的语音转换,尤其可以应用于歌声转换,且具体在应用于歌声转换,或者其他需要跨音域转换的语音转换场景下时,能够有效解决音域匹配问题。
[0042]图1是本专利技术提供的语音转换方法的流程示意图,如图1所示,该方法包括:
[0043]步骤110,确定源发音人语音的发音人无关特征。
[0044]此处,源发音人语音即源发音人的语音,源发音人语音可以是通过音频采集设备直接录制的,也可以是通过互联网或者其他途径下载得到的,本专利技术实施例对此不作具体限定。
[0045]源发音人语音为语音转换提本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种语音转换方法,其特征在于,包括:确定源发音人语音的发音人无关特征;基于样本语音的发音人无关特征和声学特征,对所述源发音人语音的发音人无关特征进行声学转换,得到目标声学特征,所述样本语音中的部分为类人声音频;基于所述目标声学特征进行语音合成,得到目标发音人的目标语音。2.根据权利要求1所述的语音转换方法,其特征在于,所述类人声音频基于如下步骤确定:确定类人声源;获取所述类人声源在人声全音域的单轨单音数据,作为所述类人声音频。3.根据权利要求1所述的语音转换方法,其特征在于,所述发音人无关特征包括表现力特征,所述表现力特征基于对应语音中多个频段的频率响应幅度确定。4.根据权利要求3所述的语音转换方法,其特征在于,所述表现力特征包括多个频段的频率响应特征,所述频率响应特征基于对应频段的幅度谱确定。5.根据权利要求1所述的语音转换方法,其特征在于,所述基于所述目标声学特征进行语音合成,得到目标发音人的目标语音,包括:基于声码器,对所述目标声学特征进行语音合成,得到目标发音人的目标语音,所述声码器包括高频建模部分。6.根据权利要求1至5中任一项所述的语音转换方法,其特征在于,所述基于样本语音的发音人无关特征和声学特征,对所述源发音人语音的发音人无关特征进行声学转换,得到目标声学特征,包括:基于转换模型,对所述源发音人语音的发音人无关特征进行声学转换,得到目标声学特征;所述转换模型基...

【专利技术属性】
技术研发人员:包顺江源胡亚军刘利娟
申请(专利权)人:科大讯飞股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1