一种语音转换的方法、装置及电子设备制造方法及图纸

技术编号:30018569 阅读:19 留言:0更新日期:2021-09-11 06:32
本发明专利技术提供了一种语音转换的方法、装置及电子设备,其中,该方法包括:确定语音识别模型、目标用户的变声模型、声码器模型;基于语音识别模型提取源音频数据的特征向量,源音频数据的特征向量不存在声调标注;将源音频数据的特征向量转换为目标用户的声学特征;将目标用户的声学特征转换为目标用户的音频信号。通过本发明专利技术实施例提供的语音转换的方法、装置及电子设备,基于未标注声调的音频数据训练语音识别模型,使得语音识别模型所提取出的源音频数据的特征向量不存在声调信息,从而可以弱化训练阶段与转换阶段之间的声调差异,能够将源音频数据转换为与目标用户更接近的声学特征,从而提高了转换后的音频与所需音频之间的相似度。度。度。

【技术实现步骤摘要】
一种语音转换的方法、装置及电子设备


[0001]本专利技术涉及语音处理
,具体而言,涉及一种语音转换的方法、装置、电子设备及计算机可读存储介质。

技术介绍

[0002]变声技术指的是把某人的原始声音转换为其他人的特定声音,其保留原始语音信号的语义内容,但能够改变说话人的声音特性,使某人的声音听起来像另外一个人的声音。变声技术可以是男声、女声之间的转换,不同年龄层次之间的转换等,也可以将说话人A的声音转换为说话人B的声音。
[0003]传统变声技术需要对平行语料实现对齐,然后再进行音色转换。这种处理方式需要收集内容相同的音频语料,用对齐后的频谱特征训练转换模型;该方式得到的变声效果不佳,且无法满足一些有实时性需求的应用场景。
[0004]此外,部分方案建立语音识别的隐层特征与语音合成特征之间的变声模型,但该方案中采用的隐层特征中包含源说话人的部分信息,导致转换后的声音仍然保留了源说话人的特性,转换后的声音与目标声音相似度降低。

技术实现思路

[0005]为解决现有存在的技术问题,本专利技术实施例提供一种语音转换的方法、装置、电子设备及计算机可读存储介质。
[0006]第一方面,本专利技术实施例提供了一种语音转换的方法,包括:
[0007]确定语音识别模型,确定目标用户的变声模型,并确定声码器模型;所述语音识别模型是基于文本标注不存在声调标注的音频数据训练得到的,所述变声模型是基于所述语音识别模型所提取出的音频数据的特征向量训练得到的;
[0008]获取源用户的源音频数据,基于所述语音识别模型提取所述源音频数据的特征向量,所述源音频数据的特征向量不存在声调标注;
[0009]基于所述变声模型将所述源音频数据的特征向量转换为所述目标用户的声学特征;
[0010]将所述目标用户的声学特征输入至所述声码器模型,将所述目标用户的声学特征转换为所述目标用户的音频信号。
[0011]第二方面,本专利技术实施例还提供了一种语音转换的装置,包括:
[0012]确定模块,用于确定语音识别模型,确定目标用户的变声模型,并确定声码器模型;所述语音识别模型是基于文本标注不存在声调标注的音频数据训练得到的,所述变声模型是基于所述语音识别模型所提取出的音频数据的特征向量训练得到的;
[0013]特征提取模块,用于获取源用户的源音频数据,基于所述语音识别模型提取所述源音频数据的特征向量,所述源音频数据的特征向量不存在声调标注;
[0014]转换模块,用于基于所述变声模型将所述源音频数据的特征向量转换为所述目标
用户的声学特征;
[0015]声码器模块,用于将所述目标用户的声学特征输入至所述声码器模型,将所述目标用户的声学特征转换为所述目标用户的音频信号。
[0016]第三方面,本专利技术实施例提供了一种电子设备,包括总线、收发器、存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述收发器、所述存储器和所述处理器通过所述总线相连,所述计算机程序被所述处理器执行时实现上述任意一项所述的语音转换的方法中的步骤。
[0017]第四方面,本专利技术实施例还提供了一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现上述任意一项所述的语音转换的方法中的步骤。
[0018]本专利技术实施例提供的语音转换的方法、装置、电子设备及计算机可读存储介质,基于未标注声调的音频数据训练语音识别模型,使得语音识别模型所提取出的源音频数据的特征向量不存在声调信息,从而可以弱化训练阶段与转换阶段之间的声调差异,能够将源音频数据转换为与目标用户更接近的声学特征,从而提高了转换后的音频与所需音频之间的相似度,提高了转换效果。
附图说明
[0019]为了更清楚地说明本专利技术实施例或
技术介绍
中的技术方案,下面将对本专利技术实施例或
技术介绍
中所需要使用的附图进行说明。
[0020]图1示出了本专利技术实施例所提供的一种语音转换的方法的流程图;
[0021]图2示出了本专利技术实施例所提供的语音转换的方法中,模型处理过程的一种示意图;
[0022]图3示出了本专利技术实施例所提供的变声模型的一种结构示意图;
[0023]图4示出了本专利技术实施例所提供的使用该语音转换方法的一种详细示意图;
[0024]图5示出了本专利技术实施例所提供的一种语音转换的装置的结构示意图;
[0025]图6示出了本专利技术实施例所提供的一种用于执行语音转换的方法的电子设备的结构示意图。
具体实施方式
[0026]下面结合本专利技术实施例中的附图对本专利技术实施例进行描述。
[0027]图1示出了本专利技术实施例所提供的一种语音转换的方法的流程图。如图1所示,该方法包括:
[0028]步骤101:确定语音识别模型,确定目标用户的变声模型,并确定声码器模型;该语音识别模型是基于文本标注不存在声调标注的音频数据训练得到的,该变声模型是基于该语音识别模型所提取出的音频数据的特征向量训练得到的。
[0029]本专利技术实施例中,预先确定语音识别模型、变声模型和声码器模型。该语音识别模型用于提取出音频数据中的特征向量;变声模型用于将音频数据中的特征向量转换为相应的声学特征,例如梅尔(Mel)谱特征等;声码器模型用于将声学特征转换为相应的音频信号。其中,该变声模型为目标用户对应的模型,即变声模型可以将特征向量转换为具有目标
用户特点的声学特征,进而使得声码器模型生成的音频信号具有目标用户的特点,从而可以将其他用户(如源用户)的音频数据转换为具有目标用户特点的音频信号。
[0030]由于传统语音识别模型所提取出的特征仍然保留了源用户的特性,并且,传统变声模型在训练阶段的输入与转换阶段的输入是不同的,导致变声后的音频与目标音频相似度较低。具体是因为,变声模型在训练阶段的输入是目标用户的音频数据,而在转换阶段时变声模型的输入是源用户的音频数据,不同的输入很难使得变声模型的输出相同。专利技术人从实验结果中发现,如果源用户刻意模仿目标用户的特色发音,变声后的音频与目标用户具有极高的相似度,明显提升了整体听感效果。但这要求每个使用者(即源用户)都去模仿目标用户的说话方式,会增加使用难度;并且很多时候是转换已经录制好的音频,也不能实现模仿目标用户。此外,通过对比,专利技术人发现,变声后的音频与所需的目标用户的音频之间的主要差异是声调不同,故本专利技术实施例通过优化特征向量中的声调信息,以尽量缩小训练阶段和转换阶段之间的差异。
[0031]具体地,本专利技术实施例中的语音识别模型是基于文本标注不存在声调标注的音频数据训练得到的,相应地,该变声模型是基于该语音识别模型所提取出的音频数据的特征向量训练得到的。即,在训练语音识别模型时,所用的音频数据的标注文本中不存在声调。例如,在汉语中,传统的音频数据的标注文本一般包含五个声调,即一声、二声、三声、四声、轻声;而在本实施例中,该标注文本中不包含与声调相关的标注。基于该音频数据训练得到的语音识别模型,其本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种语音转换的方法,其特征在于,包括:确定语音识别模型,确定目标用户的变声模型,并确定声码器模型;所述语音识别模型是基于文本标注不存在声调标注的音频数据训练得到的,所述变声模型是基于所述语音识别模型所提取出的音频数据的特征向量训练得到的;获取源用户的源音频数据,基于所述语音识别模型提取所述源音频数据的特征向量,所述源音频数据的特征向量不存在声调标注;基于所述变声模型将所述源音频数据的特征向量转换为所述目标用户的声学特征;将所述目标用户的声学特征输入至所述声码器模型,将所述目标用户的声学特征转换为所述目标用户的音频信号。2.根据权利要求1所述的方法,其特征在于,所述确定语音识别模型包括:获取样本音频数据,并去除所述样本音频数据的文本标注中的声调标注;以所述样本音频数据作为输入、以相应的去除声调标注后的文本标注作为输出进行训练,生成语音识别模型。3.根据权利要求2所述的方法,其特征在于,所述以所述样本音频数据作为输入、以相应的去除声调标注后的文本标注作为输出进行训练,包括:提取所述样本音频数据的语音特征;以所述样本音频数据的语音特征作为输入、以相应的去除声调标注后的文本标注作为输出进行训练。4.根据权利要求1所述的方法,其特征在于,所述确定目标用户的变声模型包括:获取样本用户的第一音频数据,并提取所述第一音频数据的声学特征;获取目标用户的第二音频数据,并提取所述第二音频数据的声学特征;根据所述语音识别模型提取所述第一音频数据的特征向量,根据所述语音识别模型提取所述第二音频数据的特征向量,所述第一音频数据的特征向量和所述第二音频数据的特征向量均不存在声调标注;以所述第一音频数据的特征向量作为输入、所述第一音频数据的声学特征作为输出进行训练,生成变声基线模型;以所述第二音频数据的特征向量作为输入、所述第二音频数据的声学特征作为输出对所述变声基线模型进行微调,生成所述目标用户的变声模型。5.根据权利要求4所述的方法,其特征在于,所述变声模型包括编码器、自注意力层、双层长短期记忆层和解码器,所述编码器和所述解码器均包含多个深度神经网络层;所述编码...

【专利技术属性】
技术研发人员:王旭衷奕饶丰魏萌
申请(专利权)人:北京一起教育科技有限责任公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1