一种基于生成对抗式神经网络模型的语音转换方法技术

技术编号:37915387 阅读:9 留言:0更新日期:2023-06-21 22:37
本发明专利技术涉及语音转换技术,尤其涉及一种基于生成对抗式神经网络模型的语音转换方法。具体包括:S1、分别提取用户音频信息中的音频特征;S2、根据用户音频内容中的音频特征生成机器音频信息;S3、对用户音频信息与机器音频信息进行基于生成对抗式神经网络模型的循环拟合判断训练,将不同语言的音频特征自动转换为最接近用户表述情绪的机器音频信息。本发明专利技术中通过建立生成对抗式神经网络模型的语音转换方法,用以将语义,音高与音色特征单独提取,单独训练后再进行解码融合,从而用以对用户声音进行音色转换,实现非平行对齐下多种语言语义内容的语音转换功能。内容的语音转换功能。内容的语音转换功能。

【技术实现步骤摘要】
一种基于生成对抗式神经网络模型的语音转换方法


[0001]本专利技术涉及语音转换技术,尤其涉及一种基于生成对抗式神经网络模型的语音转换方法。

技术介绍

[0002]语音转换是音频处理中的重要一环,通过进行语音转换操作,用以将输入的语音或文字在保留语义信息的同时转换为目标声音,从而将其应用于影视剧配音,说话人去特征化,以及娱乐化语音合成中。但是现有的语音转换中,通常为平行语音转换,即通过进行同种类型的输入输出语音对齐配准,用以进行数据语音数据的调整与转换,但是此种平行式语音转换方式仅适用于输入输出的语音数据为同类型数据,当输入输出的语音数据为不同语言下的非同类型数据时,则无法进行二者之间的对齐操作,从而降低了语音转换的转换精度,甚至导致语音转换操作失效。
[0003]公开号为CN110910895B的中国专利,提供了一种声音处理的方法、装置、设备和介质,此专利中通过获取用户输入语音中的音色与音调特征,并使用所提取的音色与音调特征对源音频的音色与音调进行调节,从而提高用户语音转换的辨识度,但是此专利中仅涉及了声音角度的调节,并未涉及语言数据角度的调节,因此无需进行数据转换配准操作。公开号为CN113689868B的中国专利,提供了一种语音转换模型的训练方法、装置、电子设备及介质,此专利中通过建立内容编码器与解码器,用以对原始语音内容进行分析和监督训练,从而提高语音转换的精度。但是此专利中所述的预测声学特征是在原始语义特征上提取加工的,因此仍不能进行不同语言下的非同类型数据的语义转换操作。
[0004]因此,针对现有的语音转换中存在的问题,本专利技术中提供了种基于生成对抗式神经网络模型的语音转换方法。

技术实现思路

[0005]针对上述问题,本专利技术中提供了一种基于生成对抗式神经网络模型的语音转换方法,具体包括:S1、分别提取用户音频信息中的音频特征;S2、根据用户音频内容中的音频特征生成机器音频信息;S3、对用户音频信息与机器音频信息进行基于生成对抗式神经网络模型的循环拟合判断训练,将不同语言的音频特征自动转换为最接近用户表述情绪的机器音频信息。
[0006]优选的,所述生成对抗式神经网络模型中,具体包括音频内容提取器,音频内容生成器,与音频内容判别器。
[0007]优选的,其中所述音频内容提取器,对用户音频进行处理,并提取音频信息;其中所述音频信息包括用户内容特征与用户梅尔特征M1。
[0008]优选的,所述音频内容生成器与音频内容判别器通过建立神经网络模型分别进行训练。
[0009]优选的,将所述用户内容特征输入至内容编码网格中,生成用户内容编码特征;将
所述用户梅尔特征M1输入至音色编码网格中,生成用户音色特征编码。
[0010]优选的,所述用户内容编码特征,具体包括用户音高特征和用户语义特征。
[0011]优选的,将所述用户音色特征编码,用户音高特征和用户语义特征传送至音频内容生成器中的机器拟合网格中,用以生成机器拟合音高与机器拟合语义数据,将机器拟合音高与机器拟合语义数据传送至内容解码网格中解码得到机器梅尔特征M2。
[0012]优选的,在所述内容解码网格中,计算用户梅尔特征M1与机器梅尔特征M2之间的第一损失值。
[0013]优选的,在所述音频内容判断器中,对用户梅尔特征M1与机器梅尔特征M2进行循环判断,并获得与用户音频信息最接近的机器音频信息。
[0014]优选的,在所述音频内容判断器中,再次计算用户梅尔特征D(M1)与机器梅尔特征D(M2)之间的第二损失值,获取与用户音色特征与音高特征接近的最优机器音频信息并输出。
[0015]与现有技术相比,本专利技术的有益效果在于:
[0016](1)本专利技术提供的基于生成对抗式神经网络模型的语音转换方法,克服了平行式语音转换过程中必须使用数据对齐的方式,导致语音转换仅适用于同种语言下的语义转换的问题。本专利技术中通过建立生成对抗式神经网络模型的语音转换方法,用以将语义,音高与音色特征单独提取,单独训练后再进行解码融合,从而用以对用户声音进行音色转换,实现非平行对齐下多种语言语义内容的语音转换功能。
[0017](2)在(1)的基础上,由于本专利技术中分别在内容解码网格解码后与音频内容判断器判断后进行两次用户梅尔特征M1与机器梅尔特征M2之间的第一损失值与第二损失值计算与判断操作,通过第一损失值计算与判断操作,用以获取语音转换后的机器音频信息与用户音频信息之间的差异程度,并根据差异程度再于音频内容判断器中进行基于生成对抗式神经网络模型判断的机器音频信息与用户音频信息之间的最优机器音频信息筛选,从而更加真实的反映用户在录制用户音频信息时其音色与音高的变化状态,从而进一步反映并还原出用户的真实情感。
附图说明
[0018]图1为基于生成对抗式神经网络模型的语音转换方法流程图。
具体实施方式
[0019]实施例:
[0020]本实施例中提供了一种基于生成对抗式神经网络模型的语音转换方法,具体包括:S1、分别提取用户音频信息中的音频特征;S2、根据用户音频内容中的音频特征生成机器音频信息;S3、对用户音频信息与机器音频信息进行基于生成对抗式神经网络模型的循环拟合判断训练,将不同语言的音频特征自动转换为最接近用户表述情绪的机器音频信息。
[0021]在一种实施方式中,其中所述音频内容提取器,对用户音频进行处理,并提取音频信息;其中所述音频信息包括用户内容特征与用户梅尔特征M1。将所述用户内容特征输入至内容编码网格中,生成用户内容编码特征,所述用户内容编码特征,具体包括用户音高特
征和用户语义特征;将所述用户梅尔特征M1输入至音色编码网格中,生成用户音色特征编码。
[0022]在一种实施方式中,将所述用户音色特征编码,用户音高特征和用户语义特征传送至音频内容生成器中的机器拟合网格中,用以生成机器拟合音高与机器拟合语义数据,将机器拟合音高与机器拟合语义数据传送至内容解码网格中解码得到机器梅尔特征M2。在所述内容解码网格中,计算用户梅尔特征M1与机器梅尔特征M2之间的第一损失值。
[0023]具体的,所述计算用户梅尔特征M1与机器梅尔特征M2之间的第一损失值,用以获取用户梅尔特征M1与机器梅尔特征M2之间的语音转换偏差数值,其中所述损失值的计算方法为L=|M1‑
M2|,其中所述损失值越小时,最终语音转换的机器音频信息与用户音频信息越自然。
[0024]在一种实施方式中,所述音频内容生成器与音频内容判别器通过建立神经网络模型分别进行训练,并在所述音频内容判断器中,对用户梅尔特征M1与机器梅尔特征M2进行循环判断,并获得与用户音频信息最接近的机器音频信息。在所述音频内容判断器中,再次计算用户梅尔特征D(M1)与机器梅尔特征D(M2)之间的第二损失值,其中,所示第二损失值的具体计算公式为:D(L)=(1

D(M1)2+(0

D(M2)2)),用以获取与用户音色特征与音高特征接近的最本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于生成对抗式神经网络模型的语音转换方法,其特征在于,具体包括:S1、分别提取用户音频信息中的音频特征;S2、根据用户音频内容中的音频特征生成机器音频信息;S3、对用户音频信息与机器音频信息进行基于生成对抗式神经网络模型的循环拟合判断训练,将不同语言的音频特征自动转换为最接近用户表述情绪的机器音频信息。2.根据权利要求1中所述一种基于生成对抗式神经网络模型的语音转换方法,其特征在于,所述生成对抗式神经网络模型中,具体包括音频内容提取器,音频内容生成器,与音频内容判别器。3.根据权利要求2中所述一种基于生成对抗式神经网络模型的语音转换方法,其特征在于,其中所述音频内容提取器,对用户音频进行处理,并提取音频信息;其中所述音频信息包括用户内容特征与用户梅尔特征M1。4.根据权利要求2中所述一种基于生成对抗式神经网络模型的语音转换方法,其特征在于,所述音频内容生成器与音频内容判别器通过建立神经网络模型分别进行训练。5.根据权利要求3中所述一种基于生成对抗式神经网络模型的语音转换方法,其特征在于,将所述用户内容特征输入至内容编码网格中,生成用户内容编码特征;将所述用户梅尔特征M1输入至音色编码网格中,生成用户音色特征编码。6...

【专利技术属性】
技术研发人员:徐颖凌天格刘煌
申请(专利权)人:上海格子互动信息技术有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1