基于对抗网络的声音样本生成方法、装置、设备及介质制造方法及图纸

技术编号:31705905 阅读:23 留言:0更新日期:2022-01-01 11:08
本申请适用于人工智能技术领域,提供了一种基于对抗网络的声音样本生成的方法、装置、设备及介质,其中,一种基于对抗网络的声音样本生成的方法包括以下步骤:利用对抗网络模型中的生成器,对人声语音样本对应的梅尔频谱进行多尺度特征融合操作,得到用于表征合成语音的新的梅尔频谱;利用多分辨率梅尔谱损失函数,得到目标损失值;基于所述目标损失值,得到训练后的对抗网络模型;利用所述训练后的对抗网络模型对输入的人声语音进行样本模拟,得到声音样本。应用本申请实施例所提供的技术方案,提高了训练对抗网络模型收敛的速度,且利用该训练后的模型生成的声音样本与真实人声效果更接近,相似度较高。相似度较高。相似度较高。

【技术实现步骤摘要】
基于对抗网络的声音样本生成方法、装置、设备及介质


[0001]本申请涉及人工智能领域,特别涉及一种基于对抗网络的声音样本生成方法、装置、设备及介质。

技术介绍

[0002]随着人工智能技术的发展,神经网络在语音合成技术上的完善,模拟真实人声的语音合成技术在电话销售、人工智能客服、语音播报、导航播报等方面有着广泛的应用。现有的模拟真实人声的方式是对人声特征进行采集,利用得到的人声特征训练模型。但是该训练过程中语音的潜在差异难以量化,导致模型收敛过程及其缓慢,且利用该训练后的模型生成的声音样本与真实人声样本之间存在较大差异。

技术实现思路

[0003]本申请的目的在于提供一种基于对抗网络的声音样本生成方法、装置、设备及介质,以解决现有技术中存在的现有模型在训练过程中语音的潜在差异难以量化,导致模型收敛过程及其缓慢,且利用该训练后的模型生成的声音样本与真实人声样本之间存在较大差异的技术问题。
[0004]本申请实施例的第一方面提供了一种基于对抗网络的声音样本生成方法,包括:
[0005]利用对抗网络模型中的生成器,对人声语音样本对应的梅尔频谱进行多尺度特征融合操作,得到用于表征合成语音样本的新的梅尔频谱;
[0006]利用多分辨率梅尔谱损失函数,计算所述梅尔频谱的多尺度特征与所述新的梅尔频谱的多尺度特征之间的损失值,并根据所述损失值得到目标损失值;
[0007]基于所述目标损失值对所述对抗网络模型进行训练,得到训练后的对抗网络模型;
[0008]利用所述训练后的对抗网络模型对输入的人声语音进行样本模拟,得到声音样本。
[0009]本申请实施例的第二方面提供了一种基于对抗网络的声音样本生成装置,包括:
[0010]提取模块,用于利用对抗网络模型中的生成器,基于人声语音样本对应的梅尔频谱进行多尺度特征融合操作,得到用于表征合成语音样本的新的梅尔频谱;
[0011]优化模块,用于利用多分辨率梅尔谱损失函数,计算所述梅尔频谱的多尺度特征与所述新的梅尔频谱的多尺度特征之间的损失值,并根据所述损失值得到目标损失值;
[0012]训练模块,用于基于所述目标损失值对所述对抗网络模型进行训练,得到训练后的对抗网络模型;
[0013]模拟模块,用于利用所述训练后的对抗网络模型对输入的人声语音进行样本模拟,得到声音样本。
[0014]本申请实施例的第三方面提供了一种设备,包括存储器、处理器以及存储在所述存储器中并可在设备上运行的计算机程序,所述处理器执行所述计算机程序时实现第一方
案提供的基于对抗网络的声音样本生成方法的各步骤。
[0015]本申请实施例的第四方面提供了一种介质,所述介质存储有计算机程序,所述计算机程序被处理器执行时实现第一方案提供的基于对抗网络的声音样本生成方法的各步骤。
[0016]实施本申请实施例提供的一种基于对抗网络的声音样本生成方法、装置、设备及介质具有以下有益效果:
[0017]本申请实施例提供一种基于对抗网络的声音样本生成方法、装置、设备及介质,通过利用对抗网络模型的生成器中的多尺度信息融合层对人声样本的梅尔频谱进行多尺度特征融合以得到表征合成语音样本的新的梅尔频谱。由于新的梅尔频谱是对人声样本的梅尔频谱进行多尺度特征融合得到,故利用多分辨率梅尔谱损失函数能够计算梅尔频谱多尺度特征与新的梅尔频谱多尺度特征之间的损失值,令得到的目标损失值能够用于训练对抗网络模型,使得训练后的对抗网络模型的生成器生成的声音样本不被辨别器判定为伪造样本,提高了训练对抗网络模型收敛的速度,且利用该训练后的对抗网络模型生成的声音样本与真实人声样本之间的相似程度更高,能够得到更接近真实人声效果的声音样本。
附图说明
[0018]为了更清楚地说明本申请实施例中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
[0019]图1为本申请实施例提供的一种基于对抗网络的声音样本生成方法的实现流程图;
[0020]图2为本申请实施例提供的生成器的结构示意图;
[0021]图3为本申请实施例提供的多尺度信息融合层的结构示意图;
[0022]图4是本申请实施例提供的一种基于对抗网络的声音样本生成装置的结构框图;
[0023]图5是本申请实施例提供的一种设备的结构框图。
具体实施方式
[0024]为了使本申请所要解决的技术问题、技术方案及有益效果更加清楚明白,以下结合附图及实施例,对本申请进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本申请,并不用于限定本申请。
[0025]本申请实施例可以基于人工智能技术对相关的数据进行获取和处理。其中,人工智能(Artificial Intelligence,AI)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能,感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。
[0026]人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、机器人技术、生物识别技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。
[0027]本申请实施例所提供一种基于对抗网络的声音样本生成方法,应用于计算机设备上。在实现时,基于对抗网络的声音样本生成方法以目标脚本的形式被配置于计算机设备上,该计算机设备通过执行该目标脚本,进而执行本实施例提供的基于对抗网络的声音样本生成方法的各个步骤。
[0028]参照图1所示,图1示出了本申请实施例提供的一种基于对抗网络的声音样本生成的方法,包括:
[0029]S11:利用对抗网络模型中的生成器,对人声语音样本对应的梅尔频谱进行多尺度特征融合操作,得到用于表征合成语音样本的新的梅尔频谱。
[0030]在步骤S11中,生成式对抗网络模型是一种深度学习模型,通常包括生成器和辨别器。在本实施例中的对抗网络模型应用多尺度的生成器和辨别器,使得对抗网络模型在不同尺寸、多分辨率的声音样本上都稳定收敛。生成器用于产生合成语音样本以逼近人声语音样本。生成器的目标就是最小化人声语音样本和合成语音样本直接的差距。辨别器用于辨别生成器产生的合成语音样本是否为人声语音样本。要对人声语音样本对应的梅尔频谱进行多尺度特征融合操作首先要得到人声语音样本对应的梅尔谱。因为梅尔频谱更能准确地描述人声特征,更符合人耳的听觉特性所以利用生成器对人声语音样本进行处理提取到人声语音样本对应的梅尔频谱。通常提取语音特征参数得到梅尔频谱,会对语音进行分帧和加窗,对每帧信号进行短时傅立叶变换,得到短时幅度谱,由得到的短时幅度谱通过梅尔谱滤波器组得到梅尔频谱。
[0031]在一实施例中,多尺度本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于对抗网络的声音样本生成方法,其特征在于,包括:利用对抗网络模型中的生成器,对人声语音样本对应的梅尔频谱进行多尺度特征融合操作,得到用于表征合成语音样本的新的梅尔频谱;利用多分辨率梅尔谱损失函数,计算所述梅尔频谱的多尺度特征与所述新的梅尔频谱的多尺度特征之间的损失值,并根据所述损失值得到目标损失值;基于所述目标损失值对所述对抗网络模型进行训练,得到训练后的对抗网络模型;利用所述训练后的对抗网络模型对输入的人声语音进行样本模拟,得到声音样本。2.根据权利要求1所述的方法,其特征在于,所述利用对抗网络模型中的生成器,对人声语音样本对应的梅尔频谱进行多尺度特征融合操作,得到用于表征合成语音样本的新的梅尔频谱,包括:利用短时傅里叶变换对所述人声语音样本的幅度谱进行处理,得到处理后的幅度谱;利用梅尔谱滤波器组计算所述处理后的幅度谱得到所述梅尔频谱;利用所述生成器基于所述梅尔频谱进行多尺度特征采集操作与特征融合操作,得到所述新的梅尔频谱。3.根据权利要求2所述的方法,其特征在于,所述利用短时傅里叶变换对所述人声语音样本的幅度谱进行处理,得到处理后的幅度谱,包括:对所述人声语音样本的幅度谱进行使用分帧与加窗处理,得到待变换幅度谱;对所述待变换幅度谱进行短时傅里叶变换,得到处理后的幅度谱。4.根据权利要求2所述的方法,其特征在于,所述生成器包括转置卷积层和多尺度信息融合层;所述利用所述生成器中基于所述梅尔频谱进行多尺度特征采集操作与特征融合操作,得到所述新的梅尔频谱,包括:利用所述生成器中的转置卷积层对所述梅尔频谱进行上采样;利用所述生成器中的多尺度信息融合层对所述梅尔频谱进行多尺度提取和特征融合,得到所述新的梅尔频谱。5.根据权利要求1所述的方法,其特征在于,所述利用多分辨率梅尔谱损失函数,计算所述梅尔频谱的多尺度特征与所述新的梅尔频谱的多尺度特征之间的损失值,并根据所述损失值得到目标损失值,包括:根据所述对抗网络中的辨别器对所述梅尔频谱和所述新的梅尔频谱进行多尺度的下采样,得到所述梅尔频谱多尺度特征与所述新的梅尔频谱多尺度特征;其中,所述辨别器的结构包括N个所述辨别器,其中,N为大于或等于3的整数;利用多分辨率梅尔谱损失函数,计算所述梅尔频谱多尺度特征与所述新的梅尔频谱多尺度特征之间的损失值;从所述损失值中得到目标损失值。6.根据权利要求5所述的方法,其特征在于,所述利用多分辨率梅尔谱损失函数,计算所述梅尔频谱多尺度特征与所述新的梅尔频谱多尺度特征之间的损失值,包括:通过以下公式,计算所述梅尔频谱和所述新的梅尔频谱之间的差异值:Lmel(G)=||f(x)

f(s)||1,其中,Lmel(G)所述梅尔频谱和所述新的梅尔频谱之间的差异值;f(x)为所述梅尔频
谱;f(s)为所述新的梅尔频谱;f(x)

【专利技术属性】
技术研发人员:郭洋王健宗
申请(专利权)人:平安科技深圳有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1