语音处理方法、装置、电子设备和存储介质制造方法及图纸

技术编号:36030162 阅读:16 留言:0更新日期:2022-12-21 10:31
本公开提供了一种语音处理方法、装置、电子设备和存储介质。本公开实施例的语音处理方法包括:获取第一文本和第一说话人的第一真实语音,第一真实语音的内容与第一文本的内容相同;获取指示第一真实语音中噪声特征的第一掩码信息;利用预先训练的声学模型基于第一文本和第一掩码信息生成对应第一文本的第一声学特征;从第一真实语音中提取第一说话人的第二声学特征;根据第一声学特征和第二声学特征更新声学模型的参数。本公开能够在低资源情况下实现了高质量地语音克隆。实现了高质量地语音克隆。实现了高质量地语音克隆。

【技术实现步骤摘要】
语音处理方法、装置、电子设备和存储介质


[0001]本公开涉及一种语音处理方法、装置、电子设备和存储介质。

技术介绍

[0002]语音克隆是指计算机自动根据目标说话人已有的声音数据能生成对应说话人任何语音的技术。目前,已有的声音克隆技术需要目标说话人的大量语料,并且要求语料不包含任何噪声。然而,实际应用中,目标说话人的语料不仅常常包含各种噪声,而且语料数量有限。因此,目前的声音克隆技术很难获得高相似度、高自然度和低噪声的语音。

技术实现思路

[0003]为了解决上述技术问题中的至少一个,本公开提供了一种语音处理方法、装置、电子设备和存储介质。
[0004]本公开的第一方面提供了一种语音处理方法,包括:
[0005]获取第一文本和第一说话人的第一真实语音,所述第一真实语音的内容与所述第一文本的内容相同;
[0006]获取指示所述第一真实语音中噪声特征的第一掩码信息;
[0007]利用预先训练的声学模型基于所述第一文本和所述第一掩码信息生成对应所述第一文本的第一声学特征;
[0008]从所述第一真实语音中提取所述第一说话人的第二声学特征;
[0009]根据所述第一声学特征和第二声学特征更新所述声学模型的参数。
[0010]本公开的一些实施方式中,语音处理方法还包括:
[0011]获取第二文本和预先配置的第二掩码信息,所述第二掩码信息为干净掩码;
[0012]利用更新参数后的所述声学模型基于所述第二掩码信息和所述第二文本生成对应所述第二文本的第二声学特征;
[0013]将所述第二声学特征合成为第一语音,所述第一语音的内容与所述第二文本相同且所述第二语音具备所述第一说话人的音色特征。
[0014]本公开的一些实施方式中,所述将所述第二声学特征合成为第一语音,包括:利用预先训练的声码器将所述第二声学特征合成为第一语音,所述声码器根据所述第一说话人的音频数据训练得到。
[0015]本公开的一些实施方式中,所述利用预先训练的声学模型基于所述第一文本和所述第一掩码信息生成对应所述第一文本的频谱帧生成第一声学特征,包括:
[0016]利用所述声学模型中的编码器获取对应所述第一文本的第一文本特征向量;
[0017]利用所述声学模型中的解码器根据所述第一文本特征向量和所述第一掩码信息生成所述第一声学特征。
[0018]本公开的一些实施方式中,所述利用所述声学模型中的解码器根据所述第一文本特征向量和所述第一掩码信息生成所述第一声学特征,包括:
[0019]利用所述第一文本特征向量执行所述解码器中的注意力网络的处理,以获得对应所述第一文本的第一注意力向量;
[0020]基于所述第一注意力向量和前一频谱帧,依次执行所述解码器中的LSTM、线性投影层的处理,获得当前频谱帧;
[0021]基于所述当前频谱帧和所述第一掩码信息执行所述解码器中后处理网络的处理,以优化所述当前频谱帧;
[0022]在获取到对应所述第一文本的所有频谱帧后,将所有频谱帧拼接以获得所述第一声学特征。
[0023]本公开的一些实施方式中,所述声学模型根据多个第二说话人的语料训练得到,所述多个第二说话人的语料包括:干净的真实语音和含有噪声的真实语音。
[0024]本公开的第二方面提供了一种语音处理装置,包括:
[0025]获取单元,用于获取第一文本和第一说话人的第一真实语音,所述第一真实语音的内容与所述第一文本的内容相同,所述第一真实语音含噪声;
[0026]噪声处理单元,用于获取指示所述第一真实语音中噪声特征的第一掩码信息;
[0027]第一声学特征单元,用于利用预先训练的声学模型基于所述第一文本和所述第一掩码信息生成对应所述第一文本的第一声学特征;
[0028]第二声学特征单元,用于从所述第一真实语音中提取所述第一说话人的第二声学特征;
[0029]参数更新单元,用于根据所述第一声学特征和第二声学特征更新所述声学模型的参数,以使得所述声学模型能够用于克隆所述第一说话人的语音。
[0030]本公开的一些实施方式中,所述获取单元,还用于获取第二文本和预先配置的第二掩码信息,所述第二掩码信息为干净掩码;所述第一声学特征单元,还用于利用更新参数后的所述声学模型基于所述第二掩码信息和所述第二文本生成对应所述第二文本的第二声学特征;所述语音处理装置还包括:语音生成单元,用于将所述第二声学特征合成为第一语音,所述第一语音的内容与所述第二文本相同且所述第二语音具备所述第一说话人的音色特征。
[0031]本公开的第三方面提供了一种电子设备,包括:
[0032]存储器,所述存储器存储执行指令;以及
[0033]处理器,所述处理器执行所述存储器存储的执行指令,使得所述处理器执行上述的语音处理方法。
[0034]本公开的第四方面提供了一种可读存储介质,所述可读存储介质中存储有执行指令,所述执行指令被处理器执行时用于实现上述的语音处理方法。
[0035]本公开实施例仅需要少量且质量要求不高的语料即可实现说话人的声音克隆,可以通过低资源硬件直接实现,不仅实现简单、快速。并且,对于各类需要克隆语音的用户而言,只需要录制质量不高的少量音频即可自动实现其语音克隆。
附图说明
[0036]附图示出了本公开的示例性实施方式,并与其说明一起用于解释本公开的原理,其中包括了这些附图以提供对本公开的进一步理解,并且附图包括在本说明书中并构成本
说明书的一部分。
[0037]图1是根据本公开的一些实施方式的语音处理方法的流程示意图。
[0038]图2是本公开的一个实施方式的采用处理系统的硬件实现方式的语音处理装置的结构示意框图。
[0039]附图标记说明
[0040]200 语音处理模型
[0041]300 总线
[0042]400 处理器
[0043]500 存储器
[0044]600 各种其他电路
具体实施方式
[0045]下面结合附图和实施方式对本公开作进一步的详细说明。可以理解的是,此处所描述的具体实施方式仅用于解释相关内容,而非对本公开的限定。另外还需要说明的是,为了便于描述,附图中仅示出了与本公开相关的部分。
[0046]需要说明的是,在不冲突的情况下,本公开中的实施方式及实施方式中的特征可以相互组合。下面将参考附图并结合实施方式来详细说明本公开的技术方案。
[0047]除非另有说明,否则示出的示例性实施方式/实施例将被理解为提供可以在实践中实施本公开的技术构思的一些方式的各种细节的示例性特征。因此,除非另有说明,否则在不脱离本公开的技术构思的情况下,各种实施方式/实施例的特征可以另外地组合、分离、互换和/或重新布置。
[0048]在附图中使用交叉影线和/或阴影通常用于使相邻部件之间的边界变得清晰。如此,除非说明,否则交叉影线或阴影的存在与否均不传本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种语音处理方法,其特征在于,包括:获取第一文本和第一说话人的第一真实语音,所述第一真实语音的内容与所述第一文本的内容相同;获取指示所述第一真实语音中噪声特征的第一掩码信息;利用预先训练的声学模型基于所述第一文本和所述第一掩码信息生成对应所述第一文本的第一声学特征;从所述第一真实语音中提取所述第一说话人的第二声学特征;根据所述第一声学特征和第二声学特征更新所述声学模型的参数。2.根据权利要求1所述的语音处理方法,其特征在于,还包括:获取第二文本和预先配置的第二掩码信息,所述第二掩码信息为干净掩码;利用更新参数后的所述声学模型基于所述第二掩码信息和所述第二文本生成对应所述第二文本的第二声学特征;将所述第二声学特征合成为第一语音,所述第一语音的内容与所述第二文本相同且所述第二语音具备所述第一说话人的音色特征。3.根据权利要求2所述的语音处理方法,其特征在于,所述将所述第二声学特征合成为第一语音,包括:利用预先训练的声码器将所述第二声学特征合成为第一语音,所述声码器根据所述第一说话人的音频数据训练得到。4.根据权利要求1所述的语音处理方法,其特征在于,所述利用预先训练的声学模型基于所述第一文本和所述第一掩码信息生成对应所述第一文本的频谱帧生成第一声学特征,包括:利用所述声学模型中的编码器获取对应所述第一文本的第一文本特征向量;利用所述声学模型中的解码器根据所述第一文本特征向量和所述第一掩码信息生成所述第一声学特征。5.根据权利要求4所述的语音处理方法,其特征在于,所述利用所述声学模型中的解码器根据所述第一文本特征向量和所述第一掩码信息生成所述第一声学特征,包括:利用所述第一文本特征向量执行所述解码器中的注意力网络的处理,以获得对应所述第一文本的第一注意力向量;基于所述第一注意力向量和前一频谱帧,依次执行所述解码器中的LSTM、线性投影层的处理,获得当前频谱帧;基于所述当前频谱帧和所述第一掩码信息...

【专利技术属性】
技术研发人员:田锋平殷昊陈云琳叶顺平
申请(专利权)人:问问智能信息科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1