语音重建方法、装置、计算机设备和存储介质制造方法及图纸

技术编号:36839874 阅读:12 留言:0更新日期:2023-03-15 15:27
本申请涉及一种语音重建方法、装置、计算机设备、存储介质和计算机程序产品。所述方法包括:对原始语音进行特征提取,得到对应的声学特征;将所述声学特征转换为对应的确定性信号,并基于预设噪声数据生成随机信号;基于所述声学特征,确定与所述确定性信号对应的第一掩码信息、以及与所述随机信号对应的第二掩码信息;根据所述确定性信号、所述第一掩码信息、所述随机信号和所述第二掩码信息进行语音重建处理,得到目标语音。采用本方法能够控制语音重建中所生成的噪声的分量,有效提高重建的语音的质量。语音的质量。语音的质量。

【技术实现步骤摘要】
语音重建方法、装置、计算机设备和存储介质


[0001]本申请涉及计算机
,特别是涉及一种语音重建方法、装置、计算机设备和存储介质。

技术介绍

[0002]随着计算机技术的发展,出现了语音重建技术,语音重建能够使用在语音合成、语音转换和语音增强等多个场景,以实现对语音的各种应用。例如,将语音重建使用在语音转换场景,能够将一个人说话的音色转换为另一个人说话的音色,而说话的内容不变。
[0003]传统的语音重建模型例如WORLD模型,WORLD模型会提取原始语音波形中的基频、频谱包络与非周期信号,将基频、频谱包络与非周期信号三种声学特征通过合成算法输出重建的语音波形信号。然而,WORLD模型要求输入的原始语音波形有比较高的信噪比,在存在噪声的情况下难以重建出高质量的语音。

技术实现思路

[0004]基于此,有必要针对上述技术问题,提供一种能够控制语音重建过程中的噪声的语音重建方法、装置、计算机设备和存储介质。
[0005]一种语音重建方法,所述方法包括:
[0006]对原始语音进行特征提取,得到对应的声学特征;
[0007]将所述声学特征转换为对应的确定性信号,并基于预设噪声数据生成随机信号;
[0008]基于所述声学特征,确定与所述确定性信号对应的第一掩码信息、以及与所述随机信号对应的第二掩码信息;
[0009]根据所述确定性信号、所述第一掩码信息、所述随机信号和所述第二掩码信息进行语音重建处理,得到目标语音。
[0010]一种语音重建装置,所述装置包括:
[0011]提取模块,用于对原始语音进行特征提取,得到对应的声学特征;
[0012]转换模块,用于将所述声学特征转换为对应的确定性信号,并基于预设噪声数据生成随机信号;
[0013]确定模块,用于基于所述声学特征,确定与所述确定性信号对应的第一掩码信息、以及与所述随机信号对应的第二掩码信息;
[0014]重建模块,用于根据所述确定性信号、所述第一掩码信息、所述随机信号和所述第二掩码信息进行语音重建处理,得到目标语音。
[0015]在一个实施例中,所述转换模块,还用于对所述声学特征进行扩展卷积处理,并对经过扩展卷积处理后的特征进行上采样处理,以将所述声学特征从频域转换至时域,得到在所述时域下对应的确定性信号。
[0016]在一个实施例中,所述转换模块,还用于对所述声学特征进行卷积处理,并对经过卷积处理后的特征进行上采样处理,得到隐藏特征;对预设噪声数据进行扩展卷积处理,得
到对应的噪声特征;对所述噪声特征进行因果卷积处理,并将经过因果卷积处理后的特征和所述隐藏特征进行融合,得到随机信号。
[0017]在一个实施例中,所述确定模块,还用于基于所述声学特征解耦出所述原始语音中噪声信号和非噪声信号;确定所述非噪声信号在所述原始语音中所占的非噪声比重,以及所述噪声信号在所述原始语音中所占的噪声比重;将所述非噪声比重作为与所述确定性信号对应的第一掩码信息,并将所述噪声比重作为与所述随机信号对应的第二掩码信息。
[0018]在一个实施例中,所述重建模块,还用于根据所述确定性信号和所述第一掩码信息,生成被掩蔽的确定性信号;根据所述随机信号和所述第二掩码信息,生成被掩蔽的随机信号;将所述被掩蔽的确定性信号和所述被掩蔽的随机信号进行拼接处理,得到拼接信号;对所述声学特征进行卷积处理,并对经过卷积处理后的特征进行上采样处理,得到隐藏特征;将所述拼接信号和所述隐藏特征进行融合处理,得到重建后的目标语音。
[0019]在一个实施例中,所述重建模块,还用于确定当次迭代所对应的待处理特征;其中,首次迭代所对应的待处理特征为所述拼接信号;对当次迭代所对应的待处理特征进行扩展卷积处理,并对经过扩展卷积处理后的特征进行上采样处理,得到上采样拼接特征;对所述上采样拼接特征进行因果卷积处理,并将经过因果卷积处理后的特征和所述隐藏特征进行融合处理,得到中间过程特征;将所述中间过程特征作为下一次迭代所对应的待处理特征,进入到下一次迭代中,并返回所述对所述待处理特征进行扩展卷积处理的步骤继续执行,直至达到预设停止条件时停止,输出重建后的目标语音。
[0020]在一个实施例中,所述装置还包括:
[0021]样本提取模块,用于对样本语音进行特征提取,得到对应的样本声学特征;
[0022]样本转换模块,用于通过语音重建模型将所述样本声学特征转换为对应的样本确定性信号,并基于样本噪声数据生成样本随机信号;
[0023]掩码确定模块,用于基于所述样本声学特征,确定与所述样本确定性信号对应的第三掩码信息、以及与所述样本随机信号对应的第四掩码信息;
[0024]样本重建模块,用于根据所述样本确定性信号、所述第三掩码信息、所述样本随机信号和所述第四掩码信息进行语音重建处理,得到样本重建语音;
[0025]调整模块,用于基于所述样本重建语音和所述样本语音对所述语音重建模型的参数进行调整并继续训练,直至达到训练停止条件时停止,得到训练好的目标语音重建模型。
[0026]在一个实施例中,所述提取模块,还用于对源对象的原始语音和目标对象的原始语音分别进行特征提取,得到所述源对象的源声学特征和所述目标对象对应的目标音色特征;所述源声学特征中包括内容特征和所述源对象的源音色特征;通过所述目标音色特征替换所述源声学特征中的所述源音色特征,得到对应的声学特征;其中,所述声学特征中包括所述目标音色特征和所述内容特征,所述目标语音的语音内容与所述内容特征对应,所述目标语音的音色与所述目标音色特征对应。
[0027]在一个实施例中,所述原始语音为待降噪语音,所述第二掩码信息包括第二掩码值;所述装置还包括调整模块,所述调整模块,用于减小所述随机信号对应的第二掩码值;
[0028]所述重建模块,还用于根据所述确定性信号、所述第一掩码信息、所述随机信号和减小后的第二掩码值进行语音重建处理,生成降噪后的目标语音。
[0029]在一个实施例中,所述提取模块,还用于将歌词信息和对应的乐谱信息进行歌声
合成处理,得到原始歌声;对所述原始歌声进行特征提取,得到对应的声学特征;
[0030]所述重建模块,还用于根据所述确定性信号、所述第一掩码信息、所述随机信号和所述第二掩码信息进行歌声重建处理,生成目标合成歌声。
[0031]一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,所述处理器执行所述计算机程序时实现以下步骤:
[0032]对原始语音进行特征提取,得到对应的声学特征;
[0033]将所述声学特征转换为对应的确定性信号,并基于预设噪声数据生成随机信号;
[0034]基于所述声学特征,确定与所述确定性信号对应的第一掩码信息、以及与所述随机信号对应的第二掩码信息;
[0035]根据所述确定性信号、所述第一掩码信息、所述随机信号和所述第二掩码信息进行语音重建处理,得到目标语音。
[0036本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种语音重建方法,其特征在于,所述方法包括:对原始语音进行特征提取,得到对应的声学特征;将所述声学特征转换为对应的确定性信号,并基于预设噪声数据生成随机信号;基于所述声学特征,确定与所述确定性信号对应的第一掩码信息、以及与所述随机信号对应的第二掩码信息;根据所述确定性信号、所述第一掩码信息、所述随机信号和所述第二掩码信息进行语音重建处理,得到目标语音。2.根据权利要求1所述的方法,其特征在于,所述将所述声学特征转换为对应的确定性信号,包括:对所述声学特征进行扩展卷积处理,并对经过扩展卷积处理后的特征进行上采样处理,以将所述声学特征从频域转换至时域,得到在所述时域下对应的确定性信号。3.根据权利要求1所述的方法,其特征在于,所述基于预设噪声数据生成随机信号,包括:对所述声学特征进行卷积处理,并对经过卷积处理后的特征进行上采样处理,得到隐藏特征;对预设噪声数据进行扩展卷积处理,得到对应的噪声特征;对所述噪声特征进行因果卷积处理,并将经过因果卷积处理后的特征和所述隐藏特征进行融合,得到随机信号。4.根据权利要求1所述的方法,其特征在于,所述基于所述声学特征,确定与所述确定性信号对应的第一掩码信息、以及与所述随机信号对应的第二掩码信息,包括:基于所述声学特征解耦出所述原始语音中噪声信号和非噪声信号;确定所述非噪声信号在所述原始语音中所占的非噪声比重,以及所述噪声信号在所述原始语音中所占的噪声比重;将所述非噪声比重作为与所述确定性信号对应的第一掩码信息,并将所述噪声比重作为与所述随机信号对应的第二掩码信息。5.根据权利要求1所述的方法,其特征在于,所述根据所述确定性信号、所述第一掩码信息、所述随机信号和所述第二掩码信息进行语音重建处理,得到目标语音,包括:根据所述确定性信号和所述第一掩码信息,生成被掩蔽的确定性信号;根据所述随机信号和所述第二掩码信息,生成被掩蔽的随机信号;将所述被掩蔽的确定性信号和所述被掩蔽的随机信号进行拼接处理,得到拼接信号;对所述声学特征进行卷积处理,并对经过卷积处理后的特征进行上采样处理,得到隐藏特征;将所述拼接信号和所述隐藏特征进行融合处理,得到重建后的目标语音。6.根据权利要求5所述的方法,其特征在于,所述将所述拼接信号和所述隐藏特征进行融合处理,得到重建后的目标语音,包括:确定当次迭代所对应的待处理特征;其中,首次迭代所对应的待处理特征为所述拼接信号;对当次迭代所对应的待处理特征进行扩展卷积处理,并对经过扩展卷积处理后的特征进行上采样处理,得到上采样拼接特征;
对所述上采样拼接特征进行因果卷积处理,并将经过因果卷积处理后的特征和所述隐藏特征进行融合处理,得到中间过程特征;将所述中间过程特征作为下一次迭代所对应的待处理特征,进入到下一次迭代中,并返回对所述待处理特征进行扩展卷积处理的步骤继续执行,直至达到预设停止条件时停止,输出重建后的目标语音。7.根据权利要求1至6任意一项所述的方法,其特征在于,所述语音重建方法通过目标语音重建模型执行,所述目标语音重建模型通过训练步骤获得,所述训练步骤包括:对样本语音进行特征提取,得到对应的样本声学特征;通过语音重建模型将所述样本声学特征转换为对应的样本确定性信号,并基于样本噪声数据生成样本随机信号;基于所述样本声学特征,确定与所述样本确定性信号对应的第三掩码信息、以及与所述样本随机信号对应的第四掩码信息;根据所述样本确定性信号、所述第三掩码信息、所述样本随机信号和所述第四掩码信息进行语音重建处理,得到样本重建语音;基于所述样本重建语音和所述样本语音对所述语音重建模型的参数进行调整并继续训练,直至达到训练停止条件时停止,得到训练好的目标语音重建模型。8.根据权利要求1至6任意一项所述的方法,其特征在于,所述对原始语音进行特征提取,得到对应的声学特征,包括:对源对象的原始语音和目标对象的原始语音分别进行特征提取,得到所述源对象的源声学特征和所述目标对象对应的目标音色特征;所述源声学特征中包括内容...

【专利技术属性】
技术研发人员:陶建华汪涛傅睿博易江燕翁超
申请(专利权)人:中国科学院自动化研究所
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1