语音处理方法、装置、电子设备和存储介质制造方法及图纸

技术编号：36030162 阅读：16 留言：0更新日期：2022-12-21 10:31

本公开提供了一种语音处理方法、装置、电子设备和存储介质。本公开实施例的语音处理方法包括：获取第一文本和第一说话人的第一真实语音，第一真实语音的内容与第一文本的内容相同；获取指示第一真实语音中噪声特征的第一掩码信息；利用预先训练的声学模型基于第一文本和第一掩码信息生成对应第一文本的第一声学特征；从第一真实语音中提取第一说话人的第二声学特征；根据第一声学特征和第二声学特征更新声学模型的参数。本公开能够在低资源情况下实现了高质量地语音克隆。实现了高质量地语音克隆。实现了高质量地语音克隆。

全部详细技术资料下载

【技术实现步骤摘要】
语音处理方法、装置、电子设备和存储介质

[0001]本公开涉及一种语音处理方法、装置、电子设备和存储介质。

技术介绍

[0002]语音克隆是指计算机自动根据目标说话人已有的声音数据能生成对应说话人任何语音的技术。目前，已有的声音克隆技术需要目标说话人的大量语料，并且要求语料不包含任何噪声。然而，实际应用中，目标说话人的语料不仅常常包含各种噪声，而且语料数量有限。因此，目前的声音克隆技术很难获得高相似度、高自然度和低噪声的语音。

技术实现思路

[0003]为了解决上述技术问题中的至少一个，本公开提供了一种语音处理方法、装置、电子设备和存储介质。
[0004]本公开的第一方面提供了一种语音处理方法，包括：
[0005]获取第一文本和第一说话人的第一真实语音，所述第一真实语音的内容与所述第一文本的内容相同；
[0006]获取指示所述第一真实语音中噪声特征的第一掩码信息；
[0007]利用预先训练的声学模型基于所述第一文本和所述第一掩码信息生成对应所述第一文本的第一声学特征；
[0008]从所述第一真实语音中提取所述第一说话人的第二声学特征；
[0009]根据所述第一声学特征和第二声学特征更新所述声学模型的参数。
[0010]本公开的一些实施方式中，语音处理方法还包括：
[0011]获取第二文本和预先配置的第二掩码信息，所述第二掩码信息为干净掩码；
[0012]利用更新参数后的所述声学模型基于所述第二掩码信息和所述第二文本生成对应所述第二...

【技术保护点】

【技术特征摘要】
1.一种语音处理方法，其特征在于，包括：获取第一文本和第一说话人的第一真实语音，所述第一真实语音的内容与所述第一文本的内容相同；获取指示所述第一真实语音中噪声特征的第一掩码信息；利用预先训练的声学模型基于所述第一文本和所述第一掩码信息生成对应所述第一文本的第一声学特征；从所述第一真实语音中提取所述第一说话人的第二声学特征；根据所述第一声学特征和第二声学特征更新所述声学模型的参数。2.根据权利要求1所述的语音处理方法，其特征在于，还包括：获取第二文本和预先配置的第二掩码信息，所述第二掩码信息为干净掩码；利用更新参数后的所述声学模型基于所述第二掩码信息和所述第二文本生成对应所述第二文本的第二声学特征；将所述第二声学特征合成为第一语音，所述第一语音的内容与所述第二文本相同且所述第二语音具备所述第一说话人的音色特征。3.根据权利要求2所述的语音处理方法，其特征在于，所述将所述第二声学特征合成为第一语音，包括：利用预先训练的声码器将所述第二声学特征合成为第一语音，所述声码器根据所述第一说话人的音频数据训练得到。4.根据权利要求1所述的语音处理方法，其特征在于，所述利用预先训练的声学模型基于所述第一文本和所述第一掩码信息生成对应所述第一文本的频谱帧生成第一声学特征，包括：利用所述声学模型中的编码器获取对应所述第一文本的第一文本特征向量；利用所述声学模型中的解码器根据所述第一文本特征向量和所述第一掩码信息生成所述第一声学特征。5.根据权利要求4所述的语音处理方法，其特征在于，所述利用所述声学模型中的解码器根据所述第一文本特征向量和所述第一掩码信息生成所述第一声学特征，包括：利用所述第一文本特征向量执行所述解码器中的注意力网络的处理，以获得对应所述第一文本的第一注意力向量；基于所述第一注意力向量和前一频谱帧，依次执行所述解码器中的LSTM、线性投影层的处理，获得当前频谱帧；基于所述当前频谱帧和所述第一掩码信息...

【专利技术属性】
技术研发人员：田锋平，殷昊，陈云琳，叶顺平，
申请(专利权)人：问问智能信息科技有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人