语音处理方法及其装置和模型训练方法及其装置制造方法及图纸

技术编号:31022978 阅读:21 留言:0更新日期:2021-11-30 03:17
提供一种语音处理方法及其装置和模型训练方法及其装置。一种语音处理模型的训练方法可包括以下步骤:获取利用高保真音频采集设备采集的无损语音信号;通过将无损语音信号与噪声信号进行混合得到混合信号并且向混合信号添加混响信号和麦克风冲击响应,以生成训练信号;利用训练信号和语音处理模型来获得语音预测信号;根据无损语音信号和语音预测信号来训练语音处理模型。通过使用本公开的语音处理模型可得到高质量的人声信号。型可得到高质量的人声信号。型可得到高质量的人声信号。

【技术实现步骤摘要】
语音处理方法及其装置和模型训练方法及其装置


[0001]本公开涉及音频
和人工智能领域,尤其涉及一种语音处理方法及其装置和模型训练方法及其装置。

技术介绍

[0002]随着深度学习技术的发展,基于神经网络的语音增强技术也在不断进步。例如,基于深度学习的语音降噪网络相比于传统的降噪算法可以大幅地提高降噪性能。然而,在拍摄诸如短视频的实际场景下采集语音信号时,由于说话人和采集设备的距离较远(如大于2米)和/或采集设备为低保真设备(如智能手机自带的麦克风)而使采集的语音音质大幅降低,诸如表现为低频或特定频段缺失,采集信号包含环境混响等问题,因此,在诸如短视频制作过程中仅降低背景噪声对语音的影响并不能满足用户对于高音质语音的需求。

技术实现思路

[0003]本公开提供一种语音处理方法及其装置和模型训练方法及其装置,以至少解决上述问题。本公开的技术方案如下:
[0004]根据本公开实施例的第一方面,提供了一种语音处理模型的训练方法,可包括以下步骤:获取利用高保真音频采集设备采集的无损语音信号;通过将所述无损语音信号与噪声信号进行混合得到混合信号并且向混合信号添加混响信号和麦克风冲击响应,以生成训练信号;利用所述训练信号和所述语音处理模型来获得语音预测信号;根据所述无损语音信号和所述语音预测信号来训练所述语音处理模型。
[0005]可选地,利用所述训练信号和所述语音处理模型来获得语音预测信号,可包括:通过对所述训练信号进行短时傅里叶变换来得到所述训练信号的实部数据和虚部数据;基于所述训练信号的实部数据和虚部数据通过所述语音处理模型来得到所述语音预测信号的实部数据和虚部数据;通过对所述语音预测信号的实部数据和虚部数据进行短时傅里叶逆变换来得到所述语音预测信号。
[0006]可选地,训练所述语音处理模型,可包括:根据所述无损语音信号的实部数据和虚部数据以及所述语音预测信号的实部数据和虚部数据来训练所述语音处理模型。
[0007]可选地,利用所述训练信号和所述语音处理模型来获得语音预测信号,可包括:获取所述训练信号的幅度谱;基于所述训练信号的幅度谱通过所述语音处理模型来得到所述语音预测信号的幅度谱;基于所述语音预测信号的幅度谱通过声码器来得到所述语音预测信号。
[0008]可选地,训练所述语音处理模型,可包括:根据所述无损语音信号的幅度谱和所述语音预测信号的幅度谱来训练所述语音处理模型。
[0009]可选地,利用所述训练信号和所述语音处理模型来获得语音预测信号,可包括:通过对所述训练信号进行修正离散余弦变换来得到所述训练信号的修正离散余弦变换系数;基于所述训练信号的修正离散余弦变换系数通过所述语音处理模型来得到所述语音预测
信号的修正离散余弦变换系数;通过对所述语音预测信号的修正离散余弦变换系数进行修正离散余弦逆变换来得到所述语音预测信号。
[0010]可选地,训练所述语音处理模型,可包括:根据所述无损语音信号的修正离散余弦变换系数和所述语音预测信号的修正离散余弦变换系数来训练所述语音处理模型。
[0011]根据本公开实施例的第二方面,提供了一种语音处理方法,可包括以下步骤:获取语音信号;基于所述语音信号利用通过如上所述的训练方法得到的语音处理模型来获得与所述语音信号相应的高音质语音信号。
[0012]根据本公开实施例的第三方面,提供了一种语音处理模型的训练装置,所述训练装置可包括:获取模块,被配置为获取利用高保真音频采集设备采集的无损语音信号;生成模块,被配置为通过将所述无损语音信号与噪声信号进行混合得到混合信号并且向混合信号添加混响信号和麦克风冲击响应,以生成训练信号;训练模块,被配置为利用所述训练信号和所述语音处理模型来获得语音预测信号,并且根据所述无损语音信号和所述语音预测信号来训练所述语音处理模型。
[0013]可选地,训练模块可被配置为通过对所述训练信号进行短时傅里叶变换来得到所述训练信号的实部数据和虚部数据;基于所述训练信号的实部数据和虚部数据通过所述语音处理模型来得到所述语音预测信号的实部数据和虚部数据;通过对所述语音预测信号的实部数据和虚部数据进行短时傅里叶逆变换来得到所述语音预测信号。
[0014]可选地,训练模块可被配置为根据所述无损语音信号的实部数据和虚部数据以及所述语音预测信号的实部数据和虚部数据来训练所述语音处理模型。
[0015]可选地,训练模块可被配置为获取所述训练信号的幅度谱;基于所述训练信号的幅度谱通过所述语音处理模型来得到所述语音预测信号的幅度谱;基于所述语音预测信号的幅度谱通过声码器来得到所述语音预测信号。
[0016]可选地,训练模块可被配置为根据所述无损语音信号的幅度谱和所述语音预测信号的幅度谱来训练所述语音处理模型。
[0017]可选地,训练模块可被配置为通过对所述训练信号进行修正离散余弦变换来得到所述训练信号的修正离散余弦变换系数;基于所述训练信号的修正离散余弦变换系数通过所述语音处理模型来得到所述语音预测信号的修正离散余弦变换系数;通过对所述语音预测信号的修正离散余弦变换系数进行修正离散余弦逆变换来得到所述语音预测信号。
[0018]可选地,训练模块可被配置为根据所述无损语音信号的修正离散余弦变换系数和所述语音预测信号的修正离散余弦变换系数来训练所述语音处理模型。
[0019]根据本公开实施例的第四方面,提供一种语音处理装置,所述语音处理装置可包括:获取模块,被配置为获取语音信号;处理模块,被配置为基于所述语音信号利用通过如上所述的训练方法得到的语音处理模型来获得与所述语音信号相应的高音质语音信号。
[0020]根据本公开实施例的第五方面,提供一种电子设备,所述电子设备可包括:至少一个处理器;至少一个存储计算机可执行指令的存储器,其中,所述计算机可执行指令在被所述至少一个处理器运行时,促使所述至少一个处理器执行如上所述的语音处理方法和模型训练方法。
[0021]根据本公开实施例的第六方面,提供一种存储指令的计算机可读存储介质,当所述指令被至少一个处理器运行时,促使所述至少一个处理器执行如上所述的语音处理方法
和模型训练方法。
[0022]根据本公开实施例的第七方面,提供一种计算机程序产品,所述计算机程序产品中的指令被电子装置中的至少一个处理器运行以执行如上所述的语音处理方法和模型训练方法。
[0023]本公开的实施例提供的技术方案至少带来以下有益效果:
[0024]对低音质的语音使用神经网络来得到高音质的语音。此外,可使用神经网络实现根据低音质的语音生成任意缺失的频段的语音信号分量。
[0025]应当理解的是,以上的一般描述和后文的细节描述仅是示例性和解释性的,并不能限制本公开。
附图说明
[0026]此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本公开的实施例,并与说明书一起用于解释本公开的原理,并不构成对本公开的不当限定。
[0027]图1是根据一示例性实施例示出的一本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种语音处理模型的训练方法,其特征在于,所述训练方法包括:获取利用高保真音频采集设备采集的无损语音信号;通过将所述无损语音信号与噪声信号进行混合得到混合信号并且向混合信号添加混响信号和麦克风冲击响应,以生成训练信号;利用所述训练信号和所述语音处理模型来获得语音预测信号;根据所述无损语音信号和所述语音预测信号来训练所述语音处理模型。2.如权利要求1所述的训练方法,其特征在于,利用所述训练信号和所述语音处理模型来获得语音预测信号,包括:通过对所述训练信号进行短时傅里叶变换来得到所述训练信号的实部数据和虚部数据;基于所述训练信号的实部数据和虚部数据通过所述语音处理模型来得到所述语音预测信号的实部数据和虚部数据;通过对所述语音预测信号的实部数据和虚部数据进行短时傅里叶逆变换来得到所述语音预测信号。3.如权利要求2所述的训练方法,其特征在于,训练所述语音处理模型,包括:根据所述无损语音信号的实部数据和虚部数据以及所述语音预测信号的实部数据和虚部数据来训练所述语音处理模型。4.如权利要求1所述的训练方法,其特征在于,利用所述训练信号和所述语音处理模型来获得语音预测信号,包括:获取所述训练信号的幅度谱;基于所述训练信号的幅度谱通过所述语音处理模型来得到所述语音预测信号的幅度谱;基于所述语音预测信号的幅度谱通过声码器来得到所述语音预测信号。5.如权利要求1所述的训练方法,其特征在于,利用所述训练信号和所述语音处理模型来获得语音预测信号,包括:通过对所述训练信号进行修正离散余弦变换来得到所述训练信号的修正离散余弦变换系数;基于所述训练信号的修正离散余弦变换系数通过所述语音处理模型来得到所述语...

【专利技术属性】
技术研发人员:郑羲光范欣悦张晨
申请(专利权)人:北京达佳互联信息技术有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1