【技术实现步骤摘要】
语音增强模型的训练方法和装置及语音增强方法和装置
[0001]本公开涉及音频
,更具体地说,涉及一种语音增强模型的训练方法和装置及语音增强方法和装置。
技术介绍
[0002]嘈杂的环境会影响人们在语音沟通中的效果,在当前的主流通讯软件中,通常采用不同语音增强算法实现对通话过程中含噪音频进行处理,传统方法可以实现对稳态噪声的处理,优点是运算复杂度低,深度学习方法通常用来去除瞬态噪声,效果较传统方法要好,但是运算复杂度高。
[0003]含噪语音中通常会含有背景噪声或其他说话人的声音,为了提高沟通效率,需要获取特定说话人的纯净语音,常规的语音增强可以做到去除背景噪声,分理出各个说话人的声音,但是仍然面临着说话人的排序问题,不知道应该输出哪个说话人的声音,因此针对特定说话人的语音增强的效果一般。
技术实现思路
[0004]本公开提供一种语音增强模型的训练方法和装置及语音增强方法和装置,以至少解决上述相关技术中的问题,也可不解决任何上述问题。
[0005]根据本公开实施例的第一方面,提供一种语音增 ...
【技术保护点】
【技术特征摘要】
1.一种语音增强模型的训练方法,其特征在于,所述语音增强模型包括语音增强网络和注意力机制网络,所述训练方法包括:获取多个说话人的含噪语音样本和所述多个说话人的第一纯净语音样本的特征向量,其中,每个说话人的含噪语音样本是根据与该说话人对应的第二纯净语音样本添加噪声数据得到的;将所述含噪语音样本的幅度谱输入所述语音增强网络,得到估计的第一掩膜比,其中,掩膜比表示纯净语音信号幅度谱与含噪语音信号幅度谱的比值;将所述估计的第一掩膜比和所述特征向量输入到所述注意力机制网络,得到估计的第二掩膜比;根据所述估计的第二掩膜比和所述幅度谱,确定估计的幅度谱,并根据所述估计的幅度谱和第二纯净语音样本的幅度谱确定所述语音增强模型的损失函数;通过根据所述损失函数调整所述语音增强网络和所述注意力机制网络的参数,对所述语音增强模型进行训练。2.如权利要求1所述的训练方法,其特征在于,第一纯净语音样本和第二纯净语音样本不同。3.如权利要求1所述的训练方法,其特征在于,所述特征向量是使用特征提取网络对第一纯净语言样本进行特征提取而得到的。4.如权利要求1所述的训练方法,其特征在于,所述将所述估计的第一掩膜比和所述特征向量输入到所述注意力机制网络,得到第二掩膜比,包括:将每个说话人的特征向量扩充至与每个说话人对应的所述估计的第一掩膜比相同的维度;分别将每个说话人对应的所述估计的第一掩膜比与相应说话人的扩充后的特征向量进行串联以获得每个说话人对应的串联特征;将每个说话人对应的所述串联特征作为所述注意力机制网络的输入。5.一种语音增强方法,其特征在于,包括:获取待增强的含噪语音信号和第一说话人的纯净语音信号的特征向量,其中,所述含噪语音信号包括第一说话人的语音;将所述含噪语音信号的幅度谱输入语音增强模型中的语音增强网络,得到估计的第一掩膜比,其中,掩膜比表示纯净语音信号幅度谱与含噪语音信号幅度谱的比值,其中,所述语音增强模型包括所述语音增强网络和注意力机制网络;将所述估计的第一掩膜比和所述特征向量输入所述注意力机制网络,得到估计的第二掩膜比;根据所述估计的第二掩膜比,获得所述含噪语音信号中第一说话人的增强语音。6.一种语音增强模型的训练装置,其特征在于,所述语音增强模型包括语音增强网络和注意力机制网络,所述训练装置包括:获取单元,被配置为:获取多个说话人的含噪语音...
【专利技术属性】
技术研发人员:张新,张旭,郑羲光,张晨,郭亮,
申请(专利权)人:北京达佳互联信息技术有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。