多通道语音增强模型训练方法、语音增强方法及装置制造方法及图纸

技术编号:35178151 阅读:13 留言:0更新日期:2022-10-12 17:45
本发明专利技术提供一种多通道语音增强模型训练方法、多通道语音增强方法及装置,该训练方法包括:根据波束的主瓣位置及期望的主瓣形状仿真产生多通道语音训练样本;多通道语音正样本包括产生于主瓣内部的语音信号,多通道语音负样本的语音信号产生于主瓣外部;根据目标声源方向对多通道语音训练样本进行相位对齐,提取空间特征及语谱特征输入到神经网络模型,将正样本的标签设为主瓣内信号,负样本的标签设为0,训练得到语音增强模型。本发明专利技术通过构建不同主瓣位置及形状的训练数据获得期望的主瓣形状,主瓣宽度不受阵列尺寸的限制,旁瓣抑制不受麦克风数量的限制,旁瓣抑制效果好,语音增强模型规模不大,可以配置到计算资源有限的设备端进行实时处理。备端进行实时处理。备端进行实时处理。

【技术实现步骤摘要】
多通道语音增强模型训练方法、语音增强方法及装置


[0001]本专利技术涉及机器学习及语音信号处理
,尤其涉及一种多通道语音增强模型训练方法、语音增强方法及装置。

技术介绍

[0002]语音增强技术利用多通道语音间的相位差异进行声源方向的语音增强,其可以抑制声源方向外的其他语音和噪声,从而提升听感和识别率。
[0003]可以利用语音信号处理中的波束形成技术进行语音增强。语音信号处理中的波束形成技术一般分为不同频率的子带单独处理,在每个子带内单独计算一定条件下的最优估计,将各个子带的估计结果相加得到增强后的语音信号,从而忽略了语音信号在各个子带间的特有关系。同时各子带间的主瓣宽度并不一致,各个子带波束的主瓣宽度主要受限于阵列尺寸和分布,而干扰的抑制量主要受限于麦克风数量。因此,现有的波束形成技术的语音增强效果受到麦克风阵列的尺寸、分布及数量的限制。
[0004]目前利用机器学习的方法进行语音增强主要对于单通道的语音信号进行处理。基于机器学习的单通道的语音信号增强主要是根据语音信号中语谱间特有的时频关系进行语音增强,因此,当存在人声干扰(如电视中人物的声音等)的场景下无法对干扰进行有效的抑制,从而降低识别率。同时目前普遍采用的机器学习网络模型较大,不利于部署到设备端进行实时处理。

技术实现思路

[0005]为解决现有技术中的问题,本专利技术提供一种多通道语音增强模型训练方法、语音增强方法及装置。
[0006]本专利技术提供一种多通道语音增强模型训练方法,包括:根据波束的主瓣位置及期望的主瓣形状仿真产生多通道语音训练样本;其中,所述多通道语音训练样本包括多通道语音正样本及多通道语音负样本,且所述多通道语音正样本包括产生于主瓣内部的语音信号,所述多通道语音负样本的语音信号产生于主瓣外部;获取仿真产生的目标声源方向,根据所述目标声源方向对所述多通道语音训练样本进行相位对齐;对相位对齐后的所述多通道语音训练样本提取空间特征,以及对相位对齐后的所述多通道语音训练样本提取语谱特征;将所述多通道语音训练样本的所述空间特征及所述语谱特征输入到神经网络模型,若所述多通道语音训练样本为所述多通道语音正样本,则将输出标签设置为所述产生于主瓣内部的语音信号,若所述多通道语音训练样本为所述多通道语音负样本,则将所述输出标签设置为0,对所述神经网络模型进行训练,训练完成得到所述语音增强模型。
[0007]根据本专利技术提供的一种多通道语音增强模型训练方法,所述对相位对齐后的所述多通道语音训练样本提取空间特征,包括:对相位对齐后的所述多通道语音训练样本提取相位差特征,将所述相位差特征作为所述空间特征。
[0008]根据本专利技术提供的一种多通道语音增强模型训练方法,所述空间特征表示为:
[0009]SpaceFeature_i=mod(angle(Yi)

angle(Yref)+pi,2*pi)

pi
[0010]其中,SpaceFeature_i表示相位对齐后第i个通道的所述空间特征,Yi表示相位对齐后第i个通道的短时傅里叶谱,Yref表示相位对齐后参考通道的短时傅里叶谱,angle(Yi)表示Yi的辐角,angle(Yref)表示Yref的辐角,pi表示圆周率,mod(a,b)表示对a/b的结果取余,i=2,3,

N表示2~N通道的序号,1为参考通道的序号,N为所述多通道语音训练样本的通道数,所述参考通道为N个通道中的一个。
[0011]根据本专利技术提供的一种多通道语音增强模型训练方法,所述对相位对齐后的所述多通道语音训练样本提取语谱特征,包括:提取相位对齐后的所述多通道语音训练样本中的其中一个通道的短时傅里叶谱。
[0012]根据本专利技术提供的一种多通道语音增强模型训练方法,所述将所述多通道语音训练样本的所述空间特征及所述语谱特征输入到神经网络模型,包括:将所述空间特征输入到预设第一层级的卷积神经网络,得到空间特征向量,将所述语谱特征输入到预设第二层级的卷积神经网络,得到语谱特征向量;将所述空间特征向量和所述语谱特征向量输入到深度神经网络。
[0013]本专利技术还提供一种多通道语音增强方法,包括:通过数据采集获取多通道语音信号;通过目标声源定位获取声源定位方向;根据所述声源定位方向对所述多通道语音信号进行相位对齐;对相位对齐后的所述多通道语音信号提取空间特征,以及对相位对齐后的所述多通道语音信号提取语谱特征;将所述多通道语音信号的所述空间特征及所述语谱特征输入到语音增强模型,输出语音增强后的多通道语音信号。
[0014]本专利技术还提供一种多通道语音增强模型训练装置,包括:
[0015]训练样本获取模块,用于:根据波束的主瓣位置及期望的主瓣形状仿真产生多通道语音训练样本;其中,所述多通道语音训练样本包括多通道语音正样本及多通道语音负样本,且所述多通道语音正样本包括产生于主瓣内部的语音信号,所述多通道语音负样本的语音信号产生于主瓣外部;
[0016]第一相位对齐模块,用于:获取仿真产生的目标声源方向,根据所述目标声源方向对所述多通道语音训练样本进行相位对齐;
[0017]第一特征提取模块,用于:对相位对齐后的所述多通道语音训练样本提取空间特征,以及对相位对齐后的所述多通道语音训练样本提取语谱特征;
[0018]训练模块,用于:将所述多通道语音训练样本的所述空间特征及所述语谱特征输入到神经网络模型,若所述多通道语音训练样本为所述多通道语音正样本,则将输出标签设置为所述产生于主瓣内部的语音信号,若所述多通道语音训练样本为所述多通道语音负样本,则将所述输出标签设置为0,对所述神经网络模型进行训练,训练完成得到所述语音增强模型。
[0019]本专利技术还提供一种多通道语音增强装置,包括:
[0020]多通道语音信号获取模块,用于:通过数据采集获取多通道语音信号;
[0021]声源定位模块,用于:通过目标声源定位获取声源定位方向;
[0022]第二相位对齐模块,用于:根据所述声源定位方向对所述多通道语音信号进行相位对齐;
[0023]第二特征提取模块,用于:对相位对齐后的所述多通道语音信号提取空间特征,以
及对相位对齐后的所述多通道语音信号提取语谱特征;
[0024]语音增强模块,用于:将所述多通道语音信号的所述空间特征及所述语谱特征输入到语音增强模型,输出语音增强后的多通道语音信号。
[0025]本专利技术还提供一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现如上述任一种所述多通道语音增强模型训练方法或所述多通道语音增强方法的步骤。
[0026]本专利技术还提供一种非暂态计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现如上述任一种所述多通道语音增强模型训练方法或所述多通道语音增强方法的步骤。
[0027]本专利技术还提供一种计算机程序产品,包括计算机程序,所述计算机程序被处本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种多通道语音增强模型训练方法,其特征在于,包括:根据波束的主瓣位置及期望的主瓣形状仿真产生多通道语音训练样本;其中,所述多通道语音训练样本包括多通道语音正样本及多通道语音负样本,且所述多通道语音正样本包括产生于主瓣内部的语音信号,所述多通道语音负样本的语音信号产生于主瓣外部;获取仿真产生的目标声源方向,根据所述目标声源方向对所述多通道语音训练样本进行相位对齐;对相位对齐后的所述多通道语音训练样本提取空间特征,以及对相位对齐后的所述多通道语音训练样本提取语谱特征;将所述多通道语音训练样本的所述空间特征及所述语谱特征输入到神经网络模型,若所述多通道语音训练样本为所述多通道语音正样本,则将输出标签设置为所述产生于主瓣内部的语音信号,若所述多通道语音训练样本为所述多通道语音负样本,则将所述输出标签设置为0,对所述神经网络模型进行训练,训练完成得到所述语音增强模型。2.根据权利要求1所述的多通道语音增强模型训练方法,其特征在于,所述对相位对齐后的所述多通道语音训练样本提取空间特征,包括:对相位对齐后的所述多通道语音训练样本提取相位差特征,将所述相位差特征作为所述空间特征。3.根据权利要求2所述的多通道语音增强模型训练方法,其特征在于,所述空间特征表示为:SpaceFeature_i=mod(angle(Yi)

angle(Yref)+pi,2*pi)

pi其中,SpaceFeature_i表示相位对齐后第i个通道的所述空间特征,Yi表示相位对齐后第i个通道的短时傅里叶谱,Yref表示相位对齐后参考通道的短时傅里叶谱,angle(Yi)表示Yi的辐角,angle(Yref)表示Yref的辐角,pi表示圆周率,mod(a,b)表示对a/b的结果取余,i=2,3,

N表示2~N通道的序号,1为参考通道的序号,N为所述多通道语音训练样本的通道数,所述参考通道为N个通道中的一个。4.根据权利要求1所述的多通道语音增强模型训练方法,其特征在于,所述对相位对齐后的所述多通道语音训练样本提取语谱特征,包括:提取相位对齐后的所述多通道语音训练样本中的其中一个通道的短时傅里叶谱。5.根据权利要求1所述的多通道语音增强模型训练方法,其特征在于,所述将所述多通道语音训练样本的所述空间特征及所述语谱特征输入到神经网络模型,包括:将所述空间特征输入到预设第一层级的卷积神经网络,得到空间特征向量,将所述语谱特征输入到预设第二层级的卷积神经网络,得到语谱特征向量;将所述空间特征向量和所述语谱特征向量输入到深度神经网络。6.一种基于权利要求1至5任一所述方法的多通道语音增强方法,其特征在于,包括:通过数据采集获...

【专利技术属性】
技术研发人员:孙作为沙永涛
申请(专利权)人:贝壳找房北京科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1