【技术实现步骤摘要】
联合模型训练方法及系统
本专利技术涉及声源定位领域,尤其涉及一种联合模型训练方法及系统。
技术介绍
声源定位是根据接收的语音信号估计扬声器DOA(Directionofarrival,波达方向)的任务,DOA估计对于各种应用是必不可少的,例如人机交互和电话会议,并且还广泛用于语音增强的波束形成。例如,在聊天视频中加入了声源定位,随着聊天用户位置的变化,另一端的用户接收的声音可以感受到对方位置的变化,提升用户的体验。为了确定波达方向可以使用基于关键词的目标说话人定位方法:用神经网络单独估计时频掩模,然后利用估计出的掩模对波达方向估计方法的输入特征进行增强,或者使用基于声学矢量传感器的时频掩模与波达方向估计网络联合训练方法:将时频掩模网络和波达方向估计网络共同训练进而确定波达方向。在实现本专利技术过程中,专利技术人发现相关技术中至少存在如下问题:基于关键词的目标说话人定位方法:由于它单独训练掩模网络,得到的时频掩模与定位任务是相互独立的,不能保证达到最好的定位性能;而且它采用的输入特征是预提取的正-余弦通道间相位差特征,增加了额外的计算量。基于声学矢量传感器的时频掩模 ...
【技术保护点】
1.一种联合模型训练方法,包括:隐式地提取带噪语音训练集的相位谱以及对数幅度谱;利用所述对数幅度谱拓展后的幅度谱片段作为时频掩模网络的输入特征,利用带噪语音训练集和干净语音训练集确定用于训练所述时频掩模网络的目标掩模标签,基于所述输入特征和所述目标掩模标签,训练所述时频掩模网络,估计出软阈值掩模;利用所述软阈值掩模对所述带噪语音训练集的相位谱进行增强,将增强后的相位谱作为所述波达方向估计网络的输入特征,以训练所述波达方向估计网络。
【技术特征摘要】
1.一种联合模型训练方法,包括:隐式地提取带噪语音训练集的相位谱以及对数幅度谱;利用所述对数幅度谱拓展后的幅度谱片段作为时频掩模网络的输入特征,利用带噪语音训练集和干净语音训练集确定用于训练所述时频掩模网络的目标掩模标签,基于所述输入特征和所述目标掩模标签,训练所述时频掩模网络,估计出软阈值掩模;利用所述软阈值掩模对所述带噪语音训练集的相位谱进行增强,将增强后的相位谱作为所述波达方向估计网络的输入特征,以训练所述波达方向估计网络。2.根据权利要求1所述的方法,其中,所述带噪语音训练集包括带噪的训练音频,所述干净语音训练集包括与所述带噪的训练音频内容相同的干净的训练音频。3.根据权利要求1所述的方法,其中,所述利用所述软阈值掩模对所述带噪语音训练集的相位谱进行增强包括:将所述软阈值掩模与所述带噪语音训练集的相位谱相乘,得到增强后的相位谱。4.根据权利要求1所述的方法,其中,所述隐式地提取带噪语音训练集的相位谱以及对数幅度谱包括:通过短时傅里叶变换提取出所述带噪语音训练集的相位谱以及对数幅度谱。5.一种联合模型训练系统,包括:特征提取程序模块,用于隐式地提取带噪语音训练集的相位谱以及对数幅度谱;软阈值掩模估计程序模块,用于利用所述对数幅度谱拓展后的幅度谱片段作为时频掩模网络的...
【专利技术属性】
技术研发人员:钱彦旻,张王优,周瑛,
申请(专利权)人:苏州思必驰信息科技有限公司,
类型:发明
国别省市:江苏,32
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。