模型训练及多通道语音增强方法、装置及设备制造方法及图纸

技术编号:41521957 阅读:16 留言:0更新日期:2024-05-30 14:56
本申请公开了模型训练及多通道语音增强方法、装置及设备。由于多通道音频样本包括模拟多通道音频数据以及采集多通道音频数据,且样本噪声库中的多通道噪声样本包括模拟多通道噪声数据以及采集多通道噪声数据,使得获取到的多通道含噪音频样本不仅增强数据多样性,还考虑了真实世界中目标型号车辆的噪声环境条件,比如线路回声以及多通道漏音等,而在此基础上所训练的多通道音区分离模型更具鲁棒性且更加适应真实世界中目标型号车辆的噪声环境条件,从而更好的为目标型号车辆提供服务,有效抑制线路回声以及避免多通道间漏音问题。通过该多通道音区模型即可对采集的到多通道语音信号进行处理,无需提前进行线路回声去除,提高了语音增强的效率。

【技术实现步骤摘要】

本申请涉及数字信号处理及深度学习,尤其涉及一种模型训练及多通道语音增强方法、装置及设备


技术介绍

1、在车载系统的通信和交互设计中,音区分离技术扮演着重要的角色。这种技术使得系统能够在车辆嘈杂的环境中区分和识别出司机或乘客的语音指令以及电话通信中的语音信号。为了实现这一目标,音区分离技术需解决车内噪音、音乐、路面噪声、以及乘客交谈等声源的干扰问题。

2、相关技术中,基于深度神经网络的多通道音区分离模型逐渐成为研究的热点。这些模型利用神经网络的强大表示学习能力,通过训练网络来学习音频信号的特征表示和分离方法。但在车内通话质量方面,线路回声是一个多通道音区分离模型面临的主要难题,该线路回声是由扬声器放出的声音被麦克风捕捉并再次传回通话过程中产生的。为了抑制线路回声,通常采用声学回声消除(acoustic echo cancellation,aec)技术。aec技术通过创建一个模拟的回声信号来抵消麦克风捕获的回声成分。然而,aec技术可能无法完全去除所有回声,特别是在车辆内部环境变化或背景噪声水平变化时。在这种情况下,残余回声抑制(residual本文档来自技高网...

【技术保护点】

1.一种多通道音区分离模型的训练方法,其特征在于,所述方法包括:

2.如权利要求1所述的方法,其特征在于,所述采集多通道音频数据包括第一多通道音频数据以及第二多通道音频数据;其中,所述第一多通道音频数据是通过将所述目标型号车辆中对应不同区域且来自不同发音人的单发音人音频数据混合获取到的,所述单发音人音频数据是在所述目标型号车辆未开启车内通信系统的情况下采集的,所述第二多通道音频数据是在所述目标型号车辆开启所述车内通信系统的情况下,对采集到的多通道多发音人音频数据进行线路回声去除处理后获取到的。

3.如权利要求1所述的方法,其特征在于,获取所述模拟多通道音频数据,包...

【技术特征摘要】

1.一种多通道音区分离模型的训练方法,其特征在于,所述方法包括:

2.如权利要求1所述的方法,其特征在于,所述采集多通道音频数据包括第一多通道音频数据以及第二多通道音频数据;其中,所述第一多通道音频数据是通过将所述目标型号车辆中对应不同区域且来自不同发音人的单发音人音频数据混合获取到的,所述单发音人音频数据是在所述目标型号车辆未开启车内通信系统的情况下采集的,所述第二多通道音频数据是在所述目标型号车辆开启所述车内通信系统的情况下,对采集到的多通道多发音人音频数据进行线路回声去除处理后获取到的。

3.如权利要求1所述的方法,其特征在于,获取所述模拟多通道音频数据,包括:

4.如权利要求1所述的方法,其特征在于,所述编码器和所述解码器之间采用所述瓶颈层连接,所述编码器和所述解码器具有数量相同的多级处理单元,同一级的处理单元之间设置有层间跳跃连接。

5.如权利要求4所述的方法,其特征在于,任一处理单元包括归一化层、激活层以及至少一个密集连接块,任一密集连接块包括至少一个卷积神经网络,...

【专利技术属性】
技术研发人员:刘亮戴玮关海欣梁家恩
申请(专利权)人:云知声智能科技股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1