【技术实现步骤摘要】
基于编码解码神经网络的回声抑制方法及音频装置及设备
本专利技术涉及音频及网络通讯领域
,特别是一种基于编码解码神经网络的回声抑制方法及装置、设备和存储介质。
技术介绍
在当前使用语音识别系统中,抑制语音中的回声是识别过程中非常重要的一个环节,回声处理的效果将会直接影响到语音识别的效果和结果。特别是,随着视频会议、电话会议等远程会议的广泛应用,在远程会议过程中,从远方传送来的信号(即远端信号)通过会议室的电话的扬声器播放出来,声波被墙壁、地板和天花板等反射,这些反射波和直达波都会被电话的传声器拾取,作为近端的一部分信号发送至远端,形成回声;另外,从手机听筒泄露的声音也会被电话的传声器拾取,作为近端信号的一部分发送给远端,也会形成回声。这些回声具有一定的延迟,当延迟超过50毫秒并且没有衰减或只有很小衰减时,远端的用户就会感觉到清晰的回声。由于这种回声是通过声学途径产生的,因此被称为声学回声(AcousticEcho)。目前传统的抑制回声方法使用的是线性滤波的方式,通过找出声音回声的渐变规律,计算出相关的线性滤波算法 ...
【技术保护点】
1.一种基于编码解码神经网络的回声抑制方法,其特征在于,包括以下步骤:/n获取无回声音频数据,并为所述无回声音频数据添加模拟回声,生成带回声音频数据;/n将所述无回声音频数据转换为无回声频谱图,并提取所述无回声频谱图的频谱特征;以及,将所述带回声音频数据转换为带回声频谱图,并提取所述带回声频谱图的频谱特征;/n根据所述无回声频谱图的频谱特征和所述带回声频谱图的频谱特征搭建编码解码神经网络模型;/n将所述无回声频谱图的频谱特征作为标签数据,将所述带回声频谱图的频谱特征作为输入数据,对所述编码解码神经网络模型进行训练,得到去回声频谱图的预测模型;/n将待处理音频数据转换为频谱图 ...
【技术特征摘要】
1.一种基于编码解码神经网络的回声抑制方法,其特征在于,包括以下步骤:
获取无回声音频数据,并为所述无回声音频数据添加模拟回声,生成带回声音频数据;
将所述无回声音频数据转换为无回声频谱图,并提取所述无回声频谱图的频谱特征;以及,将所述带回声音频数据转换为带回声频谱图,并提取所述带回声频谱图的频谱特征;
根据所述无回声频谱图的频谱特征和所述带回声频谱图的频谱特征搭建编码解码神经网络模型;
将所述无回声频谱图的频谱特征作为标签数据,将所述带回声频谱图的频谱特征作为输入数据,对所述编码解码神经网络模型进行训练,得到去回声频谱图的预测模型;
将待处理音频数据转换为频谱图后输入所述预测模型,输出去回声频谱图,并根据所述去回声频谱图转换得到去回声音频数据。
2.根据权利要求1所述的基于编码解码神经网络的回声抑制方法,其特征在于:通过在安静无回声的环境下录制与人声相关的音频,作为所述无回声音频数据。
3.根据权利要求2所述的基于编码解码神经网络的回声抑制方法,其特征在于:通过Python中的音频处理库将所述无回声音频数据通过FFT算法转换为无回声频谱图;并将所述无回声频谱图的频谱特征通过Embedding嵌入处理转为降维之后的特征数据,将所述特征数据作为所述编码解码神经网络模型的标签数据。
4.根据权利要求1所述的基于编码解码神经网络的回声抑制方法,其特征在于:通过Python中的室内音频阵列处理算法库为音频数据添加模拟回声,通过所述室内音频阵列处理算法库模拟环境的空间大小,以及设置回声的大小和回声的延长时间,生成对应的带回声音频数据。
5.根据权利要求4所述的基于编码解码神经网络的回声抑制方法,其特征在于:通过Python中的音频处理库将所述带回声音频数据通过FFT算法转换为带回声频谱图;并将所述带回声频谱图的频谱特征通过Embedding嵌入处理转为降维之后的特征数据,将所述特征数据作为所述编码解码神经网络模型的输入数据。
6.根据权利要求3或5所述的基于编码解码神经网络的回声抑制方法,其特征在于:所述编码解码神经网络模型进一步包括编码网络和解码网络,其中:
所述编码网络用于对所述无回声频谱图的频谱特征或所述带回声频谱图的频谱特征进行编码操作,并将频谱图的特征维度转换为二维的矩阵结构;...
【专利技术属性】
技术研发人员:曾志先,肖龙源,李稀敏,蔡振华,刘晓葳,
申请(专利权)人:厦门快商通科技股份有限公司,
类型:发明
国别省市:福建;35
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。