一种基于深度神经网络的单通道语音回声消除方法和装置制造方法及图纸

技术编号：36229081 阅读：53 留言：0更新日期：2023-01-04 12:28

本发明专利技术公开了一种基于深度神经网络的单通道语音回声消除方法和装置，所述方法包括：分别计算获得近端和远端频域信号并提取信号特征；对频域信号特征进行拼接后输入至编码框架，编码框架包括3层二维卷积层，以及位于每层二维卷积层后的批正则化层和PReLU层；将编码框架输出的信号特征依次输入1层频率GRU层和1层时间GRU层；将时间GRU层输出的信号特征输入解码框架；对解码框架输出结果进行优化计算后输出语音时域信号。本发明专利技术利用编码

全部详细技术资料下载

【技术实现步骤摘要】
一种基于深度神经网络的单通道语音回声消除方法和装置

[0001]本说明书涉及音频处理
，尤其涉及一种基于深度神经网络的单通道语音回声消除方法、装置、电子设备和存储介质。

技术介绍

[0002]在远程音视频会议通信系统中，当近端麦克风与扬声器存在耦合时，麦克风将扬声器产生的语音信号重新采集并通过通信系统传送至对端，导致对端听到自己的声音即为回声，回声问题严重影响会议系统的通话质量，回声消除技术对于高质量的远程实时音视频通信具有重要意义。基于信号处理的传统回声消除方法在实际应用中面临非线性回声以及双讲等诸多技术挑战，目前公开的基于深度神经网络的回声消除方法存在模型结构不适合实时推理，以及模型规模过大导致的无法在设备本地低功耗运行等。因此，如何在深度神经网络方法基础上提出具有性能消耗低、模型规模小的回声消除技术，是亟待解决的技术问题。

技术实现思路

[0003]本说明书实施例的目的是针对上述问题，提供一种基于深度神经网络的单通道语音回声消除方法、装置、电子设备和存储介质。
[0004]为解决上述技术问题，本说明书实施例是这样实现的：第一方面，提出一种基于深度神经网络的单通道语音回声消除方法，包括：对近端麦克采集的近端时域信号和远端时域信号分别进行傅里叶变换获得近端频域信号和远端频域信号，以及分别对所述近端频域信号和所述远端频域信号提取信号特征；对所述近端频域信号特征和所述远端频域信号特征进行拼接后输入至编码框架，所述编码框架包括3层二维卷积层，以及依次位于每层所述二维卷积层后的批正则化层和PR...

【技术保护点】

【技术特征摘要】
1.一种基于深度神经网络的单通道语音回声消除方法，其特征在于，包括：对近端麦克采集的近端时域信号和远端时域信号分别进行傅里叶变换获得近端频域信号和远端频域信号，以及分别对所述近端频域信号和所述远端频域信号提取信号特征；对所述近端频域信号特征和所述远端频域信号特征进行拼接后输入至编码框架，所述编码框架包括3层二维卷积层，以及依次位于每层所述二维卷积层后的批正则化层和PReLU层；将所述编码框架输出的信号特征依次输入1层频率GRU层和1层时间GRU层；将所述时间GRU层输出的信号特征输入解码框架，所述解码框架包括对应于所述编码框架中所述二维卷积层的转置卷积层，以及依次位于每层所述转置卷积层后的所述批正则化层和所述PReLU层；对所述解码框架输出结果进行优化计算后输出语音时域信号。2.根据权利要求1所述的基于深度神经网络的单通道语音回声消除方法，其特征在于，所述二维卷积层的卷积核分别为，和，以及与所述卷积核对应的步长分别为，和；和/或，所述频率GRU层和所述时间GRU层的节点数均为32；和/或，所述转置卷积层的卷积核分别为，和，以及与所述卷积核对应的步长分别为，和；和/或，所述编码框架与所述解码框架之间使用跳跃连接进行信息交互。3.根据权利要求2所述的基于深度神经网络的单通道语音回声消除方法，其特征在于，对近端麦克采集的近端时域信号和远端时域信号分别进行傅里叶变换获得近端频域信号和远端频域信号，以及分别对所述近端频域信号和所述远端频域信号提取信号特征的过程，包括：分别对所述近端时域信号和所述远端时域信号进行傅里叶变换：，；其中，所述傅里叶变换点数为512；获取所述近端频域信号的幅度和所述远端频域信号幅度；计算输出所述近端频域信号特征和所述远端频域信号特征，所述近端频域信号特征和所述远端频域信号特征分别包括257个频点。4.根据权利要求3所述的基于深度神经网络的单通道语音回声消除方法，其特征在于，对所述近端频域信号特征和所述远端频域信号特征进行拼接后输入至编码框架的工作过程，包括：拼接所述近端频域信号特征和所述远端频域信号特征形成第一拼接频域信号特征，所述第一拼接频域信号特征包括514个频点；将所述第一拼接频域信号特征输入所述编码框架，并依据所述二维卷积层数先后通过
对应的所述二维卷积层、所述批正则化层和所述PReLU层，计算获得第一频域信号特征；输出所述第一频域信号特征。5.根据权利要求4所述的基于深度神经网络的单通道语音回声消除方法，其特征在于，将所述时间GRU层输出的信号特征输入解码框架过程，包括：将所述第一频域信号特征依次经过所述频率...

【专利技术属性】
技术研发人员：杨亮，顾骋，赵元军，
申请(专利权)人：全时云商务服务股份有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人