一种基于深度神经网络的单通道语音回声消除方法和装置制造方法及图纸

技术编号:36229081 阅读:53 留言:0更新日期:2023-01-04 12:28
本发明专利技术公开了一种基于深度神经网络的单通道语音回声消除方法和装置,所述方法包括:分别计算获得近端和远端频域信号并提取信号特征;对频域信号特征进行拼接后输入至编码框架,编码框架包括3层二维卷积层,以及位于每层二维卷积层后的批正则化层和PReLU层;将编码框架输出的信号特征依次输入1层频率GRU层和1层时间GRU层;将时间GRU层输出的信号特征输入解码框架;对解码框架输出结果进行优化计算后输出语音时域信号。本发明专利技术利用编码

【技术实现步骤摘要】
一种基于深度神经网络的单通道语音回声消除方法和装置


[0001]本说明书涉及音频处理
,尤其涉及一种基于深度神经网络的单通道语音回声消除方法、装置、电子设备和存储介质。

技术介绍

[0002]在远程音视频会议通信系统中,当近端麦克风与扬声器存在耦合时,麦克风将扬声器产生的语音信号重新采集并通过通信系统传送至对端,导致对端听到自己的声音即为回声,回声问题严重影响会议系统的通话质量,回声消除技术对于高质量的远程实时音视频通信具有重要意义。基于信号处理的传统回声消除方法在实际应用中面临非线性回声以及双讲等诸多技术挑战,目前公开的基于深度神经网络的回声消除方法存在模型结构不适合实时推理,以及模型规模过大导致的无法在设备本地低功耗运行等。因此,如何在深度神经网络方法基础上提出具有性能消耗低、模型规模小的回声消除技术,是亟待解决的技术问题。

技术实现思路

[0003]本说明书实施例的目的是针对上述问题,提供一种基于深度神经网络的单通道语音回声消除方法、装置、电子设备和存储介质。
[0004]为解决上述技术问题,本说明书实施例是这样实现的:第一方面,提出一种基于深度神经网络的单通道语音回声消除方法,包括:对近端麦克采集的近端时域信号和远端时域信号分别进行傅里叶变换获得近端频域信号和远端频域信号,以及分别对所述近端频域信号和所述远端频域信号提取信号特征;对所述近端频域信号特征和所述远端频域信号特征进行拼接后输入至编码框架,所述编码框架包括3层二维卷积层,以及依次位于每层所述二维卷积层后的批正则化层和PReLU层;将所述编码框架输出的信号特征依次输入1层频率GRU层和1层时间GRU层;将所述时间GRU层输出的信号特征输入解码框架,所述解码框架包括对应于所述编码框架中所述二维卷积层的转置卷积层,以及依次位于每层所述转置卷积层后的所述批正则化层和所述PReLU层;对所述解码框架输出结果进行优化计算后输出语音时域信号。
[0005]进一步地,所述二维卷积层的卷积核分别为,和,以及与所述卷积核对应的步长分别为,和;和/或,所述频率GRU层和所述时间GRU层的节点数均为32;和/或,所述转置卷积层的卷积核分别为,和,以及与所述卷积核
对应的步长分别为,和;和/或,所述编码框架与所述解码框架之间使用跳跃连接进行信息交互。
[0006]进一步地,对近端麦克采集的近端时域信号和远端时域信号分别进行傅里叶变换获得近端频域信号和远端频域信号,以及分别对所述近端频域信号和所述远端频域信号提取信号特征的过程,包括:分别对所述近端时域信号和所述远端时域信号进行傅里叶变换:,;其中,所述傅里叶变换点数为512;获取所述近端频域信号的幅度和所述远端频域信号幅度;计算输出所述近端频域信号特征和所述远端频域信号特征,所述近端频域信号特征和所述远端频域信号特征分别包括257个频点。
[0007]进一步地,对所述近端频域信号特征和所述远端频域信号特征进行拼接后输入至编码框架的工作过程,包括:拼接所述近端频域信号特征和所述远端频域信号特征形成第一拼接频域信号特征,所述第一拼接频域信号特征包括514个频点;将所述第一拼接频域信号特征输入所述编码框架,并依据所述二维卷积层数先后通过对应的所述二维卷积层、所述批正则化层和所述PReLU层,计算获得第一频域信号特征;输出所述第一频域信号特征。
[0008]进一步地,将所述时间GRU层输出的信号特征输入解码框架过程,包括:将所述第一频域信号特征依次经过所述频率GRU层和所述时间GRU层的第二频域信号特征输入所述解码框架,并依据所述转置卷积层数先后通过对应的所述转置卷积层、所述批正则化层和所述PReLU层,计算获得第三频域信号特征;输出所述第三频域信号特征。
[0009]进一步地,对所述解码框架输出结果进行优化计算后输出语音时域信号的过程,包括:根据所述第三频域信号特征获得对应复数理想比率掩膜;将所述复数理想比率掩膜的实部和虚部分别作用于所述近端频域信号的实部和虚部,计算得到优化后的所述近端频域信号的实部=和虚部=;对优化后的所述近端频域信号进行傅里叶逆变换输出近端时域信号。
[0010]进一步地,其特征在于,还包括在语音回声消除过程进行神经网络训练,使用损失函数为,其中,,
,其中,V为纯净近端语音信号经傅里叶变换之后的频域表示,V
r
为V的实部,V
i
为V的虚部;和/或,使用的优化器为学习率为0.001的Adam优化器,所述学习率依据优化预设轮次和/或优化验证结果进行调整。
[0011]第二方面,提出一种基于深度神经网络的单通道语音回声消除装置,包括:第一模块,能够对近端麦克采集的近端时域信号和远端时域信号分别进行傅里叶变换获得近端频域信号和远端频域信号,以及分别对所述近端频域信号和所述远端频域信号提取信号特征;第二模块,能够对所述近端频域信号特征和所述远端频域信号特征进行拼接后输入至编码框架,所述编码框架包括3层二维卷积层以及依次位于每层所述二维卷积层后的批正则化层和PReLU层;第三模块,能够将所述编码框架输出的信号特征依次输入1层频率GRU层和1层时间GRU层;第四模块,能够将所述时间GRU层输出的信号特征输入解码框架,所述解码框架包括对应于所述编码框架的所述二维卷积层的转置卷积层,以及依次位于每层所述转置卷积层后的所述批正则化层和所述PReLU层;第五模块,能够对所述解码框架输出结果进行优化计算后输出语音时域信号。
[0012]第三方面,提出一种计算机设备,包括:处理器、存储器和总线,所述存储器存储有所述处理器可执行的机器可读指令,当计算机设备运行时,所述处理器与所述存储器之间通过总线通信,所述机器可读指令被所述处理器执行时执行第一方面所述的方法。
[0013]第四方面,提出一种计算机可读存储介质,该计算机可读存储介质上存储有计算机程序,该计算机程序被处理器运行时执行第一方面所述的方法。
[0014]本说明书至少可以达到以下技术效果:本专利技术方案基于编码

解码框架的U型网络结构,充分利用了时频特征中频点间的相关性,具有模型规模小、参数量较少、性能消耗低等特点,可以实时运行于本地设备,达到了较好的回声抑制效果。
附图说明
[0015]为了更清楚地说明本说明书实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本说明书中记载的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
[0016]图1为本说明书实施例提供的基于深度神经网络的单通道语音回声消除方法示意图之一。
[0017]图2为本说明书实施例提供的基于深度神经网络的单通道语音回声消除方法示意图之二。
[0018]图3为本说明书实施例提供的基于深度神经网络的单通道语音回声消除方法示意图之三。
[0019]图4为本说明书实施例提供的基于深度神经网络的单通道语音本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于深度神经网络的单通道语音回声消除方法,其特征在于,包括:对近端麦克采集的近端时域信号和远端时域信号分别进行傅里叶变换获得近端频域信号和远端频域信号,以及分别对所述近端频域信号和所述远端频域信号提取信号特征;对所述近端频域信号特征和所述远端频域信号特征进行拼接后输入至编码框架,所述编码框架包括3层二维卷积层,以及依次位于每层所述二维卷积层后的批正则化层和PReLU层;将所述编码框架输出的信号特征依次输入1层频率GRU层和1层时间GRU层;将所述时间GRU层输出的信号特征输入解码框架,所述解码框架包括对应于所述编码框架中所述二维卷积层的转置卷积层,以及依次位于每层所述转置卷积层后的所述批正则化层和所述PReLU层;对所述解码框架输出结果进行优化计算后输出语音时域信号。2.根据权利要求1所述的基于深度神经网络的单通道语音回声消除方法,其特征在于,所述二维卷积层的卷积核分别为,和,以及与所述卷积核对应的步长分别为,和;和/或,所述频率GRU层和所述时间GRU层的节点数均为32;和/或,所述转置卷积层的卷积核分别为,和,以及与所述卷积核对应的步长分别为,和;和/或,所述编码框架与所述解码框架之间使用跳跃连接进行信息交互。3.根据权利要求2所述的基于深度神经网络的单通道语音回声消除方法,其特征在于,对近端麦克采集的近端时域信号和远端时域信号分别进行傅里叶变换获得近端频域信号和远端频域信号,以及分别对所述近端频域信号和所述远端频域信号提取信号特征的过程,包括:分别对所述近端时域信号和所述远端时域信号进行傅里叶变换:,;其中,所述傅里叶变换点数为512;获取所述近端频域信号的幅度和所述远端频域信号幅度;计算输出所述近端频域信号特征和所述远端频域信号特征,所述近端频域信号特征和所述远端频域信号特征分别包括257个频点。4.根据权利要求3所述的基于深度神经网络的单通道语音回声消除方法,其特征在于,对所述近端频域信号特征和所述远端频域信号特征进行拼接后输入至编码框架的工作过程,包括:拼接所述近端频域信号特征和所述远端频域信号特征形成第一拼接频域信号特征,所述第一拼接频域信号特征包括514个频点;将所述第一拼接频域信号特征输入所述编码框架,并依据所述二维卷积层数先后通过
对应的所述二维卷积层、所述批正则化层和所述PReLU层,计算获得第一频域信号特征;输出所述第一频域信号特征。5.根据权利要求4所述的基于深度神经网络的单通道语音回声消除方法,其特征在于,将所述时间GRU层输出的信号特征输入解码框架过程,包括:将所述第一频域信号特征依次经过所述频率...

【专利技术属性】
技术研发人员:杨亮顾骋赵元军
申请(专利权)人:全时云商务服务股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1