一种时延估计系统及装置制造方法及图纸

技术编号:36877471 阅读:48 留言:0更新日期:2023-03-15 20:49
本发明专利技术提供了一种时延估计系统及装置,所述系统基于编码器

【技术实现步骤摘要】
一种时延估计系统及装置


[0001]本专利技术属于音频信号处理领域,具体涉及一种时延估计系统及装置。

技术介绍

[0002]在语音通信、人机交互等应用中,扬声器播放的信号又被传声器接收,造成通信质量和语音识别率下降,这就是声学回声问题。声学回声抵消利用远端信号作为参考,从近端传声器接收信号中消除回声的干扰。回声抵消的解决方案包括自适应滤波、深度学习和混合模型。
[0003]在线会议等系统的快速发展对回声抵消提出了新的挑战,时延估计是其中的一个关键问题。网络传输、数模或模数转换、语音编解码和信号预处理等实际情况,会导致超长时延和时变时延的问题。时延会导致回声抵消算法性能下降,因而需要在回声抵消前增加一个时延估器。时延估计器估计参考信号与回声信号之间的时延,并利用估计的时延对齐参考信号。时延估计的代表性算法包括广义互相关(Generalized Cross Correlation with Phase Transform,GCC

PHAT)法、WebRTC中的帧能量对比法、参数模型法等。GCC

PHAT方法在大时延时复杂度较高,无法满足实时估计要求。帧能量对比法需要提前测量时延值的更新概率,参数模型利用降采样后的信号进行初步的回声路径估计,根据滤波器的峰值位置求时延。这两种方法在长混响、非线性回声和双端对讲场景下性能下降。而在实际使用场景中,由于设备的多样性,长时延、时变时延、长混响、非线性回声和低信号回声比都是不可避免的问题。
[0004]随着深度学习技术的不断发展,编码器

时序建模

解码器的结构在深度学习语音增强、回声抵消中表现优异。在波达时间差估计领域已有将信号相关系数作为特征输入到全连接网络中来估计时延的方法,但此类方法在估计长时延时计算量过大,并且全连接网络也不具备记忆能力。现有的时延估计方法存在计算量大、复杂声环境性能退化的问题。

技术实现思路

[0005]本专利技术的目的在于克服现有时延估计技术存在长混响、大时延和双端对讲容易误估计的缺陷。
[0006]为了实现上述目的,本专利技术提出了一种时延估计系统,所述系统基于编码器

时序建模结构实现,用于经过训练后,计算时延估计值;所述系统包括:
[0007]信号时频特征提取模块,用于提取输入的远端参考信号和传声器信号的时频特征;
[0008]编码器模块,用于对信号时频特征提取模块输出的时频特征进行模式识别,得到频率分辨率更低、通道数更多的信号特征;
[0009]时序建模模块,用于利用编码器模块输出的信号特征提取远端参考信号和传声器信号之间的时延特征;
[0010]时延分类器,用于对时序建模模块输出的时延特征分类得到时延估计位;
[0011]时延计算模块,用于根据时延分类器输出的时延估计位计算得到估计的时延块数,将估计的时延块数与时延估计精度相乘,得到时延估计值。
[0012]作为上述系统的一种改进,所述信号时频特征提取模块的工作流程具体为:对远端参考信号和传声器信号做短时傅里叶变换得到由时间帧和频率块两个维度组成的时频特征。
[0013]作为上述系统的一种改进,所述编码器模块包括多个编码器基本单元。
[0014]作为上述系统的一种改进,所述编码器基本单元包括复数二维卷积层、复数批归一化层和复数参数化整流线性单元;
[0015]所述复数二维卷积层,用于对信号时频特征提取模块输出的时频特征做基于复数运算规则的二维卷积,得到频率分辨率更低、通道数更多的复数信号特征;
[0016]所述复数批归一化层,用于对复数二维卷积层输出的复数信号特征做基于复数运算规则的批归一化,得到批归一化后的复数信号特征;
[0017]所述复数参数化整流线性单元层,用于对复数批归一化层的输出做基于复数运算规则的非线性变换,将复数信号特征映射到更适合网络训练的值域,得到编码器基本单元的输出信号特征。
[0018]作为上述系统的一种改进,所述时序建模模块包括维度调整单元、复数门控循环单元、取幅度单元和实数门控循环单元;
[0019]所述维度调整单元,用于对编码器模块的输出信号特征进行维度调整,将输出信号特征在通道维度上将实部、虚部拆分开来,具体地将通道按顺序拆分成两半,前一半为信号特征的实部,后一半为信号特征的虚部;
[0020]然后将信号特征的实部、虚部的通道、频率块两个维度重新排列到同一个维度中;具体地,按通道顺序拼接各频率块,得到适用于输入到循环神经网络中运算的信号特征的实部和虚部;
[0021]所述复数门控循环单元输入神经元数为H1,隐含神经元数为H2;所述复数门控循环单元,用于利用维度调整单元的输出做基于复数运算规则的门控循环,得到复数门控循环单元的输出特征的实部和虚部;
[0022]所述取幅度单元,用于将复数门控循环单元输出的实部和虚部平方相加后开方,得到相应的幅度特征,输入到实数门控循环单元;
[0023]所述实数门控循环单元输入神经元数为H2/2,隐含神经元数为H3;所述实数门控循环单元,用于得到时序建模模块的输出特征,即远端参考信号和传声器信号之间的时延特征。
[0024]作为上述系统的一种改进,所述时延分类器包括由线性层堆叠成的I元分类器、推断单元和训练单元;
[0025]所述由线性层堆叠成的I元分类器输入神经元数为H3,输出神经元数为I;所述由线性层堆叠成的I元分类器,用于根据时序建模模块输出的时延特征得到各时延类对应的分类概率;若是推断阶段,则输出至推断单元,若是训练阶段,则输出至训练单元;
[0026]所述推断单元,用于对I元分类器输出的分类概率做硬最大化操作,得到概率最大的时延估计位,输出至时延计算模块;
[0027]所述训练单元,用于对I元分类器输出的分类概率做软最大化操作,确保每个时间
帧的各时延估计位的概率之和为1,用于与训练标签进行损失计算。
[0028]作为上述系统的一种改进,所述时延计算模块使用的时延估计精度为短时傅里叶变换的帧移除以采样率。
[0029]作为上述系统的一种改进,所述系统的训练的方法包括:
[0030]步骤1:构建训练集,每组样本包括远端参考信号、传声器信号和时延真值;
[0031]步骤1

1:分别采集语音信号和噪声信号;
[0032]步骤1

2:将采集到的语音信号分为远端和近端语音信号;
[0033]步骤1

3:生成房间脉冲响应;
[0034]步骤1

4:对远端参考信号做非线性变换;
[0035]步骤1

5:将房间脉冲响应信号与经非线性变换后的远端参考信号卷积,得到回声信号;
[0036]步骤1

6:在设定范围内取随机数,得到一例时延真值,并在回声信号前补零,得到相应的延时后的回声信号;<本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种时延估计系统,所述系统基于编码器

时序建模结构实现,用于经过训练后,计算时延估计值;其特征在于,所述系统包括:信号时频特征提取模块(101),用于提取输入的远端参考信号和传声器信号的时频特征;编码器模块(102),用于对信号时频特征提取模块(101)输出的时频特征进行模式识别,得到频率分辨率更低、通道数更多的信号特征;时序建模模块(103),用于利用编码器模块(102)输出的信号特征提取远端参考信号和传声器信号之间的时延特征;时延分类器(104),用于对时序建模模块(103)输出的时延特征分类得到时延估计位;时延计算模块(105),用于根据时延分类器(104)输出的时延估计位计算得到估计的时延块数,将估计的时延块数与时延估计精度相乘,得到时延估计值。2.根据权利要求1所述的时延估计系统,其特征在于,所述信号时频特征提取模块(101)的工作流程具体为:对远端参考信号和传声器信号做短时傅里叶变换得到由时间帧和频率块两个维度组成的时频特征。3.根据权利要求1所述的时延估计系统,其特征在于,所述编码器模块(102)包括多个编码器基本单元。4.根据权利要求3所述的时延估计系统,其特征在于,所述编码器基本单元包括复数二维卷积层(301)、复数批归一化层(302)和复数参数化整流线性单元(303);所述复数二维卷积层(301),用于对信号时频特征提取模块(101)输出的时频特征做基于复数运算规则的二维卷积,得到频率分辨率更低、通道数更多的复数信号特征;所述复数批归一化层(302),用于对复数二维卷积层(301)输出的复数信号特征做基于复数运算规则的批归一化,得到批归一化后的复数信号特征;所述复数参数化整流线性单元层(303),用于对复数批归一化层(302)的输出做基于复数运算规则的非线性变换,将复数信号特征映射到更适合网络训练的值域,得到编码器基本单元的输出信号特征。5.根据权利要求1所述的时延估计系统,其特征在于,所述时序建模模块(103)包括维度调整单元、复数门控循环单元、取幅度单元和实数门控循环单元;所述维度调整单元,用于对编码器模块(102)的输出信号特征进行维度调整,将输出信号特征在通道维度上将实部、虚部拆分开来,具体地将通道按顺序拆分成两半,前一半为信号特征的实部,后一半为信号特征的虚部;然后将信号特征的实部、虚部的通道、频率块两个维度重新排列到同一个维度中;具体地,按通道顺序拼接各频率块,得到适用于输入到循环神经网络中运算的信号特征的实部和虚部;所述复数门控循环单元输入神经元数为H1,隐含神经元数为H2;所述复数门控循环单元,用于利用维度调整单元的输出做基于复数运算规则的门控循环,得到复数门控循环单元的输出特征的实部和虚部;所述取幅度单元,用于将复数门控循环单元输出的实部和虚部平方相加后开方,得到相应的幅度特征,输入到实数门控循环单元;所述实数门控循环单元输入神经元数为H2/2,隐含神经元数为H3;所述实数门控循环
单元,用于得到时序建模模块(103)的输出特征,即远端参考信号和传声器信号之间的时延特征。6.根据权利要求1所述的时延估计系统,其特征在于,所述时延分类器(104)包括由线性层堆叠成的I元分类器、推断单元和训练单元;所述由线性层堆叠成的I元分类器输入神经元数为H3,输出神经元数为I;所述由线性层堆叠成的I元分类器,用于根据时序建模模块(103)输出的时延特征得到各时延类对应的分类概率;若是推断阶段,则输出至推断单元,若是训练阶段,则输出至训练单元;所述推断单元,用于对I元分类器输出的分类概率做硬最大化操作,得到概率最大的时延估计位,输出至时延计算模块(105);所述训练单元,用于对I元分类器输出的分类概率做软最大化操作,确保每个时间帧的各时延估计位的概率之和为1,用于与训练标签进行损失计算。7.根据权利要求1所述的时延估计系统,其特征在于,所述时延计算模块(105)使用的时延估计精度为短时傅...

【专利技术属性】
技术研发人员:刘杨杨飞然杨军
申请(专利权)人:中国科学院声学研究所
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1