一种时延估计系统及装置制造方法及图纸

技术编号：36877471 阅读：48 留言：0更新日期：2023-03-15 20:49

本发明专利技术提供了一种时延估计系统及装置，所述系统基于编码器

全部详细技术资料下载

【技术实现步骤摘要】
一种时延估计系统及装置

[0001]本专利技术属于音频信号处理领域，具体涉及一种时延估计系统及装置。

技术介绍

[0002]在语音通信、人机交互等应用中，扬声器播放的信号又被传声器接收，造成通信质量和语音识别率下降，这就是声学回声问题。声学回声抵消利用远端信号作为参考，从近端传声器接收信号中消除回声的干扰。回声抵消的解决方案包括自适应滤波、深度学习和混合模型。
[0003]在线会议等系统的快速发展对回声抵消提出了新的挑战，时延估计是其中的一个关键问题。网络传输、数模或模数转换、语音编解码和信号预处理等实际情况，会导致超长时延和时变时延的问题。时延会导致回声抵消算法性能下降，因而需要在回声抵消前增加一个时延估器。时延估计器估计参考信号与回声信号之间的时延，并利用估计的时延对齐参考信号。时延估计的代表性算法包括广义互相关(Generalized Cross Correlation with Phase Transform,GCC
‑
PHAT)法、WebRTC中的帧能量对比法、参数模型法等。GCC
‑
PHAT方法在大时延时复杂度较高，无法满足实时估计要求。帧能量对比法需要提前测量时延值的更新概率，参数模型利用降采样后的信号进行初步的回声路径估计，根据滤波器的峰值位置求时延。这两种方法在长混响、非线性回声和双端对讲场景下性能下降。而在实际使用场景中，由于设备的多样性，长时延、时变时延、长混响、非线性回声和低信号回声比都是不可避免的问题。
[0004]随着深度学习技术的不断发...

【技术保护点】

【技术特征摘要】
1.一种时延估计系统，所述系统基于编码器
‑
时序建模结构实现，用于经过训练后，计算时延估计值；其特征在于，所述系统包括：信号时频特征提取模块(101)，用于提取输入的远端参考信号和传声器信号的时频特征；编码器模块(102)，用于对信号时频特征提取模块(101)输出的时频特征进行模式识别，得到频率分辨率更低、通道数更多的信号特征；时序建模模块(103)，用于利用编码器模块(102)输出的信号特征提取远端参考信号和传声器信号之间的时延特征；时延分类器(104)，用于对时序建模模块(103)输出的时延特征分类得到时延估计位；时延计算模块(105)，用于根据时延分类器(104)输出的时延估计位计算得到估计的时延块数，将估计的时延块数与时延估计精度相乘，得到时延估计值。2.根据权利要求1所述的时延估计系统，其特征在于，所述信号时频特征提取模块(101)的工作流程具体为：对远端参考信号和传声器信号做短时傅里叶变换得到由时间帧和频率块两个维度组成的时频特征。3.根据权利要求1所述的时延估计系统，其特征在于，所述编码器模块(102)包括多个编码器基本单元。4.根据权利要求3所述的时延估计系统，其特征在于，所述编码器基本单元包括复数二维卷积层(301)、复数批归一化层(302)和复数参数化整流线性单元(303)；所述复数二维卷积层(301)，用于对信号时频特征提取模块(101)输出的时频特征做基于复数运算规则的二维卷积，得到频率分辨率更低、通道数更多的复数信号特征；所述复数批归一化层(302)，用于对复数二维卷积层(301)输出的复数信号特征做基于复数运算规则的批归一化，得到批归一化后的复数信号特征；所述复数参数化整流线性单元层(303)，用于对复数批归一化层(302)的输出做基于复数运算规则的非线性变换，将复数信号特征映射到更适合网络训练的值域，得到编码器基本单元的输出信号特征。5.根据权利要求1所述的时延估计系统，其特征在于，所述时序建模模块(103)包括维度调整单元、复数门控循环单元、取幅度单元和实数门控循环单元；所述维度调整单元，用于对编码器模块(102)的输出信号特征进行维度调整，将输出信号特征在通道维度上将实部、虚部拆分开来，具体地将通道按顺序拆分成两半，前一半为信号特征的实部，后一半为信号特征的虚部；然后将信号特征的实部、虚部的通道、频率块两个维度重新排列到同一个维度中；具体地，按通道顺序拼接各频率块，得到适用于输入到循环神经网络中运算的信号特征的实部和虚部；所述复数门控循环单元输入神经元数为H1，隐含神经元数为H2；所述复数门控循环单元，用于利用维度调整单元的输出做基于复数运算规则的门控循环，得到复数门控循环单元的输出特征的实部和虚部；所述取幅度单元，用于将复数门控循环单元输出的实部和虚部平方相加后开方，得到相应的幅度特征，输入到实数门控循环单元；所述实数门控循环单元输入神经元数为H2/2，隐含神经元数为H3；所述实数门控循环
单元，用于得到时序建模模块(103)的输出特征，即远端参考信号和传声器信号之间的时延特征。6.根据权利要求1所述的时延估计系统，其特征在于，所述时延分类器(104)包括由线性层堆叠成的I元分类器、推断单元和训练单元；所述由线性层堆叠成的I元分类器输入神经元数为H3，输出神经元数为I；所述由线性层堆叠成的I元分类器，用于根据时序建模模块(103)输出的时延特征得到各时延类对应的分类概率；若是推断阶段，则输出至推断单元，若是训练阶段，则输出至训练单元；所述推断单元，用于对I元分类器输出的分类概率做硬最大化操作，得到概率最大的时延估计位，输出至时延计算模块(105)；所述训练单元，用于对I元分类器输出的分类概率做软最大化操作，确保每个时间帧的各时延估计位的概率之和为1，用于与训练标签进行损失计算。7.根据权利要求1所述的时延估计系统，其特征在于，所述时延计算模块(105)使用的时延估计精度为短时傅...

【专利技术属性】
技术研发人员：刘杨，杨飞然，杨军，
申请(专利权)人：中国科学院声学研究所，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人