通过隐藏音频信号的回声控制制造技术

技术编号:9571744 阅读:90 留言:0更新日期:2014-01-16 04:29
本文涉及回声消除和/或回声抑制。特别地,本文涉及回声路径延迟的估计以及回声路径中的帧丢失和/或样本假信号的检测。描述了一种用于确定电子设备的回声路径的回声路径特性的估值的方法。电子设备被配置成使用扬声器呈现总音频信号,从而产生呈现的音频信号,并且电子设备被配置成使用麦克风记录呈现的音频信号的回声,从而产生记录的音频信号。该方法包括以不可听的方式将辅助音频信号插入到将由扬声器呈现的总音频信号中;其中辅助音频信号包括第一频率处的音调音频信号;使辅助音频信号的回声与记录的音频信号隔离;以及基于插入的辅助音频信号并且基于隔离的辅助音频信号的回声来确定回声路径特性的估值。

【技术实现步骤摘要】
通过隐藏音频信号的回声控制
本文涉及回声消除和/或回声抑制。具体地,本文涉及估计回声路径延迟并且涉及检测可能包括参考路径的回声路径内的帧丢失和/或样本假信号。
技术介绍
可以在免提模式下操作的诸如电话、智能电话等的电子通信设备典型地利用回声消除和/或回声抑制以便补偿由电子设备的扬声器呈现的音频信号的回声,其中回声可以由电子设备的麦克风捕获。确定电子通信设备的回声路径是用于有效交谈的信号处理的重要部分。当谈话者听到他/她的语音的回声时,该回声严重地扰乱谈话者自然交谈的能力。回声消除和/或回声抑制的高效的和恰当的操作典型地取决于回声路径随时间的受限的和合理的变化,诸如预期在设备中或者物体附近随着移动而变化。系统中的硬件和/或软件失灵或故障可能导致包括扬声器输出、回声参考和输入麦克风信号的音频信号中的突然的不连续性或错误的可能性。这些不连续性创建了回声路径中的不自然的变化,这可能引起回声控制系统的不稳定和故障。本文的一个方面解决了估计这些失灵和不连续性事件的发生的问题。在一些系统或应用中,在音频输出和被回声破坏的相关联的麦克风输入之间可能存在因系统硬件和/或软件出现的未知的散装延迟。在建模和回声路径中,没必要估计该散装延迟时段中存在的回声。本文的另一方面是解决用于估计该散装延迟的改进的方法,其导致改进的回声控制稳定性和较低的计算复杂度。
技术实现思路
根据一个方面,描述了一种用于确定电子设备的回声路径的有效回声路径特性的估值的方法。应注意,在本文中,术语“回声路径”指的是来自硬件和软件系统内的有效或表观回声路径。除了电子设备的扬声器和麦克风之间的声学回声路径之外,有效回声路径典型地包括电子设备的回放路径上的回放系统(包括扬声器)和/或电子设备的记录路径上的记录系统(包括麦克风)。换言之,有效回声路径可以包括电子设备内的、其中参考信号(其将由电子设备呈现)转向声学回声消除(AEC)单元和/或声学回声抑制(AES)单元的点与电子设备内的、其中记录的信号(已被电子设备的麦克风记录)进入AEC单元和/或AES单元的点之间的、在回放路径上和/或在记录路径上的电子设备的元件。位于这两个点之间的电子设备的元件可以被称为电子设备的参考路径。在一些情况下,可以假设声学回声路径是相对稳定的。电子设备可以包括电话功能和/或音频会议功能。特别地,电子设备可以被配置成使用扬声器呈现总音频信号,从而产生呈现的音频信号。将被呈现的总音频信号典型地包括在电子设备处从远程方接收(例如,从包括电话功能的相似的远程电子设备接收或者从提供源自音频会议的其他参与者的音频信号的远程会议服务器接收)的参考音频信号。此外,电子设备可以被配置成使用麦克风记录呈现的音频信号的回声,从而产生记录的音频信号。记录的音频信号可以包括呈现的音频信号的回声。此外,记录的音频信号可以包括源自电子设备的用户的音频信号。在本文中记录的音频信号还被称为麦克风信号或者捕获信号。估计的回声路径特性可以涉及回声路径的各方面。具体地,回声路径特性可以包括回声路径的延迟(还被称为回声路径延迟)。替选地或此外,回声路径特性可以包括将被呈现的总音频信号和包括在记录的音频信号中的该音频信号的回声之间的相移或者不连续性。回声路径上的这种不连续性或相移可以归因于如下任何一个或更多个:当呈现总音频信号时由电子设备引起的和/或当记录呈现的音频信号的回声时由电子设备引起的总音频信号的帧的丢失或重复;当呈现总音频信号时由电子设备引起的和/或当记录呈现的音频信号的回声时由电子设备引起的总音频信号的样本的假信号;将被呈现的总音频信号的采样速率和记录的音频信号的采样速率之间的失配(该失配可以归因于用于回放(即用于呈现)的时钟不同于用于记录的时钟);以及电子设备的运动或者影响回声路径的附近物体的运动(导致例如多普勒效应)。该方法可以包括将辅助音频信号插入到将被扬声器呈现的总音频信号中。辅助音频信号可以被插入到总音频信号中,使得辅助音频信号是不可听的。将被呈现的总音频信号典型地包括参考音频信号(接收自远程方)和辅助音频信号(在电子设备处插入)。因此,电子设备结合辅助音频信号呈现(或回放)参考音频信号。选择辅助音频信号,使得辅助音频信号当在总音频信号(还包括参考音频信号)内回放时是不可听的。辅助音频信号可以包括第一频率处的音调音频信号。第一频率可以位于人类可听的频率范围之外和/或音调音频信号的能量可以在第一频率的听力阈值以下。人类可听的频率范围可以依赖于年龄。这样,可以基于电子设备的用户的目标年龄范围(特别地目标最小年龄)来选择第一频率。作为示例,第一频率可以是16kHz或更高(例如,在17kHz处)。应当注意,例如17kHz处的第一频率可被视为在人类(20岁以下)的可能听力范围内。然而,该频率处的一般的听力灵敏度使得具有足以被电子设备的麦克风检测的能量的辅助音频信号能够在典型的附近用户或收听者的听力阈值以下。这样,可以选择第一频率,使得音调音频信号可以具有高到足以由电子设备的麦克风记录并且低到足以在人类的听力阈值以下的能量。此外,音调音频信号可以具有与小于第一频率的5%对应的带宽。在示例中,音调音频信号的带宽在100至200Hz的范围中。在一些实施例中,通过使用应用到音调参考的平滑的包络线(诸如具有约5-20ms的宽度的高斯包络线)来实现中心频率周围(即第一频率周围)的该带宽。在一些实施例中,这种包络线的改变可以出现在大于预期的回声路径长度(或者回声路径延迟)的间隔处,预期的回声路径长度的范围是100-2000ms。在一些实施例中,除了恒定连续幅度之外,可以发生幅度调制,而在其他实施例中,幅度调制是完整的,在调制的音调信号或调制的音调脉冲之外不存在辅助音频信号。这样,音调音频信号是不可听的(由于第一频率和信号能量在人类的可感知范围之外),并且音调音频信号可以包括清楚约束的频谱内容,允许音调信号与总音频信号的可靠隔离以及音调信号的回声与呈现的音频信号的回声的可靠隔离。该方法可以进一步包括使辅助音频信号的回声与记录的音频信号隔离。为此目的,可以考虑辅助音频信号是已知的。这样,通过考虑辅助音频信号的一个或更多个特性可以使辅助音频信号的回声隔离。辅助音频信号的一个或更多个特性可以涉及辅助音频信号的频率和/或辅助音频信号的频谱和/或辅助音频信号的信号水平。特别地,使辅助音频信号的回声隔离可以包括使用滤波器对记录的音频信号进行滤波。可以调节滤波器以适于辅助音频信号。作为示例,滤波器可以适于使辅助音频信号通过,同时阻挡辅助音频信号中不包括的频率分量。在示例中,滤波器包括第一频率处的通带(以及第一频率以外的其他频率处的至少一个阻带)。滤波方法可以包括数字实现的递归滤波器,其被称为无限脉冲响应(IIR)滤波器。IIR滤波器的有利之处在于相对低的计算复杂度。滤波器的其他适当的实现方案对于本领域技术人员是公知的。该方法可以进一步包括基于插入的辅助音频信号的知识并且基于隔离的辅助音频信号的回声来确定回声路径特性的估值。作为示例,回声路径特性的估值可以包括回声路径延迟的估值。在这些情况下,第一频率处的音调音频信号可以具有预定的脉冲长度(例如,20ms或更小)。预定的脉冲长度可以被选择成比预期的回声路径延迟短。这样确定本文档来自技高网...

【技术保护点】
一种用于确定电子设备(200、250、300、600)的回声路径(120)的回声路径特性的估值(215、361)的方法(800),所述电子设备被配置成使用扬声器(102)呈现总音频信号,从而产生呈现的音频信号,并且被配置成使用麦克风(103)记录所述呈现的音频信号的回声,从而产生记录的音频信号(112);所述方法包括?以不可听的方式将辅助音频信号(212)插入(801)到将由所述扬声器(102)呈现的所述总音频信号中;其中所述辅助音频信号(212)包括第一频率处的音调音频信号;?使所述辅助音频信号(212)的回声与所述记录的音频信号(112)隔离(803);以及?基于插入的辅助音频信号(212)并且基于隔离的辅助音频信号(212)的回声来确定(804)所述回声路径特性的估值(215、261)。

【技术特征摘要】
1.一种用于确定电子设备(200、250、300、600 )的回声路径(120 )的回声路径特性的估值(215、361)的方法(800),所述电子设备被配置成使用扬声器(102)呈现总音频信号,从而产生呈现的音频信号,并且被配置成使用麦克风(103)记录所述呈现的音频信号的回声,从而产生记录的音频信号(112);所述方法包括 -以不可听的方式将辅助音频信号(212)插入(801)到将由所述扬声器(102)呈现的所述总音频信号中;其中所述辅助音频信号(212)包括第一频率处的音调音频信号; -使所述辅助音频信号(212)的回声与所述记录的音频信号(112)隔离(803);以及 -基于插入的辅助音频信号(212)并且基于隔离的辅助音频信号(212)的回声来确定(804 )所述回声路径特性的估值(215、261)。2.根据权利要求1所述的方法(800),其中 -所述第一频率位于人类可听的频率范围之外,例如其中所述第一频率在17kHz或更高频率处;和/或 -在所述第一频率处的所述音调音频信号的信号水平在人类的听力阈值以下。3.根据任一前述权利要求所述的方法(800),其中 -所述呈现的音频信号包括所述辅助音频信号(212)和参考音频信号(111);以及 -所述辅助音频信号(212)包括具有所述参考音频信号(111)的掩蔽阈值以下的能量的信号分量。4.根据权利要求3所述的方法(800),进一步包括` -从所述记录的音频信号(112)去除所述辅助音频信号(212)的回声,从而产生净音频信号(312);以及 -基于所述净音频信号(312)并且基于所述参考音频信号(111),执行声学回声消除和/或声学回声抑制。5.根据权利要求3或4所述的方法(800),其中 -所述方法(800)进一步包括确定在特定时刻处的所述参考音频信号(111)中包括的噪声量;以及 -所述特定时刻处的所述辅助音频信号(212)的信号水平取决于在所述特定时刻处的所述参考音频信号(111)中包括的噪声量。6.根据任一前述权利要求所述的方法(800),其中隔离(803)所述辅助音频信号(212)的回声包括使用具有所述第一频率处的通带的滤波器对所述记录的音频信号(112)进行滤波。7.根据任一前述权利要求所述的方法(800),其中 -所述回声路径特性的估值(215、261)包括回声路径延迟的估值(215); -所述第一频率处的所述音调音频信号具有预定的脉冲长度;以及 -确定(804)所述回声路径延迟的估值(215)包括确定所述音调音频信号与隔离的所述辅助音频信号(212)的回声中包括的音调音频信号的回声之间的时间偏移。8.根据权利要求7所述的方法(800),其中 -所述预定的长度比预期的回声路径延迟短;和/或 -跨越所述音调音频信号的时间长度对所述音调音频信号进行幅度调制;和/或 -所述音调音频信号具有所述音调音频信号的时间长度的时间中心处的幅度峰值;和/或 -所述幅度调制对应于跨越所述音调音频信号的时间长度的正弦半波。9.根据权利要求7或8所述的方法(800),进一步包括: -基于所...

【专利技术属性】
技术研发人员:克雷格·约翰斯通施栋孙学京格伦·迪金斯
申请(专利权)人:杜比实验室特许公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1