采用上采样的双端讲话检测制造技术

技术编号:35588219 阅读:21 留言:0更新日期:2022-11-16 15:04
一种双端讲话检测方法包括使用上采样。从远端接收的音频信号在由近端的扬声器输出之前被上采样。近端的麦克风以上采样的速率捕获音频,并且由于在上采样的频带中没有能量,所以由扬声器输出的音频是可检测的。双端讲话检测器使用该信息生成用于从被传输到远端的被捕获音频信号中抑制远端音频回声的信号。捕获音频信号中抑制远端音频回声的信号。捕获音频信号中抑制远端音频回声的信号。

【技术实现步骤摘要】
【国外来华专利技术】采用上采样的双端讲话检测
[0001]相关申请的交叉引用
[0002]本申请要求2021年2月25日提交的美国临时申请第63/153,522号和2020年3月23日提交的美国临时申请第62/993,136号的优先权,这两个申请均通过引用并入本文。
专利

[0003]本公开涉及音频处理,尤其涉及双端讲话检测。

技术介绍

[0004]除非本文另有说明,否则本节中描述的方法不是本申请中权利要求的现有技术,并且不因为被包含在本节中而被认为是现有技术。
[0005]诸如音频会议系统的电信设备通常包括扬声器和麦克风两者。通信中的双方可以被称为近端方和远端方。近端方靠近第一电信设备,而远端方位于与近端方不同的位置,并且使用第二电信设备经由有线或无线电信网络进行通信。近端设备的麦克风不仅捕获近端方的语音,还可以捕获已经从近端的扬声器输出的远端方的语音。麦克风捕获的扬声器输出通常称为回声。近端电信设备通常包括回声管理系统,用于在将在近端捕获的音频传输到远端之前减少回声。
[0006]术语“双端讲话(double talk)”通常用来描述对话双方同时说话的情况。双方都认为双端讲话令人讨厌,一般一方会停止谈话。为了提高通信质量,从而增强用户体验,具有能够在双端讲话发生时适当地响应的设备将是有利的。

技术实现思路

[0007]当双端讲话存在时,为了向正在发生双端讲话的远端提供听觉线索,希望将近端语音发送到远端,而不执行太多(或任何)回声减少。近端的电信设备可以包括双端讲话检测器,用于检测双端讲话,进而控制回声管理系统不执行过多的衰减。
[0008]现有双端讲话检测系统的一个问题是语音信号的非平稳特性导致检测双端讲话的高假阳性率。此外,对于诸如膝上型计算机之类的电信设备,其中扬声器接近麦克风,回声管理系统需要默认地执行更多衰减,因此在对话中,双端讲话的假阳性检测甚至变得更不可取。鉴于上述情况,需要改进双端讲话检测,对于扬声器接近麦克风的设备尤其如此。
[0009]根据一个实施例,一种计算机实现的音频处理方法包括接收第一音频信号,其中所述第一音频信号具有第一采样频率。该方法还包括对第一音频信号进行上采样以生成第二音频信号,其中第二音频信号具有大于第一采样频率的第二采样频率。该方法还包括由扬声器输出对应于第二音频信号的扬声器输出。该方法还包括由麦克风捕获第三音频信号,其中第三音频信号具有比第一采样频率大的第三采样频率。该方法还包括确定第三音频信号的信号功率。该方法还包括当在大于第一采样频率的频带中确定了第三音频信号的信号功率时,检测到双端讲话。
[0010]该方法还可包括当检测到双端讲话时选择性地产生控制信号,并根据该控制信号
对第三音频信号执行回声管理。
[0011]确定第三音频信号的信号功率和检测双端讲话可以包括测量大于第一采样频率的频带中的第三音频信号的信号功率;跟踪大于第一采样频率的频带中的第三音频信号的背景噪声功率;以及作为将大于第一采样频率的频带中的第三音频信号的信号功率与大于第一采样频率的频带中的第三音频信号的背景噪声功率进行比较的结果,检测到双端讲话。
[0012]根据另一实施例,一种装置包括扬声器、麦克风和处理器。该处理器被配置成控制该装置来实现文中描述的方法中的一个或多个方法。该装置可以另外包括与文中描述的方法中的一个或多个方法类似的细节。
[0013]根据另一个实施例,一种非暂时性计算机可读介质存储计算机程序,当由处理器执行时,该计算机程序控制装置执行包括文中描述的方法中的一个或多个方法的处理。
[0014]以下详细描述和附图提供了对各种实施方式的本质和优点的进一步理解。
附图说明
[0015]图1是音频处理系统100的框图。
[0016]图2是示出音频编解码器系统201(见图1)的附加细节的框图。
[0017]图3A

3B是示出了在两种情况下上采样信号210和被捕获音频信号211的功率谱的曲线图。
[0018]图4是示出双端讲话检测器401的附加细节的框图(也参见图1

2)。
[0019]图5是双端讲话检测器501的框图。
[0020]图6是根据实施例的用于实现文中描述的特征和过程的移动设备架构600。
[0021]图7是音频处理方法700的流程图。
具体实施方式
[0022]本文描述了与双端讲话检测相关的技术。在下面的描述中,出于解释的目的,阐述了许多例子和具体细节,以便提供对本公开的透彻理解。然而,对于本领域技术人员来说,很明显,由权利要求所限定的本公开可以单独地或者与下面描述的其他特征相结合地包括这些示例中的特征中的一些或全部特征,并且还可以包括文中描述的特征和概念的修改和等同物。
[0023]在下面的描述中,详细描述了各种方法、处理和过程。虽然按照某种顺序描述了特定的步骤,但是这种顺序主要是为了方便和清楚。特定步骤可以重复不止一次,可以发生在其他步骤之前或之后(即使那些步骤以其他顺序描述),并且可以与其他步骤并行发生。只有当第一步骤必须在第二步骤开始之前完成时,才需要第二步在第一步之后。当上下文不清楚时,将具体指出这种情况。
[0024]在本文件中,使用了术语“和”、“或”和“和/或”。这些术语应被理解为具有包含性含义。例如,“A和B”可能至少意味着以下内容:“A和B两者”、“至少A和B两者”。作为另一个例子,“A或B”可以表示至少如下:“至少A”、“至少B”、“A和B两者”、“至少A和B两者”。作为另一个例子,“A和/或B”可以至少表示以下意思:“A和B”、“A或B”。当打算进行异或运算时,会特别注明(例如,“A或B”,“至多A和B中的一个”)。
[0025]本文档描述了与诸如块、元件、组件、电路等的结构相关联的各种处理功能。通常,这些结构可以由一个或多个计算机程序控制的处理器来实现。
[0026]图1是音频处理系统100的框图。音频处理系统100可以在各种设备中实现,例如膝上型计算机、移动电话、扬声器电话、音频会议系统、视频会议系统等。例如,音频处理系统100可以在膝上型计算机中实现,各种组件由膝上型计算机执行的计算机程序来实现。音频处理系统100包括通信应用102、音频驱动系统103、音频编解码器系统201、扬声器106和麦克风108。音频处理系统100可以包括(为了简洁)没有详细讨论的其他组件。
[0027]通信应用102通常控制实现音频处理系统100的设备的音频输入和输出。例如,当实现设备是膝上型计算机时,通信应用102可以是诸如微软Skype
TM
应用、微软Teams
TM
应用、Zoom
TM
应用等计算机程序。通信应用102与网络(未示出)通信,以从远程设备(也称为远端设备)接收音频以供音频处理系统100(也称为近端设备)输出,并将音频处理系统100捕获的音频传输到远程设备。从网络接收的用于近端输出的音频被称为回放音频信本文档来自技高网
...

【技术保护点】

【技术特征摘要】
【国外来华专利技术】1.一种计算机实现的音频处理方法,该方法包括:接收第一音频信号,其中所述第一音频信号具有第一采样频率;对第一音频信号进行上采样以生成第二音频信号,其中第二音频信号具有大于第一采样频率的第二采样频率;由扬声器输出对应于第二音频信号的扬声器输出;由麦克风捕获第三音频信号,其中第三音频信号具有比第一采样频率大的第三采样频率;确定第三音频信号的信号功率;和当在大于第一采样频率的频带中确定了第三音频信号的信号功率时,检测到双端讲话。2.根据权利要求1所述的方法,进一步包括:当检测到双端讲话时,选择性地产生控制信号;和根据所述控制信号对所述第三音频信号执行回声管理。3.根据权利要求2所述的方法,其中执行回声管理包括:根据所述控制信号对所述第三音频信号执行回声消除,其中所述回声消除对所述第三音频信号执行线性衰减。4.根据权利要求2

3中任一项所述的方法,其中执行回声管理包括:根据所述控制信号对所述第三音频信号执行回声抑制,其中所述回声抑制对所述第三音频信号的特定频带执行非线性衰减。5.根据权利要求1

4中任一项所述的方法,其中所述第三音频信号包括本地音频和所述扬声器输出,其中所述本地音频对应于不同于所述扬声器输出的音频,并且其中所述本地音频不是由所述扬声器输出的,而是由所述麦克风捕获的。6.根据权利要求1

5中任一项所述的方法,其中所述第一采样频率为8kHz,其中所述第二采样频率至少为16kHz,并且其中所述第三采样频率至少为16kHz。7.根据权利要求1

6中任一项所述的方法,进一步包括:对第三音频信号进行下采样以生成第四音频信号,其中第四音频信号具有小于第三采样频率的第四采样频率;和将所述第四音频信号传输到远端设备。8.根据权利要求7所述的方法,其中所述第四采样频率和所述第一采样频率是相同的采样频率。9.根据权利要求1

8中任一项所述的方法,其中,确定第三音频信号的信号功率并检测双端讲话包括:测量大于第一采样频率的频带中的第三音频信号的信号功率;跟踪大于第一采样频率的频带中的第三音频信号的背景噪声功率;和作为将大于第一采样频率的频带中的第三音频信号的信号功率与大于第一采样频率的频带中的第三音频信号的背景噪声功率进行比较的结果,检测到双端讲话。10.根据权利要求1

8中任一项所述的方法,其中,确定第三音频信号的信号功率并检测双端讲话包括:测量大于第一采样频率的频带中的第三音频信号的信号功率;
跟踪大于第一采样频率的频带中的第三音频信号的背景噪声功率;测量第一音频信号的失真功率;和基于大于第一采样频率的频带中的第三音频信号的信号功率、大于第一采样频率的频带中的第三音频信号的背景噪声功率、以及第一音频信号的失真功率,检测双端讲话。11.根据权利要求10所述的方法,其中测量第一音频信号的失真功率包括:通过对第一音频信号执行带通滤波来生成滤波信号;测量滤波信号的信号功率;和通过对滤波信号的信号功率执行非线性调节来确定失真功率。12.一种存储计算机程序的非暂时性计算机可读介质,当由处理器执行时,该计算机程序控制装置执行包括根据权利要求1

11中...

【专利技术属性】
技术研发人员:王宁
申请(专利权)人:杜比实验室特许公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1