捕获噪声用于模式识别处理的系统和方法技术方案

技术编号:26075012 阅读:41 留言:0更新日期:2020-10-28 16:49
示例系统和方法通过以第一间隔周期性地捕获音频数据来捕获音频数据的第一多个部分。实施例检测音频数据中的语音开始。响应于检测到语音开始,系统和方法从周期性地捕获音频数据切换到连续地捕获音频数据。实施例组合音频数据的第一多个捕获部分的至少一个捕获部分与连续捕获的音频数据,以提供连续的音频数据。

【技术实现步骤摘要】
【国外来华专利技术】捕获噪声用于模式识别处理的系统和方法相关申请本申请是于2018年6月22日提交的第16/016,344号美国非临时申请的国际申请,该非临时申请要求于2018年3月12日提交的第62/641,767号美国临时申请的优先权权益,这两个申请都通过引用以其整体并入本文。
本主题涉及模式识别解决方案领域。更具体地,但不是作为限制,本主题公开了用于捕获模式识别处理的噪声的技术。背景具有“始终开启”或“始终监听”语音接口能力的设备(诸如支持语音的数字助理、智能扬声器和免提接口)传统上需要恒定电力,这要么消耗电池电力,要么需要电源插座。具有语音识别能力的设备的部分可以保持在低功耗模式,直到检测到类似语音的声音,此时短语检测可以确定是否已经说出了特定的单词或短语(即,唤醒短语)。唤醒短语检测的实现导致功耗增加,这是由于设备的部分长时间保持在通电状态(例如,“始终开启”)。附图简述在附图的图中,一些实施例通过示例而非限制的方式示出,在附图中:图1是图示了根据各种实施例的联网音频处理设备的框图;图2是图示了根据实施例的音频处理设备的部件的框图;图3是图示了根据实施例的音频处理设备的功率域的框图;图4是图示根据实施例的周期性捕获音频数据以提供用于语音识别的连续音频数据的方法的流程图;图5是图示根据实施例的音频数据的周期性捕获的交互式时序图;图6是示出根据实施例的唤醒短语的最终识别百分比的图表;图7是图示根据实施例的周期性激活阈值计算的方法的流程图;图8是图示根据实施例的周期性激活阈值计算的交互式时序图;和图9是图示根据实施例的电子设备的框图。详细描述描述了捕获噪声用于模式识别的系统和方法。在下面的描述中,为了解释的目的,阐述了许多示例和实施例,以提供对所要求保护的主题的深入了解。对于本领域技术人员将明显的是,所要求保护的主题可以在其他实施例中进行实践。现在简要介绍一些实施例,并然后结合从图1开始的其他实施例进行更详细的讨论。智能扬声器、助听器、声控集线器、手机、白色家电和工业机械都是越来越具备语音接口能力的产品。提供“始终开启”或“始终监听”语音接口能力的系统可以包括多个功率域,每个功率域可以在一个或更多个功耗状态下工作。例如,唤醒短语检测功率域可以保持在低功耗模式,直到语音开始检测功率域检测到类似语音的声音。此时,唤醒短语检测功率域转换到活动模式以执行唤醒短语检测。典型的唤醒短语检测器(WUPD)需要在唤醒短语之前的噪声(例如,前导噪声或背景噪声),以便它可以处理整个唤醒短语并用于噪声统计估计。在现有技术中,系统功率主要由语音开始检测功率域决定,因为它的麦克风必须始终保持开启,它的数字化电路必须始终提供高质量的音频,并且它的存储缓冲器必须始终通电、管理和捕获WUPD的背景噪声。本文描述的实施例可以通过周期性地捕获背景噪声以供WUPD稍后使用来降低音频处理设备消耗的功率,同时提供与那些持续且重复地捕获背景噪声的设备所提供的语音识别率相当的语音识别率。因此,所公开的音频处理设备的麦克风不需要一直被完全供电,并且语音开始检测器(SOD)可以使用比WUPD所使用的更低质量的音频数据来执行语音开始检测。在实施例中,周期性捕获的背景噪声也可以用于确定是否应该调整麦克风的激活阈值,以避免SOD的不必要的功耗。与现有技术相比,实施例能够以较低的功耗实现“始终开启”或“始终监听”功能。本文将进一步详细描述这些和其他实施例。下面的详细描述包括对附图的引用,附图构成详细描述的一部分。附图示出根据实施例的图示。这些实施例,其也在本文被称为“示例”,被足够详细地描述以使本领域技术人员能够实践所要求保护的主题的实施例。在不偏离要求保护的内容的情况下,可将实施例组合,可利用其它实施例,或可做出结构的、逻辑的和电气的改变。因此,以下详细描述不应被理解为限制性的,并且范围由所附权利要求及其等同物限定。图1是示图了根据各种实施例的联网音频处理设备102的框图100。音频处理设备102被示为通过网络114耦合到模式识别应用112和受控设备103。音频处理设备102通过处理分别基于从音频模式源104和噪声源106接收的声波105和107(例如,音频信号)中的一个或更多个生成的音频数据110来促进音频模式识别。如下面将进一步详细描述的,音频处理设备102可以通过确定是否已经说出唤醒短语110.3来促进音频模式识别。在一些实施例中,音频处理设备102还可以识别和/或处理跟随在唤醒短语110.3之后的查询或命令110.4。音频处理设备102不需要耦合到网络114来实现本文描述的实施例。音频模式源104提供对应于可识别音频模式的声波105。在实施例中,音频模式是由与音频处理设备102相关联的模式识别应用可识别的音频模式和/或预定音频模式。音频模式源104可以是有生命的(例如人类)或无生命的一个物体或更多个物体(例如机器)。噪声源106提供与可识别的音频模式或声波105不对应的声波107。噪声源106也可以是有生命的或无生命的,并且可以包括来自扬声器、电视、视频游戏、街道交通噪声、人类扬声器、工业或生成外界(ambient)噪声的任何其他噪声源的环境外界噪声。网络114可以包括一种或更多种类型的有线和/或无线网络,用于将图1的网络节点通信地耦合到另一个网络节点。例如但不限于网络114可以包括无线局域网(WLAN)(例如,符合Wi-Fi(802.11))、PAN(例如,符合BluetoothSIG标准或Zigbee(IEEE802.15.4))和互联网。在实施例中,音频处理设备102通过Wi-Fi和互联网通信地耦合到模式识别应用112并且通过蓝牙和/或Wi-Fi耦合到受控设备103。模式识别应用112操作以识别音频模式并将识别的音频模式与相应的语意相关联。模式识别应用112可以位于在通过链路耦合到网络114的一个或更多个计算设备上,并且使用处理器、存储器、电路、算术逻辑、软件、算法和数据结构来组织和处理可听声音的属性(包括音高、音量、音色、重复声音或节奏声音和/或诸如单词、短语等语言声音)或通过使用其来实现。在一些实施例中,响应于音频处理设备102检测或识别到音频数据110的唤醒短语110.3部分,模式识别应用112识别音频数据110的命令或查询部分110.4。在其他实施例中,模式识别应用112可以在音频处理设备102本身上实现。在实施例中,模式识别应用112包括自动语音识别(ASR)技术,其识别预定音频模式并且(例如使用数据结构)将它们彼此相关联和/或将它们与相应的语意相关联。模式识别应用112可识别的模式可以促进例如但不限于音乐识别、歌曲识别、人声识别、图像识别和语音识别,或者任何其他感测到的模式。在实施例中,模式识别应用112将其结果提供给音频处理设备102,音频处理设备102可以对命令或查询采取行动。受控设备103被示为通过链路耦合到网络114。受控设备103可以包括具有能够响应于由音频处理设备102促进的音频模式识本文档来自技高网...

【技术保护点】
1.一种方法,包括:/n通过以第一间隔周期性地捕获音频数据来捕获所述音频数据的第一多个部分;/n检测所述音频数据中的语音开始;/n响应于检测到所述语音开始,从周期性地捕获所述音频数据切换到连续地捕获所述音频数据;和/n将所述音频数据的第一多个部分的至少一个捕获部分与连续捕获的音频数据组合,以提供连续的音频数据。/n

【技术特征摘要】
【国外来华专利技术】20180312 US 62/641,767;20180622 US 16/016,3441.一种方法,包括:
通过以第一间隔周期性地捕获音频数据来捕获所述音频数据的第一多个部分;
检测所述音频数据中的语音开始;
响应于检测到所述语音开始,从周期性地捕获所述音频数据切换到连续地捕获所述音频数据;和
将所述音频数据的第一多个部分的至少一个捕获部分与连续捕获的音频数据组合,以提供连续的音频数据。


2.根据权利要求1所述的方法,还包括处理所述连续的音频数据,以识别所述连续捕获的音频数据中的语音。


3.根据权利要求1所述的方法,包括在第一功耗模式下操作至少一个功率域以捕获音频数据的第一多个部分,并且在所述第一间隔期间在第二功耗模式下操作,其中所述第一功耗模式具有比所述第二功耗模式更大的功耗率。


4.根据权利要求3所述的方法,其中,在所述第二功耗模式下操作包括在监控模式下操作传感器功率域和在睡眠模式下操作缓冲器功率域。


5.根据权利要求1所述的方法,其中,周期性地捕获所述音频数据包括以第一采样率采样所述音频数据,并且检测所述语音开始包括以第二采样率采样所述音频数据,其中所述第一采样率大于所述第二采样率。


6.根据权利要求1所述的方法,还包括基于一个或更多个噪声特性或功耗需求来设置或动态调整所述第一间隔。


7.根据权利要求1所述的方法,其中,周期性地捕获所述音频数据包括周期性地采样所述音频数据和周期性地缓冲采样的音频数据,并且连续地捕获所述音频数据包括连续地采样所述音频数据和连续地缓冲采样的音频数据。


8.根据权利要求1所述的方法,其中,所述音频数据的第一多个捕获部分的至少一个捕获部分是所述音频数据的第一多个捕获部分的最近捕获的部分。


9.根据权利要求8所述的方法,其中,所述组合包括将所述音频数据的最近捕获的部分的一端的一部分与所述连续捕获的音频数据的一端的一部分重叠。


10.根据权利要求9所述的方法,其中,最后捕获的部分的一端的一部分小于20ms。


11.根据权利要求1所述的方法,其中,检测所述音频数据中的所述语音开始包括在不使用所捕获的所述音频数据的多个部分的情况下检测所述语音开始。


12.根据权利要求11所述的方法,其中,检测所述音频数据中的所述语音开始包括响应于所述音频数据满足或超过音频接口的激活阈值而唤醒语音开始检测器,并执行语音开始检测算法以确定所述音频数据中存在类似语音的信号。


13.根据权利要求12所述的方法,还包括:
通过以第二间隔周期性地捕获所述音频数据来捕获所述音频数据的第二多个部分;
使用第二多个捕...

【专利技术属性】
技术研发人员:罗伯特·措普夫维克托·西米利斯基阿舒托什·潘迪帕特里克·克鲁斯
申请(专利权)人:赛普拉斯半导体公司
类型:发明
国别省市:美国;US

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1