多视增强建模及关键词检测的应用制造技术

技术编号:35892058 阅读:23 留言:0更新日期:2022-12-10 10:23
提供了一种用于基于关键词检测(KWS)来激活语音识别的方法、计算机系统和计算机可读介质。接收对应于一个或多个说话者的波形数据。从接收的波形数据中提取一个或多个方向特征。基于提取的一个或多个特征从所述接收的波形数据中确定一个或多个关键词。基于检测到所确定的关键词来激活语音识别。定的关键词来激活语音识别。定的关键词来激活语音识别。

【技术实现步骤摘要】
【国外来华专利技术】多视增强建模及关键词检测的应用
相关申请的交叉引用
[0001]本申请要求于2020年7月6日递交的申请号为16/921,161的美国申请的优先权,该申请的公开内容通过引用整体并入。


[0002]本公开总体上涉及数据处理领域,更具体地,涉及语音识别。

技术介绍

[0003]随着智能家居、移动设备和汽车设备的激增,基于语音的人机交互变得更加普遍。为了实现解放双手的语音识别体验,系统不断地侦听特定唤醒词(这一过程通常被称为关键词检测(KWS,Keyword Spotting))以启动语音识别。出于隐私考虑,KWS的唤醒通常完全发生在具有低占用空间和低功耗要求的设备上。KWS系统通常在清晰的语音条件下表现良好。

技术实现思路

[0004]实施例涉及一种用于基于关键词检测(KWS)来激活语音识别的方法、系统和计算机可读介质。根据一方面,提供了一种用于激活语音识别的方法。方法包括接收对应于一个或多个说话者的波形数据。从接收的波形数据中提取一个或多个方向特征。基于提取的一个或多个特征从所述接收的波形数据中确定一个或多个关键词。基于检测到所确定的关键词来激活语音识别。
[0005]根据另一方面,提供了一种用于激活语音识别的计算机系统。计算机系统包括一个或多个处理器、一个或多个计算机可读存储器、一个或多个计算机可读有形存储设备、以及存储在所述一个或多个存储设备中的至少一个存储设备上的用于通过所述一个或多个存储器中的至少一个存储器由所述一个或多个处理器中的至少一个处理器执行的程序指令,由此所述计算机系统能够执行方法。方法可以包括接收对应于一个或多个说话者的波形数据。从接收的波形数据中提取一个或多个方向特征。基于提取的一个或多个特征从所述接收的波形数据中确定一个或多个关键词。基于检测到所确定的关键词来激活语音识别。
[0006]根据另一方面,提供了一种用于激活语音识别的计算机可读介质。计算机可读介质包括一个或多个计算机可读存储设备和存储在一个或多个有形存储设备中的至少一个有形存储设备上的程序指令,程序指令可由处理器执行。程序指令可由处理器执行,用于执行方法,该方法相应地可以包括接收对应于一个或多个说话者的波形数据。从接收的波形数据中提取一个或多个方向特征。基于提取的一个或多个特征从所述接收的波形数据中确定一个或多个关键词。基于检测到所确定的关键词来激活语音识别。
附图说明
[0007]从下面结合附图阅读的说明性实施例的详细描述中,这些和其他目的、特征和优点将变得显而易见。由于图示是为了便于本领域技术人员结合详细描述进行清楚地理解,因此附图的各特征不是按比例的。在附图中:图1示出了根据至少一个实施例的联网的计算机环境;图2是根据至少一个实施例的用于基于关键词检测来激活语音识别的系统的框图;图3是示出了根据至少一个实施例的由基于关键词检测来激活语音识别的程序执行的步骤的操作流程图;图4是根据至少一个实施例的图1中所描绘的计算机和服务器的内部组件和外部组件的框图;图5是根据至少一个实施例的包括图1中所描绘的计算机系统的说明性云计算环境的框图;以及图6是根据至少一个实施例的图5的说明性云计算环境的功能层的框图。
具体实施方式
[0008]本文公开了所要求保护的结构和方法的详细实施例。然而,可以理解的是,所公开的实施例仅仅是示出可以以各种形式实施的所要求保护的结构和方法。然而,这些结构和方法可以以许多不同的形式来实施,而不应被理解为仅限于本文所示的示例性实施例。相反,提供这些实施例以使得本公开透彻和完整,且充分地将本专利技术的范围传达给本领域技术人员。在描述中,众所周知的特征和技术的细节可能被省略以避免不必要地模糊所展示的实施例。
[0009]实施例总体上涉及数据处理领域,更具体地,涉及语音识别。以下描述的示例性实施例提供了一种系统、方法和计算机程序,以除其他事项外,基于关键词检测来激活语音识别。因此,通过使用来自多个方向的声音样本来训练的模型,允许基于单个KWS模型的多视KWS建模,一些实施例具有改进计算领域的能力。
[0010]如前所述,随着智能家居、移动设备和汽车设备的激增,基于语音的人机交互变得更加普遍。为了实现解放双手的语音识别体验,系统不断地侦听特定唤醒词(这一过程通常被称为关键词检测)以启动语音识别。出于隐私考虑,KWS的唤醒通常完全发生在具有低占用空间和低功耗要求的设备上。KWS系统通常在清晰的语音条件下表现良好。
[0011]然而,在嘈杂条件下,特别是在多说话人环境中,KWS系统的性能可能会显著下降。麦克风阵列可以提供多个记录,该记录包含指示声源的空间来源的信息,可以用于定位声源,然后从目标方向提取声源。然而,由于在实际应用中可能无法获得真实目标说话者的方向的信息,因此在多说话人环境中很难准确估计目标说话者的到达方向(DOA,Direction of Arrival)。因此,增强来自多个采样视向(look direction)的信号,并使能与KWS模型进行联合训练,以基于单个KWS模型形成完全端到端的多视KWS建模,这可能是有利的。
[0012]参考根据各实施例的方法、装置(系统)和计算机可读介质的流程图图示和/或方框图,本文描述了各方面。可以理解的是,流程图图示和/或方框图的每个方块以及流程图图示和/或方框图中的方块的组合可以通过计算机可读程序指令来实现。
[0013]以下描述的示例性实施例提供了一种可以使用多视增强网络(MLENet,Multi

Look Enhancement Network)以同时增强来自多个视向的声源的系统、方法和计算机程序。方向特征可用于多个视向作为输入特征,以确定说话者并使能MLENet的监督训练。神经网络中的多视增强公式能够允许端到端的训练。
[0014]现参考图1,联网的计算机环境的功能框图示出了用于检测关键词以激活语音识别的关键词检测系统100(以下称为“系统”)。可以理解的是,图1仅提供了一种实现方式的图示,并不意味着对可以实现不同实施例的环境的任何限制。可以基于设计和实现需求对所描绘的环境进行许多修改。
[0015]系统100可以包括计算机102和服务器计算机114。计算机102可以通过通信网络110(以下称为“网络”)与服务器计算机114通信。计算机102可以包括处理器104和软件程序108,软件程序108存储在数据存储设备106上,并且能够与用户连接并与服务器计算机114通信。如下文将参考图4的讨论,计算机102可分别包括内部组件800A和外部组件900A,以及服务器计算机114可分别包括内部组件800B和外部组件900B。计算机102可以是例如移动设备、电话、个人数字助理、上网本、膝上型计算机、平板计算机、台式计算机或能够运行程序、访问网络和访问数据库的任何类型的计算设备。
[0016]如下文关于图6和图7的讨论,服务器计算机114还可以在云计算服务模型(例如,软件即服务(SaaS)、平台即服务(PaaS)或基础设施即服务(IaaS))中进行操作。服务器计算本文档来自技高网
...

【技术保护点】

【技术特征摘要】
【国外来华专利技术】1.一种激活语音识别的方法,由处理器执行,包括:接收对应于一个或多个说话者的波形数据;从接收的波形数据中提取一个或多个方向特征;基于一个或多个提取的特征从所述接收的波形数据中确定一个或多个关键词;以及基于检测到所确定的关键词,激活语音识别。2.根据权利要求1所述的方法,其中,所述接收的波形数据包括一个或多个多通道输入波形和一个或多个预设视向。3.根据权利要求2所述的方法,还包括:通过一维卷积层将所述多通道输入波形映射到一个或多个频谱图。4.根据权利要求3所述的方法,还包括:基于所述频谱图提取单通道频谱特征、对数功率谱数据以及一个或多个多通道空间特征。5.根据权利要求2所述的方法,其中,每个提取的方向特征对应于所述一个或多个预设视向中的一个预设视向。6.根据权利要求5所述的方法,其中,基于所述方向特征对水平面中的方向集进行采样。7.根据权利要求6所述的方法,其中,一个或多个方向特征向量是从所述水平面中的所述方向集中导出的。8.根据权利要求7所述的方法,其中,基于在给定频率的给定方向上的视向导向向量的相位、麦克风对之间的距离、声速值和方向向量,所述方向特征计算一个或多个麦克风对之间的视向导向向量之间的平均余弦距离。9.根据权利要求8所述的方法,其中,所述视向导向向量、所述麦克风对之间的距离、所述声速值和所述方向向量被串联并传递到一个或多个增强块,所述增强块包括具有指数增长的膨胀因子的堆叠的膨胀卷积层。10.根据权利要求9所述的方法,其中,所述增强块生成与每个视向相关联的增强的说话者复数频谱图。11.一种用于激活语音识别的计算机系统,包括:一个或多个计算机可读非瞬态存储介质,被配置为存储计算机程序代码;以及一个或多个计算机处理器,被配置为访问所述计算机程序代码并按照所述计算机程序代码的指示进行操作,所述计算机程序代码包括:接收代码,被配置为使所述一个或多个计算机处理器接收对应于一个或多个说话者的波形数据;提取代码,被配置为使所述一个或多个计算机处理器从接收的波形数据中提取一个或多个方向特征;确定代码,被配置为使所...

【专利技术属性】
技术研发人员:于蒙俞栋
申请(专利权)人:腾讯美国有限责任公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1