当前位置: 首页 > 专利查询>苹果公司专利>正文

用于音频设备的多模式语音触发制造技术

技术编号:34990382 阅读:23 留言:0更新日期:2022-09-21 14:36
本主题技术的具体实施提供用于音频设备的多模式语音触发的系统和方法。音频设备可存储多个语音识别模型,每个语音识别模型被训练用于检测单个对应的触发短语。为了音频设备可检测多个触发短语中的特定一者,而不消耗处理和/或功率资源来运行可区分不同触发短语的语音识别模型,该音频设备将语音识别模型中用于预期触发短语的所选一者预加载到音频设备的处理器中。该音频设备可基于通信地耦接到音频设备的配套设备的类型来选择语音识别模型中用于预期触发短语的一者。用于预期触发短语的一者。用于预期触发短语的一者。

【技术实现步骤摘要】
用于音频设备的多模式语音触发


[0001]本说明书整体涉及媒体输出设备,并且更具体地,涉及例如用于音频设备的语音触发。

技术介绍

[0002]音频设备诸如耳机和耳塞可通过有线或无线连接从配套设备接收音频数据。在一些情况下,音频设备可包括麦克风以接收可传输给配套设备的音频输入。
附图说明
[0003]本主题技术的一些特征在所附权利要求书中被示出。然而,出于说明的目的,在以下附图中阐述了本主题技术的若干方面。
[0004]图1示出了根据一个或多个具体实施的包括可实现本主题系统的各种电子设备的示例性系统架构。
[0005]图2示出了根据本主题技术的具体实施的包括接收语音输入的媒体输出设备的环境的示例。
[0006]图3示出了示出根据本主题技术的具体实施的媒体输出设备与配套设备通信的示意图。
[0007]图4示出了根据本主题技术的具体实施的用于操作媒体输出设备的示例性过程的流程图。
[0008]图5示出了根据本主题技术的具体实施的用于操作电子设备的示例性过程的流程图。
[0009]图6示出了可以利用其来实现本主题技术的一个或多个具体实施的电子系统。
具体实施方式
[0010]下面示出的具体实施方式旨在作为本主题技术的各种配置的描述并且不旨在表示本主题技术可被实践的唯一配置。附图被并入本文并且构成具体实施方式的一部分。具体实施方式包括具体的细节旨在提供对本主题技术的透彻理解。然而,本主题技术不限于本文阐述的具体细节,而是可以采用一个或多个其他具体实施来实践。在一个或多个具体实施中,以框图形式示出了结构和部件,以便避免使本主题技术的概念模糊。
[0011]电子设备诸如智能电话、可穿戴设备和平板设备可提供应用诸如虚拟助理应用,其响应利用设备的音频换能器(例如,麦克风)接收的口头输入。虚拟助理应用可包括和/或利用一个或多个语音识别模型来解释口头输入,诸如区分和/或检测模型被训练识别的各种字词和/或短语。虚拟助理应用可通过特定和/或预配置的触发短语来激活,以开始监听进一步的口头输入。在一个或多个具体实施中,虚拟助理应用可以是用于电子设备的本机应用,并且因此,触发短语会是特定于设备的制造商、特定于设备的操作系统的提供商。在一个或多个具体实施中,可由不同于设备的制造商和设备的操作系统的提供商的第三方向
电子设备提供虚拟助理应用,并且因此,触发短语会是特定于在设备上提供虚拟助理的第三方。在一个或多个具体实施中,电子设备可提供来自多个提供商的多个虚拟助理应用(例如,多个虚拟助理),每个虚拟助理应用具有特定的触发短语。
[0012]在各种情况下,具有虚拟助理应用的电子设备的用户可使用媒体输出设备,诸如音频输出设备(例如,耳机或耳塞)以从电子设备输出媒体内容。媒体输出设备还可包括音频换能器诸如麦克风,其可用于捕获音频输入诸如来自用户的口头输入,用于传输给电子设备以进行处理。如下文进一步详细描述的,电子设备和/或媒体输出设备可包括一个或多个其它部件,诸如扬声器、加速度计、触摸传感器、显示器、按钮、开关、力传感器等。
[0013]在一些情况下,可能期望利用媒体输出设备的麦克风来检测用于配套设备的虚拟助理应用的触发短语,配套设备诸如是作为媒体内容源与媒体输出设备配对的电子设备。然而,在各个时间,媒体输出设备可与来自各个制造商的各个电子设备以及与各个虚拟助理应用配对、解除配对、连接和/或断开连接,每一者具有其自身的独特和/或特定的触发短语。此外,由于许多媒体输出设备诸如耳机和耳塞是具有有限功率和/或处理资源的紧凑型设备,因此媒体输出设备自身运行能够检测和区分各个虚拟助理应用的各个触发短语的语音识别模型可能不切实际。
[0014]本文所描述的主题技术的具体实施经由音频输出设备(例如,耳机或耳塞)提供用于来自各个提供商的各个虚拟助理的虚拟助理功能的语音触发。为了例如提供可触发适当的虚拟助理应用而不需要复杂模型来区分口头输入中的字词(例如,不同虚拟助理的触发短语)的低功率监听模式,在执行监听操作之前,音频输出设备可确定其连接的配套设备的类型,并且将特定于该设备类型的语音识别模型加载到音频输出设备的处理器中。然后,可在低功率监听模式中使用所加载的类型特定的语音识别模型,其专门监听用于特定虚拟助理应用的单个对应的触发短语。在各个具体实施中,语音识别模型可从音频输出设备处的存储器(例如,存储器305)加载或者可从所连接的电子设备(例如,配套设备)或从远程服务器空中加载。
[0015]在一个或多个具体实施中,音频输出设备可确定哪个虚拟助理正在配套设备处运行和/或配套设备处的若干虚拟助理中哪一个是主虚拟助理(例如,基于来自配套设备的指示,并且在确定或不确定配套设备的设备类型的情况下)。在这些具体实施中,音频输出设备可将特定于配套设备处的运行和/或主虚拟助理的语音识别模型加载到音频输出设备的处理器中。然后,可在低功率监听模式中使用所加载的助理特定的语音识别模型,其专门监听用于特定虚拟助理应用的单个对应的触发短语。
[0016]当音频输出设备处的预加载的类型特定(和/或助理特定)的语音识别模型的输出指示已检测到用于该模型的对应触发短语时,可执行音频输出设备与配套设备之间的协作操作以提供对应的虚拟助理功能。因为类型特定(和/或助理特定)的语音识别模型被训练用于检测特定触发短语(例如,而不是标识或区分不同口头字词),所以可使用有限的计算资源在音频输出设备处执行低功率监听模式。
[0017]图1示出了根据一个或多个具体实施的包括可实现本主题系统的各种电子设备的示例性系统架构100。然而,并非所有所描绘的部件均可在所有具体实施中使用,并且一个或多个具体实施可包括与图中所示的那些相比附加的或不同的部件。可进行这些部件的布置和类型的变化,而不脱离本文所列出的权利要求的实质或范围。可提供附加的部件、不同
的部件或更少的部件。
[0018]系统架构100包括通过网络106(例如,局域网或广域网)通信地耦接的媒体输出设备150、电子设备104(例如手持式电子设备,诸如智能电话或平板电脑)、电子设备110、电子设备115和服务器120。出于解释的目的,系统架构100在图1中被示出为包括媒体输出设备150、电子设备104、电子设备110、电子设备115和服务器120;然而,系统架构100可包括任何数量的电子和/或音频设备和任何数量的服务器或包括多个服务器的数据中心。
[0019]媒体输出设备150可被实现为被配置为由用户(当用户穿戴音频输出设备时,用户也称为穿戴者)穿戴的音频输出设备,诸如智能扬声器、耳机(例如,安装在通过头带耦接在一起的扬声器外壳中的一对扬声器)或耳塞(例如,各自具有设置在适形于用户的耳朵的一部分的外壳中的扬声器的一对耳塞中的耳塞),或可被实现为能够输出音频、视频和/或其他类型的媒体(例如,并且被配置为由用户穿戴)的任何其他设备。每个媒体输出设备150可包括一个或多个音频换能器诸如扬声器151,其被配置为将声音投射到用户101的耳朵中。每个本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种音频输出设备,包括:存储器,所述存储器被配置为存储各自与触发短语相关联的语音识别模型;音频换能器;以及至少一个处理器,所述至少一个处理器被配置为:响应于建立所述音频输出设备与配套设备之间的连接,基于与所述连接相关联的连接信息确定所述配套设备的设备类型;基于所述配套设备的所述设备类型选择所述语音识别模型中的一者;加载所述语音识别模型中的所选择的一者;以及基于来自所述音频换能器的音频输入检测与所述语音识别模型中的所选择的一者相关联的所述触发短语。2.根据权利要求1所述的音频输出设备,其中所述存储器被配置为存储两个或更多个语音识别模型。3.根据权利要求1所述的音频输出设备,其中所述设备类型对应于所述配套设备的操作系统。4.根据权利要求1所述的音频输出设备,其中所述至少一个处理器被配置为通过利用所述语音识别模型中的所选择的一者执行低功率监听操作来检测所述触发短语。5.根据权利要求4所述的音频输出设备,其中所述低功率监听操作包括:周期性地或连续地将来自所述音频换能器的所述音频输入提供给所述语音识别模型中的所选择的一者;以及响应于所述语音识别模型中的所选择的一者的指示在所述音频输入中检测到所述触发短语的输出,触发所述配套设备的主动监听模式。6.根据权利要求5所述的音频输出设备,还包括可操作以触发所述主动监听模式的按钮。7.根据权利要求1所述的音频输出设备,还包括扬声器,所述扬声器用于输出通过所述连接从所述配套设备接收的音频内容。8.根据权利要求1所述的音频输出设备,其中所述至少一个处理器还被配置为:在建立所述连接时接收所述连接信息;以及通过在所述连接信息中获取所述配套设备的提供商的标识符来确定所述配套设备的所述设备类型。9.根据权利要求1所述的音频输出设备,其中所述至少一个处理器还被配置为:检测与除所述配套设备之外的新配套设备的新连接;以及基于与所述新连接相关联的新连接信息将所述语音识别模型中的被加载的一者替换成所述语音识别模型中的不同语音识别模型。10.一种方法,包括:在音频输出设备处存储各自与触发短语相关联的语音识别模型;响应于建立所述音频输出设备与配套设备之间的连接,由所述音频输出设备基于与所述连接相关联的连接信息确定所述配套设备的设备类型;由所述音频输出设备基于所述配套设备的所述设备类型选择所述语音识别模型中的一者;以及
由所述...

【专利技术属性】
技术研发人员:D
申请(专利权)人:苹果公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1