当前位置: 首页 > 专利查询>苹果公司专利>正文

扬声器识别和不受支持的扬声器适配技术制造技术

技术编号:15530009 阅读:79 留言:0更新日期:2017-06-04 17:13
本申请提供了用于生成用于执行针对虚拟助理的扬声器识别的扬声器配置文件的系统和过程。一种示例性过程可包括接收包括用户语音的音频输入以及基于针对预先确定的用户的扬声器配置文件确定用户语音的扬声器是否为预先确定的用户。响应于确定用户语音的扬声器为预先确定的用户,可将用户语音添加到扬声器配置文件并且可触发虚拟助理的操作。响应于确定用户语音的扬声器不是预先确定的用户,可将用户语音添加到另选的扬声器配置文件并且可不触发虚拟助理的操作。在一些示例中,可使用上下文信息来验证扬声器识别过程产生的结果。

Speaker recognition and unsupported speaker adaptation techniques

The present application provides a system and process for generating a speaker configuration file for performing speaker identification for a virtual assistant. An exemplary process may include receiving an audio input including a user's voice, and determining whether the speaker of the user's speech is a predetermined user based on the speaker profile of the predetermined user. In response to the speaker that determines the user's voice as a predetermined user, the user voice can be added to the speaker configuration file and the operation of the virtual assistant can be triggered. In response to a speaker that determines the user's voice, not a predetermined user, the user voice can be added to the selected speaker configuration file and the operation of the virtual assistant may not be triggered. In some examples, contextual information can be used to verify the results produced by the speaker recognition process.

【技术实现步骤摘要】
【国外来华专利技术】扬声器识别和不受支持的扬声器适配技术相关申请的交叉引用本申请要求2014年9月30日提交的题为“SPEAKERIDENTIFICATIONANDUNSUPERVISEDSPEAKERADAPTATIONTECHNIQUES”的美国临时申请No.62/057,990和2015年8月25日提交的题为“SPEAKERIDENTIFICATIONANDUNSUPERVISEDSPEAKERADAPTATIONTECHNIQUES”的美国非临时申请No.14/835,169的优先权,其全文出于所有目的以引用方式并入本文。
本申请通常涉及自然语言处理,尤其涉及执行针对自然语言处理的扬声器识别。
技术介绍
智能自动助理(或虚拟助理)在用户和电子设备之间提供直观的界面。这些助理可允许用户使用语言和/或文本形式的自然语言与设备或系统交互。例如,用户可通过将自然语言形式的语音用户输入提供给与电子设备相关联的虚拟助理来访问电子设备的服务。虚拟助理可对语音用户输入执行自然语言处理以推断用户意图并将用户意图操作为任务。随后可通过执行电子设备的一个或多个功能执行任务,并且可将相关输出以自然语言形式返回到用户。一些自然语言处理系统可执行扬声器识别来验证用户的身份。这些系统典型地需要用户执行注册过程,在注册过程期间用户说出一系列预先确定的字词或短语来允许自然语言处理系统对用户语音建模。尽管此过程可用来有效地对用户语音建模,但是如果用户在注册过程期间以非自然方式说出和/或如果用户在不同于稍后执行扬声器识别的声学环境下执行注册过程,则该过程可能会产生不可靠的结果。因此,希望用于对用户语音建模的改进过程。
技术实现思路
本申请提供了用于生成用于执行针对虚拟助理的扬声器识别的扬声器配置文件的系统和过程。一种示例性过程可包括接收包括用户语音的音频输入以及基于针对预先确定的用户的扬声器配置文件确定用户语音的扬声器是否为预先确定的用户。响应于确定用户语音的扬声器为预先确定的用户,可将用户语音添加到扬声器配置文件并且可触发虚拟助理的操作。响应于确定用户语音的扬声器不是预先确定的用户,可将用户语音添加到另选的扬声器配置文件并且可不触发虚拟助理的操作。在一些示例中,可使用上下文信息来验证扬声器识别过程产生的结果。附图说明图1示出了根据各种示例的虚拟助理可操作的示例性环境。图2示出了根据各种示例的示例性用户设备。图3示出了根据各种示例的用于操作虚拟助理的示例性过程。图4示出了根据各种示例的用于在扬声器配置文件生成模式操作虚拟助理的示例性过程。图5示出了根据各种示例的用于在扬声器配置文件修改模式操作虚拟助理的示例性过程。图6示出了根据各种示例的用于在静态扬声器配置文件模式操作虚拟助理的示例性过程。图7示出了根据各种示例的用于执行扬声器识别的示例性过程。图8示出了根据各种示例的配置为基于语音用户输入生成扬声器配置文件的电子设备的功能框图。具体实施方式在以下对示例的描述中将引用附图,在附图中以例示的方式示出了可被实施的特定示例。应当理解,在不脱离各个示例的范围的情况下,可使用其他示例并且可作出结构性变更。本文涉及用于生成用于执行针对虚拟助理的扬声器识别的扬声器配置文件。一种示例性过程可包括接收包括用户语音的音频输入以及基于针对预先确定的用户的扬声器配置文件确定用户语音的扬声器是否为预先确定的用户。响应于确定用户语音的扬声器为预先确定的用户,可将用户语音添加到扬声器配置文件并且可触发虚拟助理的操作。响应于确定用户语音的扬声器不是预先确定的用户,可将用户语音添加到另选的扬声器配置文件并且可不触发虚拟助理的操作。在一些示例中,可使用上下文信息来验证扬声器识别过程产生的结果。系统概述图1示出了根据各种示例的用于实现虚拟助理的示例性系统100。术语“虚拟助理”、“数字助理”、“智能自动化助理”或“自动数字助理”可指解译口头和/或文本形式的自然语言输入以推断用户意图,并基于推断出的用户意图来执行动作的任何信息处理系统。例如,为了进行推断出的用户意图,系统可执行以下内容中的一个或多个:通过设计用以实现所推断出的用户意图的步骤和参数来识别任务流,将来自推断出的用户意图的具体要求输入到任务流中;通过调用程序、方法、服务、API等来执行任务流;以及生成对用户的听觉(例如,语音)和/或视觉形式的输出响应。虚拟助理能够接受至少部分地为自然语言命令、请求、声明、讲述和/或询问的形式的用户请求。通常,用户请求要么寻求虚拟助理作出信息性回答,要么寻求虚拟助理执行任务。针对用户请求的令人满意的响应可包括提供所请求的信息性回答、执行所请求的任务、或这两者的组合。例如,用户可向虚拟助理提出诸如“我现在在哪里?”之类的问题。基于用户的当前位置,虚拟助理可能回答“你在中央公园。”用户也可请求执行任务,例如,“请提醒我今天下午4点给妈妈打电话。”作为应答,虚拟助理可确认该请求并且随后在用户电子日程表中创建适当的提醒项目。在执行所请求的任务期间,虚拟助理有时可在很长时间段内在涉及多次信息交换的持续对话中与用户进行交互。存在与虚拟助理进行交互以请求信息或执行各种任务的许多其他方法。除提供言语响应并采取经编程的动作之外,虚拟助理还可提供其他视频或音频形式(例如,作为文本、警示、音乐、视频、动画等)的响应。虚拟助理的示例在提交于2011年1月10日的名为“IntelligentAutomatedAssistant”的申请人的美国技术专利申请序列号12/987,982中有所描述,其全部公开内容以引用方式并入本文。如图1中所示,在一些示例中,虚拟助理可根据客户端-服务器模型来实施。虚拟助理可包括在用户设备102上执行的客户端侧部分以及在服务器系统110上执行的服务器侧部分。用户设备102可包括任何电子设备,诸如移动电话、平板电脑、便携式媒体播放器、台式计算机、膝上型计算机、PDA、电视机、电视机顶盒、可穿戴电子设备等,并且可通过可包括互联网、内联网、或任何其他有线或无线公共或私人网络的一个或多个网络108与服务器系统110通信。在用户设备102上执行的客户端侧部分可提供客户端侧功能,诸如面向用户输入和输出处理以及与服务器系统110的通信。服务器系统110可为驻留在相应用户设备102上的任意数量的客户端提供服务器侧功能。服务器系统110可包括一个或多个虚拟助理服务器114,该虚拟助理服务器可包括面向客户端的I/O接口122、一个或多个处理模块118、数据与模型存储装置120,以及到外部服务的I/O接口116。面向客户端的I/O接口122可促成虚拟助理服务器114的面向客户端的输入和输出处理。一个或多个处理模块118可利用数据与模型存储装置120基于自然语言输入来确定用户的意图,并基于推断出的用户意图来进行任务执行。在一些示例中,虚拟助理服务器114可通过应用任务完成或信息获取的网络108与外部服务124,诸如电话服务、日历服务、信息服务、即时消息服务、导航服务等通信。到外部服务的I/O接口116可促成此类通信。服务器系统110可在计算机的一个或多个独立式数据处理设备或分布式网络上实施。在一些示例中,服务器系统110可采用第三方服务提供方(例如,第三方云服务提供方)的各种虚拟设备和/或服务来提供服务器系本文档来自技高网
...
扬声器识别和不受支持的扬声器适配技术

【技术保护点】
一种用于操作虚拟助理的方法,所述方法包括:在电子设备处:在所述电子设备处接收包括用户语音的音频输入;至少部分基于针对预先确定的用户的扬声器配置文件确定所述用户语音的扬声器是否为所述预先确定的用户;以及根据确定所述用户语音的所述扬声器为所述预先确定的用户,将包括用户语音的所述音频输入添加到针对所述预先确定的用户的所述扬声器配置文件。

【技术特征摘要】
【国外来华专利技术】2014.09.30 US 62/057,990;2015.08.25 US 14/835,1691.一种用于操作虚拟助理的方法,所述方法包括:在电子设备处:在所述电子设备处接收包括用户语音的音频输入;至少部分基于针对预先确定的用户的扬声器配置文件确定所述用户语音的扬声器是否为所述预先确定的用户;以及根据确定所述用户语音的所述扬声器为所述预先确定的用户,将包括用户语音的所述音频输入添加到针对所述预先确定的用户的所述扬声器配置文件。2.根据权利要求1所述的方法,其中针对所述预先确定的用户的所述扬声器配置文件包括多个声纹。3.根据权利要求2所述的方法,其中针对所述预先确定的用户的所述扬声器配置文件的所述多个声纹中的每一个由包括用户语音的先前接收的音频输入生成。4.根据权利要求2所述的方法,其中至少部分基于针对所述预先确定的用户的所述扬声器配置文件确定所述用户语音的所述扬声器是否为所述预先确定的用户包括:确定包括用户语音的所述音频输入是否匹配至少阈值数量的所述多个声纹;根据确定包括用户语音的所述音频输入匹配至少所述阈值数量的所述多个声纹,确定所述用户语音的所述扬声器为所述预先确定的用户;以及根据确定包括用户语音的所述音频输入不匹配至少所述阈值数量的所述多个声纹,确定所述用户语音的所述扬声器不是所述预先确定的用户。5.根据权利要求2所述的方法,其中至少部分基于针对所述预先确定的用户的所述扬声器配置文件确定所述用户语音的所述扬声器是否为所述预先确定的用户包括:确定包括用户语音的所述音频输入是否匹配至少阈值数量的所述多个声纹;根据确定包括用户语音的所述音频输入匹配至少所述阈值数量的所述多个声纹:确定错误的扬声器确定是否基于上下文数据做出;根据确定错误的扬声器确定不是基于上下文数据做出,确定所述用户语音的所述扬声器为所述预先确定的用户;以及根据确定错误的扬声器确定基于上下文数据做出,确定所述用户语音的所述扬声器不是所述预先确定的用户;以及根据确定包括用户语音的所述音频输入不匹配至少所述阈值数量的所述多个声纹:确定错误的扬声器确定是否基于上下文数据做出;根据确定错误的扬声器确定不是基于上下文数据做出,确定所述用户语音的所述扬声器不是所述预先确定的用户;以及根据确定错误的扬声器确定基于上下文数据做出,确定所述用户语音的所述扬声器为所述预先确定的用户。6.根据权利要求1所述的方法,其中将包括用户语音的所述音频输入添加到针对所述预先确定的用户的所述扬声器配置文件包括:从包括用户语音的所述音频输入生成声纹;以及将所述声纹与针对所述预先确定的用户的所述扬声器配置文件相关联地存储。7.根据权利要求1所述的方法,其中所述方法还包括:根据确定所述用户语音的所述扬声器不是所述预先确定的用户,将包括用户语音的所述音频输入添加到针对另选的用户的扬声器配置文件。8.根据权利要求7所述的方法,其中针对所述另选的用户的所述扬声器配置文件包括多个声纹。9.根据权利要求8所述的方法,其中针对所述另选的用户的所述扬声器配置文件的所述多个声纹中的每一个由包括用户语音的先前接收的音频输入生成。10.根据权利要求7所述的方法,...

【专利技术属性】
技术研发人员:Y·金S·S·卡加克卡
申请(专利权)人:苹果公司
类型:发明
国别省市:美国,US

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1