当前位置: 首页 > 专利查询>苹果公司专利>正文

用户特定的声学模型制造技术

技术编号:20183104 阅读:16 留言:0更新日期:2019-01-23 02:33
本发明专利技术提供了用于提供用户特定的声学模型的系统和过程。根据一个示例,方法包括在具有一个或多个处理器的电子设备处接收多个语音输入,这些语音输入中的每个语音输入与电子设备的相同用户相关联;将多个语音输入中的每个语音输入提供给用户独立的声学模型,该用户独立的声学模型提供多个语音结果;在电子设备上发起用户特定的声学模型;以及基于多个语音输入和多个语音结果来调节用户特定的声学模型。

User-specific acoustic model

The present invention provides a system and process for providing a user-specific acoustic model. According to an example, the method includes receiving multiple voice inputs at an electronic device with one or more processors, each of which is associated with the same user of the electronic device; providing each voice input in multiple voice inputs to a user-independent acoustic model that provides multiple voice results; and in an electronic device, providing multiple voice results. Provide user-specific acoustic models for initiation, and adjust user-specific acoustic models based on multiple voice inputs and multiple voice results.

【技术实现步骤摘要】
【国外来华专利技术】用户特定的声学模型优先权要求本专利申请要求于2017年5月12日提交的标题为“USER-SPECIFICACOUSTICMODELS”的美国临时专利申请62/505,680的优先权,该专利申请的内容全文以引用方式并入本文,以用于所有目的。本专利申请要求于2017年5月29日提交的标题为“USER-SPECIFICACOUSTICMODELS”的丹麦临时专利申请PA2017/70398的优先权,该专利申请的内容全文以引用方式并入本文,以用于所有目的。
本公开整体涉及声学模型,并且更具体地涉及适于一个或多个特定用户的声学模型。
技术介绍
声学模型可帮助电子设备解释语音输入,例如,在语音到文本系统的具体实施期间。举例而言,声学模型允许电子设备更好地解释语音的言语和韵律方面,诸如各种特定的字词和短语、口音、音调和节奏。然而,用于一般用途的声学模型的计算需求高并且施加大的存储器要求。因此,计算能力较低的设备通常不能实现此类声学模型。
技术实现思路
本文公开了示例性方法。一种示例性方法包括在具有一个或多个处理器的电子设备处接收多个语音输入,这些语音输入中的每个语音输入与电子设备的相同用户相关联;将多个语音输入中的每个语音输入提供给用户独立的声学模型,该用户独立的声学模型提供多个语音结果;在电子设备上发起用户特定的声学模型;以及基于多个语音输入和多个语音结果来调节用户特定的声学模型。本文公开了示例性非暂态计算机可读介质。公开了一种存储一个或多个程序的示例性非暂态计算机可读存储介质。一个或多个程序包括指令,该指令当由电子设备的一个或多个处理器执行时,使得电子设备接收多个语音输入,该语音输入中的每个语音输入与电子设备的相同用户相关联;将多个语音输入中的每个语音输入提供给用户独立的声学模型,该用户独立的声学模型提供多个语音结果;在电子设备上发起用户特定的声学模型;以及基于多个语音输入和多个语音结果来调节用户特定的声学模型。本文公开了示例性电子设备。一种示例性电子设备包括一个或多个处理器;存储器;以及一个或多个程序,其中该一个或多个程序被存储在存储器中并被配置为由一个或多个处理器执行,该一个或多个程序包括用于接收多个语音输入的指令,该语音输入中的每个语音输入与电子设备的相同用户相关联。将多个语音输入中的每个语音输入提供给用户独立的声学模型,该用户独立的声学模型提供多个语音结果;在电子设备上发起用户特定的声学模型;以及基于多个语音输入和多个语音结果来调节用户特定的声学模型。示例性电子设备包括用于接收多个语音输入的装置,这些语音输入中的每个语音输入与电子设备的相同用户相关联;用于将多个语音输入中的每个语音输入提供给用户独立的声学模型的装置,该用户独立的声学模型提供多个语音结果;用于在电子设备上发起用户特定的声学模型的装置;以及用于基于多个语音输入和多个语音结果来调节用户特定的声学模型的装置。基于多个语音输入和由用户独立的声学模型提供的多个语音结果来调节用户特定的声学模型,使得电子设备能够使用计算轻量级声学模型来执行语音识别,该计算轻量级声学模型被配置为识别特定用户的语音。以这种方式执行语音识别,通过允许使用用户独立的声学模型在不能执行语音识别的电子设备上进行语音识别,增强了电子设备的可操作性。附图说明图1为示出了根据各种示例的用于实现数字助理的系统和环境的框图。图2A为示出了根据各种示例的实现数字助理的客户端侧部分的便携式多功能设备的框图。图2B为示出了根据各种示例的用于事件处理的示例性部件的框图。图3示出了根据各种示例的实现数字助理的客户端侧部分的便携式多功能设备。图4为根据各种示例的具有显示器和触敏表面的示例性多功能设备的框图。图5A示出了根据各种示例的便携式多功能设备上的应用程序的菜单的示例性用户界面。图5B示出了根据各种示例的具有与显示器分开的触敏表面的多功能设备的示例性用户界面。图6A示出了根据各种示例的个人电子设备。图6B是示出根据各种示例的个人电子设备的框图。图7A为示出了根据各种示例的数字助理系统或其服务器部分的框图。图7B示出了根据各种示例的在图7A中所示的数字助理的功能。图7C示出了根据各种示例的知识本体的一部分。图8示出了根据各种示例的用于提供用户特定的声学模型的过程。图9示出了根据各种示例的多个电子设备。具体实施方式在以下对示例的描述中将引用附图,在附图中以例示的方式示出了可被实施的特定示例。应当理解,在不脱离各种实施例的范围的情况下,可使用其他实施例并且可作出结构性变更。尽管以下描述使用术语第一、第二等来描述各种元素,但这些元素不应受术语的限制。这些术语只是用于将一个元素与另一个元素区分开。例如,在不脱离各种所述示例的范围的情况下,第一输入可被称为第二输入,并且类似地,第二输入可被称为第一输入。第一输入和第二输入均为输入,并且在一些情况下为独立且不同的输入。在本文中对各种所述实施例的描述中所使用的术语只是为了描述特定实施例,而并非旨在进行限制。如在对各种所述实施例的描述和所附权利要求书中所使用的那样,单数形式“一个”和“该”旨在也包括复数形式,除非上下文另外明确地指示。还应当理解,本文中所使用的术语“和/或”是指并且涵盖相关联地列出的项目中的一个或多个项目的任何和全部可能的组合。还将理解的是,术语“包括”(“includes”、“including”“comprises”和/或“comprising”)当在本说明书中使用时指定存在所陈述的特征、整数、步骤、操作、元素、和/或部件,但是并不排除存在或添加一个或多个其他特征、整数、步骤、操作、元素、部件、和/或其分组。根据上下文,术语“如果”可被解释为意指“当…时”(“when”或“upon”)或“响应于确定”或“响应于检测到”。类似地,根据上下文,短语“如果确定…”或“如果检测到[所陈述的条件或事件]”可以被解释为意指“在确定…时”或“响应于确定…”或“在检测到[所陈述的条件或事件]时”或“响应于检测到[所陈述的条件或事件]”。1.系统和环境图1示出了根据各种实施例的系统100的框图。在一些示例中,系统100实现数字助理。术语“数字助理”、“虚拟助理”、“智能自动化助理”或“自动数字助理”是指解译口头形式和/或文本形式的自然语言输入来推断用户意图并基于推断出的用户意图来执行动作的任何信息处理系统。例如,为了作用于推断出的用户意图,系统执行下述步骤中的一个或多个:识别具有设计用于实现推断出的用户意图的步骤和参数的任务流,根据推断出的用户意图将特定要求输入到任务流中;通过调用程序、方法、服务、API等执行任务流;以及以可听(例如,语音)和/或可视形式来生成对用户的输出响应。具体地讲,数字助理能够接受至少部分地为自然语言命令、请求、声明、讲述和/或询问的形式的用户请求。通常,用户请求要么寻求数字助理作出信息性回答,要么寻求数字助理执行任务。对用户请求的令人满意的响应包括提供所请求的信息性回答、执行所请求的任务或这两者的组合。例如,用户向数字助理提出问题,诸如“我现在在哪里?”。基于用户的当前位置,数字助理回答“你在中央公园西门附近。”用户还请求执行任务,例如“请邀请我的朋友们下周来参加我女朋友的生日聚会。”作为响应,数字助理可通过讲出“好的,马上”来本文档来自技高网...

【技术保护点】
1.一种方法,包括:在具有一个或多个处理器的电子设备处;接收多个语音输入,所述语音输入中的每个语音输入与所述电子设备的相同用户相关联;将所述多个语音输入中的每个语音输入提供给用户独立的声学模型,所述用户独立的声学模型基于所述多个语音输入提供多个语音结果;在所述电子设备上发起用户特定的声学模型;以及基于所述多个语音输入和所述多个语音结果来调节所述用户特定的声学模型。

【技术特征摘要】
【国外来华专利技术】2017.05.29 DK PA201770398;2018.04.30 DK PA201870251.一种方法,包括:在具有一个或多个处理器的电子设备处;接收多个语音输入,所述语音输入中的每个语音输入与所述电子设备的相同用户相关联;将所述多个语音输入中的每个语音输入提供给用户独立的声学模型,所述用户独立的声学模型基于所述多个语音输入提供多个语音结果;在所述电子设备上发起用户特定的声学模型;以及基于所述多个语音输入和所述多个语音结果来调节所述用户特定的声学模型。2.根据权利要求1所述的方法,还包括:将所述用户特定的声学模型提供给另一个电子设备。3.根据权利要求2所述的方法,其中将所述用户特定的声学模型提供给另一个电子设备包括:确定所述用户特定的声学模型是否已在阈值数量的语音输入上进行训练;根据确定所述用户特定的声学模型已在阈值数量的语音输入上进行训练,将所述用户特定的声学模型提供给所述另一个电子设备;以及根据确定所述用户特定的声学模型未在阈值数量的语音输入上进行训练:基于第二多个语音输入和第二多个语音结果来调节所述用户特定的模型;以及将所述用户特定的声学模型提供给所述另一个电子设备。4.根据权利要求2至3中任一项所述的方法,其中:在所述另一个电子设备处:接收所述用户特定的声学模型;接收语音输入;以及利用所述用户特定的声学模型来识别所述语音输入的扬声器。5.根据权利要求4所述的方法,其中利用所述用户特定的声学模型来识别所述语音输入的扬声器包括:将所述语音输入提供给所述用户特定的声学模型,以提供第一语音结果和对应于所述语音结果的第一准确度得分;将所述语音输入提供给另一个用户特定的声学模型,以提供第二语音结果和对应于所述语音结果的第二准确度得分;以及基于所述第一准确度得分和所述第二准确度得分来识别所述语音输入的所述扬声器。6.根据权利要求4至6中任一项所述的方法,其中接收多个语音输入,所述语音输入中的每个语音输入与所述电子设备的相同用户相关联包括:从所述另一个电子设备接收所述多个语音输入中的一个或多个语音输入。7.根据权利要求1至6中任一项所述的方法,其中接收多个语音输入包括:在所述电子设备处接收所述多个语音输入中的一个或多个语音输入。8.根据权利要求7所述的方法,其中在所述电子设备处接收所述多个语音输入中的一个或多个语音输入包括:从对应于电话呼叫的用户话语获取所述多个语音输入中的所述一个或多个语音输入。9.根据权利要求7所述的方法,其中在所述电子设备处接收所述多个语音输入中的一个或多个语音输入包括:从对应于针对数字助理的请求的用户话语...

【专利技术属性】
技术研发人员:M·保力克H·G·梅森J·A·斯金德
申请(专利权)人:苹果公司
类型:发明
国别省市:美国,US

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1
相关领域技术
  • 暂无相关专利