当前位置: 首页 > 专利查询>奇跃公司专利>正文

确定用于语音处理引擎的输入制造技术

技术编号:31159577 阅读:24 留言:0更新日期:2021-12-04 10:22
公开了一种向语音处理引擎呈现信号的方法。根据该方法的示例,经由麦克风接收音频信号。识别音频信号的一部分,并且确定该部分包括由语音处理引擎的用户将其作为输入定向到语音处理引擎的语音的概率。根据概率超过阈值的确定,音频信号的部分作为输入呈现给语音处理引擎。根据概率不超过阈值的确定,音频信号的部分不作为输入呈现给语音处理引擎。的部分不作为输入呈现给语音处理引擎。的部分不作为输入呈现给语音处理引擎。

【技术实现步骤摘要】
【国外来华专利技术】确定用于语音处理引擎的输入
[0001]相关申请的交叉引用
[0002]本申请要求于2019年3月1日提交的美国临时申请第62/812,959号的优先权,其内容通过引用整体并入本文。


[0003]本公开总体上涉及用于处理语音信号的系统和方法,并且特别地涉及用于处理语音信号以呈现给语音处理引擎的系统和方法。

技术介绍

[0004]用于语音识别的系统的任务是通常经由一个或多个麦克风接收表示人类语音的音频输入,并处理音频输入以确定与该音频输入对应的词、逻辑结构、或其它输出。例如,自动语音识别(ASR)系统可以基于与音频输入信号对应的人类语音生成文本输出;并且自然语言处理(NLP)工具可以生成与人类语音的含义对应的逻辑结构或计算机数据。虽然此类系统可能包含任何数量的组件,但此类系统的核心是语音处理引擎,其中该组件接受音频信号作为输入,对输入执行一些识别逻辑,并输出与该输入对应的一些文本。(虽然在此参考了语音处理引擎,但在本公开的范围内还应考虑除语音识别之外的其它形式的语音处理)。
[0005]历史上,诸如经由麦克风检测的音频输入以结构化的可预测的方式被提供给语音处理引擎。例如,用户可能响应第一提示(prompt)(例如,“现在开始讲话”)会直接对着台式计算机的麦克风讲话;在按下第一按钮输入(例如,“开始”或“录制”按钮,或软件界面中的麦克风图标)后立即;或在一段相当长的沉默之后。类似地,用户可能响应第二提示(例如,“停止讲话”)停止提供麦克风输入;在按下第二按钮输入(例如,“停止”或“暂停”按钮)之前立即;或保持沉默一段时间。此类结构化的输入序列对于用户何时向语音处理引擎提供输入几乎没有任何疑问(例如,在第一提示与第二提示之间,或在按下开始按钮与按下停止按钮之间)。此外,由于此类系统通常需要用户有意识地采取动作,并且因此通常可以假设用户的语音输入是针对语音处理引擎的,而不是针对某个其他听众(例如,相邻房间中的人)。因此,当时的许多语音处理引擎可能没有任何特别需要从麦克风输入中识别输入的哪些部分针对语音处理引擎并旨在提供语音识别输入,以及相反,哪些部分不是。
[0006]用户提供语音识别输入的方式已经改变,因为语音处理引擎变得更加普遍并且更加完全地融入用户的日常生活。例如,一些自动语音助手现在安装在家用电器、汽车仪表板、智能手机、可穿戴设备、“客厅”设备(例如,具有集成“智能”语音助手的设备)和远离传统台式计算机的其它环境或以其它方式与其集成。在许多情况下,语音处理引擎在日常生活中的该集成水平可以得到更广泛的使用。然而,这些系统会因系统提示、按钮输入和用于将麦克风输入划分到语音处理引擎的其它传统机制而变得笨重。相反,一些此类系统将一个或多个麦克风置于“始终开启”状态,其中麦克风监听表示开始语音识别输入序列的“唤醒词”(例如,设备的“名称”、或任何其它预定词或短语)。在检测到唤醒词时,语音处理引擎
可以处理麦克风输入接下来的序列作为语音处理引擎的输入。
[0007]虽然唤醒词系统取代了语音处理引擎对离散提示或按钮输入的需要,但它存在误报的风险,诸如用户说出无意激活语音处理引擎的唤醒词,或者被语音处理引擎附近的电视或音乐扬声器无意“说出”的唤醒词。可能需要用一种更智能的方式来取代唤醒词系统,该方式基于语音输入来确定用户是否旨在让该语音向语音处理引擎提供输入——也就是说,用户的语音是否是“输入语音”,而不是“非输入语音”。这将允许用户更自然地与语音处理引擎交互(例如,无需调用专用唤醒词),并鼓励在日常环境和情况下使用此类系统。
[0008]占据日常空间的语音处理引擎的相关问题是这些引擎可能检测到大量环境噪声、不针对引擎的语音,或不旨在作为输入的其它音频信号。例如,客厅中的语音处理引擎不仅会检测用户有意的语音处理引擎输入(例如,“星期二的天气预报是什么?”),还会检测来自宠物、设备(例如,电视扬声器)、或其他人的声音和语音;环境噪音;或用户讲话的针对附近其他人的部分。处理音频信号的这些非输入部分会浪费计算资源,并且可影响语音处理引擎的准确性——这在一些不受控制的环境中(例如,户外)可能已经受到限制。期望语音处理引擎从麦克风输入中识别麦克风输入中的表示旨在用于语音处理引擎的输入的部分(输入语音);并忽略并不旨在用于语音处理引擎的输入的部分(非输入语音)。
[0009]还希望使用配备传感器的系统,包括并入可穿戴头戴式单元的那些系统,以提高语音处理引擎识别和忽略不旨在用于语音处理引擎的音频输入的能力。语音处理引擎可以使用传感器数据(例如,来自单个传感器的数据、或来自与惯性测量单元融合在一起的多个传感器的数据)来帮助识别和处理音频输入信号中属于输入语音的那些部分,允许这些系统的输出生成更准确和更可靠的结果。特别是可穿戴设备的传感器可能特别有用;例如,此类传感器可以指示用户的位置和取向;用户的眼睛运动和眼睛注视目标;用户手部的运动;以及生物度量数据(例如,诸如心率和呼吸频率的生命体征)。在许多情况下,这些指示可以向语音识别系统提供与人类用来直观地理解另一个人正在和谁讲话的同类非语言线索(诸如用户的运动和身体语言)。此外,可穿戴系统非常适合移动的户外应用——正是在这种应用类型中,许多传统的语音处理引擎可能表现得特别差。

技术实现思路

[0010]本公开的示例描述了用于向语音处理引擎呈现信号的系统和方法。根据示例方法,经由一个或多个麦克风接收音频信号。识别音频信号的一部分,并且确定该部分包括由语音处理引擎的用户将其作为输入定向到语音处理引擎的语音的概率。根据概率超过阈值的确定,音频信号的部分作为输入被呈现给语音处理引擎。根据概率不超过阈值的确定,音频信号的部分不作为输入呈现给语音处理引擎。
附图说明
[0011]图1示出根据本公开的一些实施例的示例可穿戴系统。
[0012]图2示出根据本公开的一些实施例的可以与示例可穿戴系统结合使用的示例手持式控制器。
[0013]图3示出根据本公开的一些实施例的可以与示例可穿戴系统结合使用的示例辅助单元。
[0014]图4示出根据本公开的一些实施例的示例可穿戴系统的示例功能框图。
[0015]图5示出根据本公开的一些实施例的用于处理声学语音信号的示例系统的流程图。
[0016]图6A至6D示出根据本公开的一些实施例的处理声学语音信号的示例。
[0017]图7A至7C示出根据本公开的一些实施例的用于处理声学语音信号的示例系统的流程图。
[0018]图8示出了示出根据本公开的一些实施例的用于处理声学语音信号的示例系统的部分的流程图。
[0019]图9示出了示出根据本公开的一些实施例的用于处理声学语音信号的示例系统的部分的流程图。
[0020]图10示出根据本公开的一些实施例的与一个或多个接收者交互的用户。
[0021]图11示出根据本公开的一些实施例的用于捕获音频和非音频分类器训练数据的示例过程。
具体实施方式
[0022]在以下示例的描述中,参考了形成其一部本文档来自技高网
...

【技术保护点】

【技术特征摘要】
【国外来华专利技术】1.一种向语音处理引擎呈现信号的方法,所述方法包括:经由第一麦克风接收第一音频信号;识别所述第一音频信号的第一部分;对于所述第一音频信号的所述第一部分,确定所述第一部分包括由所述语音处理引擎的用户将其作为输入定向到所述语音处理引擎的语音的第一概率;根据所述第一概率超过第一阈值的确定,将所述第一音频信号的所述第一部分作为输入呈现给所述语音处理引擎;以及根据所述第一概率不超过所述第一阈值的确定,放弃将所述第一音频信号的所述第一部分作为输入呈现给所述语音处理引擎。2.根据权利要求1所述的方法,其中,基于所述第一音频信号的所述第一部分与数据库中的多个音频信号的比较来确定所述第一概率,所述多个音频信号中的每个音频信号与其相应的音频信号包括作为输入被定向到语音处理引擎的语音的概率相关联。3.根据权利要求1所述的方法,还包括从与所述用户相关联的第一传感器接收第一传感器数据,其中,基于所述第一传感器数据与数据库中的多个传感器数据的比较来确定所述第一概率,所述数据库中的所述多个传感器数据中的每个传感器数据与音频信号相关联,并且还与其相应的音频信号包括作为输入被定向到语音处理引擎的语音的概率相关联。4.根据权利要求3所述的方法,其中,所述第一传感器与被配置为由所述用户佩戴的可穿戴头部单元相关联。5.根据权利要求4所述的方法,其中,所述第一传感器数据指示以下中的一个或多个:所述用户的位置、取向、眼睛运动、眼睛注视目标、或生命体征。6.根据权利要求5所述的方法,其中,基于所述第一传感器数据识别所述第一音频信号的所述第一部分。7.根据权利要求1所述的方法,还包括:识别所述第一音频信号的第二部分;对于所述第一音频信号的所述第二部分,确定所述第二部分包括由所述用户将其作为输入定向到所述语音处理引擎的语音的第二概率;根据所述第二概率超过所述第一阈值的确定,将所述第一音频信号的所述第二部分作为输入呈现给所述语音处理引擎;以及根据所述第二概率不超过所述第一阈值的确定,放弃将所述第一音频信号的所述第二部分作为输入呈现给所述语音处理引擎。8.根据权利要求7所述的方法,其中,至少部分地基于所述第一概率来确定所述第二概率。9.一种用于向语音处理引擎提供输入的系统,所述系统包括:麦克风;以及电路,其被配置为执行:经由所述麦克风接收第一音频信号;识别所述第一音频信号的第一部分;对于所述第一...

【专利技术属性】
技术研发人员:A
申请(专利权)人:奇跃公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1