当前位置: 首页 > 专利查询>谷歌公司专利>正文

多个设备上的热词检测制造技术

技术编号:13733854 阅读:63 留言:0更新日期:2016-09-21 18:39
公开了用于多个设备上的热词检测的方法、系统、和装置,包括在计算机存储介质上编码的计算机程序。在一个方面,一种方法包括由计算设备接收对应于话语的音频数据的动作。该动作进一步包括确定该话语包括热词的可能性。该动作进一步包括确定该音频数据的响度分值。该动作进一步包括基于该响度分值来确定延迟时间量。该动作进一步包括在已经流逝该延迟时间量之后传送指示该计算设备将发起对该音频数据的语音识别处理的信号。

【技术实现步骤摘要】
【国外来华专利技术】
本说明书总体上涉及用于识别人正在说的词语的系统和技术,其还被称为语音识别。
技术介绍
支持语音的住所或其它环境—也就是用户在其中仅需要出声地讲出查询或命令并且基于计算机的系统将处理并应答该查询和/或致使命令得以执行的住所或其他环境—的现实正在到来。支持语音的环境(例如住所、工作场所、学校等)能够使用分布在该环境的各个房间或区域各处的被连接的麦克风设备的网络来实现。通过这样的麦克风的网络,用户有能力从基本上该环境中的任何地方口头查询系统而无需在他/她的前方或者甚至在其附近具有计算机或其它设备。例如,当在厨房中烹饪时,用户可以询问系统“三杯是多少毫升?”,并且作为响应而从系统接收到回答,例如以合成语音输出的形式的回答。替选地,用户可以询问系统诸如“离我最近的加油站什么时候关门”或者在准备离开房子时询问“我今天应当穿外套吗?”。此外,用户可以询问系统的查询和/或发出命令,所述查询或命令涉及用户的个人信息。例如,用户可以询问系统“我与John何时会面?”或者命令系统“当我回家时提醒我给John打电话。”
技术实现思路
对于支持语音的系统,用户与系统交互的方式被设计为主要—如果不是专门地—凭借语音输入来进行。因此,可能拾取周围环境中所发出的包括并非指向系统的那些话语在内的所有话语的系统必须以某些方式来辨别任何给定的话语何时是指向该系统而不是例如指向出现
在该环境中的个人。一种实现该目的的方式是使用热词,该热词通过环境中的用户间的协定被预留作为预定词语,其被讲出以唤起系统的注意。在示例环境中,用来唤起系统的注意的热词是词语“OK computer(OK计算机)”。因此,每次词语“OK computer”被讲出时,其就被麦克风所拾取,传达至系统,该系统执行语音识别技术来确定热词是否被讲出,并且如果是,则等待随后的命令或查询。因此,指向系统的话语采用[热词][查询]的一般形式,其中本示例中的“热词”是“OK computer”并且“查询”能够是任何问题、命令、声明、或者能够由系统单独或者经由网络与服务器结合来进行语音识别、解析、以及按照其实施动作的其它请求。根据本说明书中所描述的主题的一个创新方面,一种计算设备接收用户所讲出的话语。该计算设备确定该话语包括热词的可能性并且计算该话语的响度分值。在邻近处的其它计算设备也接收到该话语,确定该话语包括热词的可能性,并且计算该话语的响度分值。每个计算设备还基于该响度分值来计算延迟,使得该延迟的长度与该响度分值成反比。由于距话语的源最近的计算设备通常将具有最高的响度分值,所以该最近的设备应当具有最短的延迟。在已经流逝与给定计算设备相关联的延迟之后,除非相应的计算设备在该延迟时期期间接收到通知信号,否则该计算设备将向其它计算设备传送通知信号。因此,具有最小延迟(并且因此最可能距用户最近)的计算设备向其它计算设备传送信号以指示该计算设备将对该热词之后的附加音频进行处理。在该实例中,进行传送的计算设备对该热词之后的附加音频进行处理。如果该计算设备在延迟期间接收到来自其它计算设备中的一个计算设备的指示另一个设备将对该热词之后的附加音频进行处理的信号,则该计算设备停止处理音频。总体上,本说明书中所描述的主题的另一个创新方面可以被包含在一种方法中,所述方法包括以下动作:由计算设备接收对应于话语的音频数据;确定该话语包括热词的可能性;确定该音频数据的响度
分值;基于该响度分值,确定延迟时间量;在已经流逝该延迟时间量之后,传送指示该计算设备将发起对该音频数据的语音识别处理的信号。这些和其它实施例均能够可选地包括以下特征中的一个或多个特征。该动作进一步包括:由该计算设备接收对应于附加话语的附加音频数据;确定该附加话语包括热词的第二可能性;确定该附加音频数据的第二响度分值;基于该第二响度分值,确定第二延迟时间量;以及在已经流逝该延迟时间量之前,接收第二信号,该第二信号指示:(i)第二计算设备将发起对该附加音频数据的语音识别处理,以及(ii)该计算设备不应当发起对该附加音频数据的语音识别处理。该动作进一步包括:基于接收到该第二信号,确定该计算设备的激活状态为非活跃状态。该动作进一步包括:基于传送该信号,确定该计算设备的激活状态为活跃状态。该信号包括超声信号或短距离无线电信号。该信号被另一个计算设备所接收并且向其它计算设备指示不发起对该音频数据的语音识别处理。该动作进一步包括:基于确定该话语包括热词的可能性,准备接收指示另一个计算设备将发起对该音频数据的语音识别处理的信号。该响度分值与该延迟时间量成比例。在该响度分值满足阈值时该延迟时间为零。确定该音频数据的响度分值的动作进一步包括:确定该话语包括该热词的所述可能性包括可能性阈值。该方面的其它实施例包括对应的系统、装置、以及记录在计算机存储设备上的计算机程序,它们均被配置为执行该方法的操作。本说明书中所描述的主题的特定实施例能够被实现以便实现以下优势中的一种或多种。多个设备能够检测热词并且仅一个设备将对热词作出响应。在附图和以下的描述中阐述了本说明书中所描述主题的一个或多个实施例的细节。该主题的其它特征、方面、和优势从说明书、附图、和权利要求书将变得显而易见的。附图说明图1是用于热词检测的示例系统的示图。图2是用于热词检测的示例过程的示图。图3示出了计算设备和移动计算设备的示例。各图中相似的附图标记和名称指示相似的要素。具体实施方式本说明书描述了基于响度的协议,其允许监听热词的多个计算设备来确定哪个设备应当作出响应。有利的是,该协议能够基于本地交互来实现,例如使用音频信号或短距离无线电信号来实施,并且不需要任何服务器侧的通信。这可以是有益的,因为使用本地交互能够允许对响应进行协商而不会引发与服务器的通信延时。图1是用于热词检测的示例系统100的示图。总体上,系统100图示了讲出话语104的用户,该话语104被计算设备106、108、和110的麦克风检测到。计算设备106、108、和110对话语104进行处理以确定话语104包括热词的可能性,以及确定该话语的响度分值。计算设备106、108、和110计算与该响度分值成比例的延迟时间。一旦已经流逝计算设备的延迟时间之一,该计算设备就向其它计算设备传送信号。该信号向其它计算设备指示进行传送的计算设备将对与该话语相对应的音频数据执行语音识别。更为详细地,用户102讲出话语104“OK computer”,并且计算设备106、108、和110通过相应的诸如麦克风的音频输入设备来接收该话语104。计算设备106是用户102拿在该用户手中的电话。计算设
备108是位于桌上的平板计算机。计算设备110则是位于墙壁上的恒温器。计算设备106最靠近用户,接下来计算设备108是下一个最靠近的,并且最后计算设备110距离用户最远。计算设备106、108、和110每个都包括麦克风114、116、或118。每个麦克风向相应的音频子系统提供音频数据。该音频子系统对从麦克风所接收的音频数据进行缓冲、滤波、和数字化。在一些实施方式中,每个计算设备可以对音频数据执行端点指示(endpointing)和说话者识别。在一些实施方式中,计算设备106、108、和110可以是能够接收并处理音频数据的本文档来自技高网
...

【技术保护点】
一种计算机实现的方法,包括:由计算设备接收对应于话语的音频数据;确定所述话语包括热词的可能性;确定所述音频数据的响度分值;基于所述响度分值来确定延迟时间量;在已经流逝所述延迟时间量之后,传送指示所述计算设备将发起对所述音频数据的语音识别处理的信号。

【技术特征摘要】
【国外来华专利技术】2014.10.09 US 62/061,903;2015.03.17 US 14/659,8611.一种计算机实现的方法,包括:由计算设备接收对应于话语的音频数据;确定所述话语包括热词的可能性;确定所述音频数据的响度分值;基于所述响度分值来确定延迟时间量;在已经流逝所述延迟时间量之后,传送指示所述计算设备将发起对所述音频数据的语音识别处理的信号。2.根据权利要求1所述的方法,包括:由所述计算设备接收对应于附加话语的附加音频数据;确定所述附加话语包括热词的第二可能性;确定所述附加音频数据的第二响度分值;基于所述第二响度分值来确定第二延迟时间量;以及在已经流逝所述延迟时间量之前,接收第二信号,所述第二信号指示:(i)第二计算设备将发起对所述附加音频数据的语音识别处理,以及(ii)所述计算设备不应当发起对所述附加音频数据的语音识别处理。3.根据权利要求2所述的方法,包括:基于接收到所述第二信号,确定所述计算设备的激活状态为非活跃状态。4.根据权利要求1所述的方法,包括:基于传送所述信号,确定所述计算设备的激活状态为活跃状态。5.根据权利要求1所述的方法,其中,所述信号包括超声信号或短距离无线电信号。6.根据权利要求1所述的方法,其中,所述信号被另一个计算设备所接收以及向其它计算设备指示不发起对所述音频数据的语音识别处理。7.根据权利要求1所述的方法,包括:基于确定所述话语包括热词的可能性,准备接收指示另一个计算设备将发起对所述音频数据的语音识别处理的信号。8.根据权利要求1所述的方法,其中,所述响度分值与所述延迟时间量成比例。9.根据权利要求1所述的方法,其中,在所述响度分值满足阈值时所述延迟时间为零。10.根据权利要求1所述的方法,其中,确定所述音频数据的响度分值包括:确定所述话语包括所述热词的所述可能性包括可能性阈值。11.一种系统,包括:一个或多个计算机和存储指令的一个或多个存储设备,所述指令在被所述一个或多个计算机所执行时可操作为使所述一个或多个计算机执行操作,所述...

【专利技术属性】
技术研发人员:雅各布·尼古劳斯·弗尔斯特亚历山大·H·格伦斯坦
申请(专利权)人:谷歌公司
类型:发明
国别省市:美国;US

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1