System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 多设备上的热词检测制造技术_技高网

多设备上的热词检测制造技术

技术编号:41315215 阅读:5 留言:0更新日期:2024-05-13 14:56
公开了用于在多个设备上进行热词检测的方法、系统和装置,包括编码在计算机存储介质上的计算机程序。当用户说出热词时,在多于一个设备在用户附近的情况下,本说明书中描述的主题的创新方面减少了计算资源的使用。在一个方面,一种方法包括接收与话语对应的音频数据的动作。动作还包括确定话语可能包含特定的预定义热词。动作还包括发送(i)指示计算设备可能接收到特定的预定义热词的数据,(ii)标识计算设备的数据,以及(iii)标识一组附近的计算设备的数据。动作还包括接收开始语音识别的指令。动作还包括使用计算设备上的自动语音识别器处理音频数据的至少一部分。

【技术实现步骤摘要】

本说明书总体涉及自动语音识别。


技术介绍

1、启用语音(speech-enabled)的家庭或其他环境——即,用户仅需要大声说出查询或命令而后基于计算机的系统将登场并回答查询和/或使得命令被执行的环境——离我们越来越近。可以使用遍布在各个房间或环境的各个区域中的连接的麦克风设备的网络来实现启用语音的环境(例如,家庭、工作场所、学校等)。通过这样的麦克风网络,用户能够基本上从环境中的任何地方口头查询系统,而无需在他/她面前或甚至附近有计算机或其他设备。例如,当在厨房中烹饪时,用户可能会询问系统“三杯有多少毫升?”,并且作为响应,用户从系统接收回答,例如以合成语音的形式输出。替代地,用户可以询问系统问题,例如“我最近的加油站何时关闭”,或者在准备离开房屋时,“我今天应该穿上大衣吗?”。

2、此外,用户可以询问对系统的查询,和/或发出与用户的个人信息有关的命令。例如,用户可以询问系统“我何时与约翰见面?”或命令系统“提醒我回家后给约翰打电话”。


技术实现思路

1、对于启用语音的系统,用户与系统交互的方式被设计为主要(如果不是排他地)通过语音输入。因此,潜在地拾取在周围环境中发出的所有话语(包括那些不针对系统的话语)的系统,可以有某种方式来辨别何时任何给定的话语是针对系统,而不是例如针对存在于环境中的个人。实现这的一种方式是使用热词,其通过环境中的用户之间的协议被保留作为预定的词语,其被说出以引起系统的注意。在示例环境中,用于引起系统注意的热词是词语“ok计算机”。因此,每次说出词语“ok计算机”时,它都会被麦克风拾取,传送到系统,系统可以执行语音识别技术或使用音频特征和神经网络来确定是否说出了热词,并且如果是,则等待随后的命令或查询。因此,针对系统的话语采用[热词(hotword)][查询(query)]的一般形式,其中“热词”在这个例子中是“ok计算机”,而“查询”可以是任何问题、命令、声明或可以被语音识别、解析和系统(单独或经由网络与服务器一起)据此行事的其他请求。

2、本文描述的主题的创新方面涉及用于多设备上的热词检测的方法、系统和装置,包括编码在计算机存储介质上的计算机程序。各种实施方式被配置成使得当用户说出热词时,在多于一个设备在用户附近的情况下,减少了计算资源的使用。

3、本说明书中描述的主题的创新方面可以体现在包括以下动作的方法中:由计算设备接收与话语对应的音频数据;确定话语可能包含特定的预定义热词;响应于确定话语可能包含特定的预定义热词,向服务器发送:(i)指示计算设备可能接收到特定的预定义热词的数据,(ii)标识计算设备的数据,以及(iii)标识包括计算设备的一组附近的计算设备的数据;从服务器接收开始对音频数据进行语音识别处理的指令;以及响应于接收开始对音频数据进行语音识别处理的指令,使用计算设备上的自动语音识别器处理音频数据的至少一部分。

4、这些和其他实施例可各自任选地包括一个或多个下列特征。动作还包括从附加计算设备接收指示附加计算设备被配置为响应特定的预定义热词的数据;向附加计算设备发送指示计算设备被配置为响应特定的预定义热词的数据;确定包括计算设备和附加计算设备的一组计算设备的组标识符;以及向附加计算设备发送组标识符。附加计算设备是在计算设备附近的计算设备。标识包括计算设备的一组附近的计算设备的数据是组标识符。动作还包括由计算设备接收与附加话语对应的附加音频数据;确定附加话语可能包含特定的预定义热词;响应于确定话语可能包含特定的预定义热词,向服务器发送:(i)指示计算设备可能接收到特定的预定义热词的数据,(ii)标识计算设备的数据,以及(iii)标识包括计算设备的一组附近的计算设备的数据;从服务器接收不开始对音频数据进行语音识别处理的指令;以及响应于接收不对音频数据开始进行语音识别处理的指令,使用计算设备上的自动语音识别器停止处理音频数据。

5、动作还包括确定与特定的预定义热词相关联的音频数据的响度;并且响应于确定话语可能包含特定的预定义热词,向服务器发送与特定的预定义热词相关联的音频数据的响度。确定与特定的预定义热词相关联的音频数据的响度的动作包括确定与特定的预定义热词相关联的音频数据的功率;以及确定与特定的预定义热词不相关联的、并且在与特定的预定义热词相关联的音频数据之前计算设备接收的音频数据的功率。与特定的预定义热词相关联的音频数据的响度基于与特定的预定义热词相关联的音频数据的功率以及与特定的预定义热词不相关联的、并且在与特定的预定义热词相关联的音频数据之前计算设备接收的音频数据的功率。动作还包括确定反映与特定的预定义热词相关联的音频数据与特定的预定义热词对应的可能性的置信度分数;并且响应于确定话语可能包含特定的预定义热词,向服务器发送置信度分数。

6、确定反映与特定的预定义热词相关联的音频数据与特定的预定义热词对应的可能性的置信度分数的动作包括:从与特定的预定义热词相关联的音频数据确定音频特征;并且基于音频特征,使用神经网络确定置信度分数。动作还包括:响应于确定话语可能包含特定的预定义热词,向服务器发送指示计算设备的位置的数据。动作还包括:响应于确定话语可能包含特定的预定义热词,向服务器发送指示自计算设备的先前使用以来经过的时间的数据。动作还包括:响应于确定话语可能包含特定的预定义热词,向服务器发送指示由计算设备执行的先前动作的数据。

7、该方面的其他实施例包括对应的系统、装置和记录在计算机存储设备上的计算机程序,每个都被配置为执行方法的操作。

8、本说明书中描述的主题的另一创新方面可以体现在包括以下动作的方法中:由服务器并且从计算设备接收:(i)指示计算设备可能接收到特定的预定义热词的数据,(ii)标识计算设备的数据,以及(iii)标识在计算设备附近并包括计算设备的一组计算设备的数据;访问指示计算设备的上下文的上下文数据;基于计算设备的上下文数据,确定计算设备开始对与特定的预定义热词相关联的音频数据进行语音识别处理;以及向计算设备发送开始对与特定的预定义热词相关联的音频数据进行语音识别处理的指令。

9、这些和其他实施例可以各自任选地包括以下特征中的一个或多个。动作还包括由服务器并且从附加计算设备接收:(i)指示附加计算设备可能接收到特定的预定义热词的数据,(ii)标识附加计算设备的数据,以及(iii)标识在计算设备和附加计算设备附近并且包括计算设备和附加计算设备的一组计算设备的数据;访问指示附加计算设备的上下文的上下文数据;基于计算设备的上下文数据和附加计算设备的上下文数据,确定附加计算设备不开始对与特定的预定义热词相关联的音频数据进行语音识别处理;以及向附加计算设备发送不开始对与特定的预定义热词相关联的音频数据进行语音识别处理的指令。

10、动作还包括:由服务器并且从第一计算设备接收指示第一计算设备被配置为响应特定的预定义热词的数据;由服务器并且从第二计算设备接收指示第二计算设备被配置为响应特定的预定义热词的数据;由服务器确定包括第一计算设备和第二计算设备的一本文档来自技高网...

【技术保护点】

1.一种计算机实现的方法,包括:

2.根据权利要求1所述的方法,还包括:

3.根据权利要求1所述的方法,其中所述第一计算设备被配置为响应所述特定的预定义的热词。

4.根据权利要求1所述的方法,还包括:基于被配置为响应特定的、预定义的热词的第二计算设备在第一计算设备附近,由第一计算设备提供识别第一计算设备的数据。

5.根据权利要求1所述的方法,其中所述第三计算设备向所述第二计算设备传送指令以抑制执行在所述特定的、预定义的热词之后的命令。

6.根据权利要求1所述的方法,其中:

7.根据权利要求1所述的方法,其中所述第三计算设备不包括麦克风。

8.根据权利要求1所述的方法,其中所述第三计算设备不被配置为响应所述特定的、预定义的热词。

9.根据权利要求1所述的方法,其中所述第一计算设备被配置为响应所述特定的、预定义的热词。

10.一种系统,包括:

11.根据权利要求10所述的系统,其中所述操作还包括:

12.根据权利要求10所述的系统,其中所述操作进一步包括:基于被配置为响应特定的、预定义的热词的第二计算设备在第一计算设备附近,由第一计算设备提供识别第一计算设备的数据。

13.根据权利要求10所述的系统,其中所述第三计算设备向所述第二计算设备发送指令以抑制执行在所述特定的预定义热词之后的命令。

14.根据权利要求10所述的系统,其中:

15.根据权利要求10所述的系统,其中所述第三计算设备不包括麦克风并且不被配置为响应所述特定的预定义的热词。

16.一种存储软件的非暂时性计算机可读介质,包括能够由一个或多个计算机执行的指令,所述指令在被执行时使一个或多个计算机执行操作,这些操作包括:

...

【技术特征摘要】

1.一种计算机实现的方法,包括:

2.根据权利要求1所述的方法,还包括:

3.根据权利要求1所述的方法,其中所述第一计算设备被配置为响应所述特定的预定义的热词。

4.根据权利要求1所述的方法,还包括:基于被配置为响应特定的、预定义的热词的第二计算设备在第一计算设备附近,由第一计算设备提供识别第一计算设备的数据。

5.根据权利要求1所述的方法,其中所述第三计算设备向所述第二计算设备传送指令以抑制执行在所述特定的、预定义的热词之后的命令。

6.根据权利要求1所述的方法,其中:

7.根据权利要求1所述的方法,其中所述第三计算设备不包括麦克风。

8.根据权利要求1所述的方法,其中所述第三计算设备不被配置为响应所述特定的、预定义的热词。

9.根据权利要求1所述的方法,其中所述第一计算设备被配置为...

【专利技术属性】
技术研发人员:D·M·卡萨多A·H·格伦斯坦J·N·弗斯特
申请(专利权)人:谷歌有限责任公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1