热词辨识和被动辅助制造技术

技术编号:27695708 阅读:18 留言:0更新日期:2021-03-17 05:19
公开了用于实现热词辨识和被动辅助的方法、系统和装置,包括在计算机存储介质上编码的计算机程序。在一个方面中,一种方法包括由计算设备接收与话语相对应的音频数据的动作,该计算设备正在低功率模式下操作并且包括在计算设备处于低功率模式时显示图形界面的显示器并且被配置成响应于检测到第一热词而退出低功率模式。该方法进一步包括确定音频数据包括第二不同的热词。该方法进一步包括通过对音频数据执行语音辨识来获得话语的转录。该方法进一步包括生成附加用户界面。该方法进一步包括提供附加图形界面以在显示器上输出。

【技术实现步骤摘要】
【国外来华专利技术】热词辨识和被动辅助
本说明书总体涉及自动语音辨识。
技术介绍
启用语音的家庭或其他环境——即,用户只需要大声讲出查询或命令而基于计算机的系统将应对(field)并回答查询和/或使命令被执行的环境——的现实已来临。能够使用分布在环境的各个房间或区域中的连接麦克风设备的网络来实现启用语音的环境(例如,家庭、工作场所、学校等)。通过这样的麦克风网络,用户具有从环境中基本上任何地方口头查询系统而无需在他/她面前或甚至附近具有计算机或其他设备的能力。例如,当在厨房里烹饪时,用户可能直接问系统“howmanymillilitersinthreecups?(三杯里有多少毫升?)”,并且作为响应,接收来自系统的答案,例如形式为合成话音输出。或者,用户可能问系统诸如“whendoesmynearestgasstationclose(我最近的加油站什么时候关闭)”的问题,或者在准备离开房子时,问“shouldIwearacoattoday?(我今天应该穿外套吗?)”另外,用户可以问系统的查询,并且/或者发出与用户的个人信息有关的命令。例如,用户可能问系统“whenismymeetingwithJohn?(我何时与John见面?)”或者命令系统“remindmetocallJohnwhenIgetbackhome(在我回家时提醒我给John打电话)”。
技术实现思路
对于启用语音的系统,用户与系统交互的方式被设计为主要是而不排他地借助于话音输入。因此,潜在地获取在周围环境中做出的所有话语(包括不针对系统的那些话语)的系统必须具有鉴别任何给定话语何时指向系统而不是例如指向存在于环境中的个人的某种方式。一种实现这个的方式是使用热词,该热词经环境中用户同意被保留为预定词,该预定词被讲出以引起系统的注意。在示例环境中,用于引起系统的注意的热词是词“OKcomputer(好的计算机)”。因此,每当词“OKcomputer”被讲出时,它被麦克风获取,传达到系统,该系统可以执行语音辨识技术或者使用音频特征和神经网络来确定是否讲出了热词,并且如果是这样的话,等待随后的命令或查询。因此,指向系统的话语采用一般格式[热词][查询],其中此示例中的“热词”是“OKcomputer”并且“查询”可以是任何问题、命令、声明、或可以由系统单独或经由网络结合服务器语音辨识、解析和作用于的其他请求。启用语音的系统可以被配置成对个不止一个热词做出响应。在一些启用语音的系统包括始终开启的(always-on)显示器的情况下,该系统可以响应于检测到一些附加热词而向用户提供被动辅助。该系统可以以不引人注目的方式在始终开启的显示器上显示与检测到的热词以及跟随的任何语音有关的信息。例如,用户可能正在与朋友进行关于午餐计划的对话。用户的电话可能搁置在桌子上,并且麦克风可以能够检测对话。在对话期间,朋友可能问用户“Areyoufreeforlunchtomorrow?(明天午餐你空闲吗?)”用户的电话可以检测到该问题并确定该问题是否包括热词。除了“OKcomputer”之外,电话还可以被配置成检测诸如“areyoufree(你空闲吗)”和“don’tforget(不要忘记)”的热词。响应于接收到“areyoufreeforlunchtomorrow”的音频数据,电话识别热词“areyoufree”并对剩余音频数据执行语音辨识。基于识别热词“areyoufree”并生成转录“forlunchtomorrow”,电话自动地访问用户的日历信息并且在始终开启的显示器上显示次日期间的午餐时间的相关日历信息。用户能够查看电话以确定用户自己的空闲性并快速地回答用户是否空闲,而无需必须通过任何按钮或显示器或者向电话说“OKcomputer”来与电话交互。根据本申请中描述的主题的一个创新方面,一种用于实现热词辨识和被动辅助的方法包括以下动作:由计算设备接收与话语相对应的音频数据,该计算设备(i)正在低功率模式下操作并且包括当计算设备处于低功率模式时显示图形界面的显示器以及(ii)被配置成响应于检测到第一热词而退出低功率模式;由计算设备确定音频数据包括第二、不同的热词;响应于确定音频数据包括第二、不同的热词,由计算设备通过对音频数据执行语音辨识来获得话语的转录;基于第二、不同的热词和话语的转录,由计算设备生成附加用户界面;以及,当计算设备保持在低功率模式下时,提供附加图形界面以在显示器上输出。这些和其他实施方式能够各自任选地包括以下特征中的一个或多个。这些动作包括:在提供附加图形界面以在显示器上输出之后,由计算设备接收包括键按压的输入;以及,在接收到包括键按压的输入之后,将计算设备切换到与低功率模式相比消耗更多功率的高功率模式。这些动作包括:在将计算设备切换到与低功率模式相比消耗更多功率的高功率模式之后并且当显示器保持活跃时,使计算设备返回到低功率模式;以及,在使计算设备返回到低功率模式之后,提供用户界面以在显示器上输出。当处于高功率模式时,计算设备以第一频率从网络取得(fetch)数据。当处于低功率模式时,计算设备以第二、较低的频率从网络取得数据。显示器是触敏显示器。当计算设备处于低功率模式时,显示器不能够接收触摸输入。当计算设备处于与低功率模式相比消耗更多功率的高功率模式时,显示器能够接收触摸输入。动作包括:基于第二、不同的热词识别计算设备可访问的应用;以及将话语的转录提供给应用。附加用户界面是基于将话语的转录提供给应用而生成的。动作包括由计算设备接收第一热词的第一热词模型和第二、不同的热词的第二、不同的热词模型。确定音频数据包括第二、不同的热词的动作包括将音频数据应用于第二、不同的热词模型。附加图形界面包括可选选项,该可选选项在由用户选择时,更新应用。动作包括响应于确定音频数据包括第二、不同的热词而将计算设备维持在低功率模式下。动作包括由计算设备确定话语的讲话者不是计算设备的主要用户。通过对音频数据执行语音辨识来获得话语的转录的动作是响应于确定话语的讲话者不是计算设备的主要用户。动作包括:由计算设备接收与附加话语相对应的附加音频数据;由计算设备确定附加音频数据包括第一热词;以及,响应于确定音频数据包括第二、不同的热词,将计算设备从低功率模式切换到与低功率模式相比消耗更多功率的高功率模式。动作包括由计算设备确定附加话语的讲话者是计算设备的主要用户。将计算设备从低功率模式切换到与低功率模式相比消耗更多功率的高功率模式的动作是响应于确定附加话语的讲话者是计算设备的主要用户。此方面的其他实施例包括对应的系统、装置以及记录在计算机存储设备上的计算机程序,每个均被配置成执行方法的操作。能够实现本说明书中描述的主题的特定实施例,以便实现以下优点中的一个或多个。计算设备可以被配置成响应于检测到热词而在始终开启的显示器上自动地提供信息。通过区分被配置成将计算设备从低功率状态切换到高功率状态的第一热词和被配置成使得计算设备能够在低功率状态下执行后台处理并输出信息的第二、不同的热词,本文描述的技术提供了使得能够在计算设备的不同情形和不同用途下适当地处理用户输入的机制。始本文档来自技高网...

【技术保护点】
1.一种计算机实现的方法,包括:/n由计算设备接收与话语相对应的音频数据,所述计算设备(i)正在低功率模式下操作并且包括在所述计算设备处于所述低功率模式时显示图形界面的显示器并且(ii)被配置成响应于检测到第一热词而退出所述低功率模式;/n由所述计算设备确定所述音频数据包括第二不同的热词;/n响应于确定所述音频数据包括所述第二不同的热词,由所述计算设备通过对所述音频数据执行语音辨识来获得所述话语的转录;/n基于所述第二不同的热词和所述话语的所述转录,由所述计算设备生成附加用户界面;以及/n在所述计算设备保持在所述低功率模式下时,提供所述附加图形界面以在所述显示器上输出。/n

【技术特征摘要】
【国外来华专利技术】1.一种计算机实现的方法,包括:
由计算设备接收与话语相对应的音频数据,所述计算设备(i)正在低功率模式下操作并且包括在所述计算设备处于所述低功率模式时显示图形界面的显示器并且(ii)被配置成响应于检测到第一热词而退出所述低功率模式;
由所述计算设备确定所述音频数据包括第二不同的热词;
响应于确定所述音频数据包括所述第二不同的热词,由所述计算设备通过对所述音频数据执行语音辨识来获得所述话语的转录;
基于所述第二不同的热词和所述话语的所述转录,由所述计算设备生成附加用户界面;以及
在所述计算设备保持在所述低功率模式下时,提供所述附加图形界面以在所述显示器上输出。


2.根据权利要求1所述的方法,包括:
在提供所述附加图形界面以在所述显示器上输出之后,由所述计算设备接收包括键按压的输入;和
在接收到所述包括键按压的输入之后,将所述计算设备切换到与所述低功率模式相比消耗更多功率的高功率模式。


3.根据权利要求2所述的方法,包括:
在将所述计算设备切换到与所述低功率模式相比消耗更多功率的所述高功率模式之后并且在所述显示器保持活跃时,使所述计算设备返回到所述低功率模式;和
在使所述计算设备返回到所述低功率模式之后,提供所述用户界面以在所述显示器上输出。


4.根据权利要求2所述的方法,其中:
在处于所述高功率模式时,所述计算设备以第一频率从网络取得数据,并且
在处于所述低功率模式时,所述计算设备以第二较低的频率从所述网络取得数据。


5.根据权利要求1所述的方法,其中:
所述显示器是触敏显示器,
在所述计算设备处于所述低功率模式时,所述显示器不能够接收触摸输入,并且
在所述计算设备处于与所述低功率模式相比消耗更多功率的高功率模式时,所述显示器能够接收触摸输入。


6.根据权利要求1所述的方法,包括:
基于所述第二不同的热词来识别所述计算设备能访问的应用;和
将所述话语的所述转录提供给所述应用,
其中,所述附加用户界面是基于将所述话语的所述转录提供给所述应用来生成的。


7.根据权利要求1所述的方法,包括:
由所述计算设备接收所述第一热词的第一热词模型和所述第二不同的热词的第二不同的热词模型,
其中,确定所述音频数据包括所述第二不同的热词包括将所述音频数据应用于所述第二不同的热词模型。


8.根据权利要求1所述的方法,其中,所述附加图形界面包括可选选项,所述可选选项在由用户选择时更新应用。


9.根据权利要求1所述的方法,包括:
响应于确定所述音频数据包括所述第二不同的热词而将所述计算设备维持在所述低功率模式下。


10.根据权利要求1所述的方法,包括:
由所述计算设备确定所述话语的讲话者不是所述计算设备的主要用户,
其中,通过对所述音频数据执行语音辨识来获得所述话语的所述转录是响应于确定所述话语的讲话者不是所述计算设备的主要用户。


11.根据权利要求1所述的方法,包括:
由所述计算设备接收与附加话语相对应的附加音频数据;
由所述计算设备确定所述附加音频数据包括所述第一热词;以及
响应于确定所述音频数据包括所述第二不同的热词,将所述计算设备从所述低功率模式切换到与所述低功率模式相比消耗更多功率的高功率模式。


12.根据权利要求10所述的方法,包括:
由所述计算设备确定所述附加话语的讲话者是所述计算设备...

【专利技术属性】
技术研发人员:扬·奥尔索斯马修·谢里菲
申请(专利权)人:谷歌有限责任公司
类型:发明
国别省市:美国;US

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1