【技术实现步骤摘要】
【国外来华专利技术】在支持语音的电子设备中对语音转文本模型的场境敏感动态更新
技术介绍
基于语音的用户接口越来越多地用于计算机和其他电子设备的控制。基于语音的用户接口的一个特别有用的应用是便携式电子设备,诸如移动电话、手表、平板计算机、头戴式设备、虚拟现实或增强现实设备等。另一个有用的应用是车载电子系统,诸如包含导航和音频能力的汽车系统。这样的应用通常特征在于非传统的形状因素,其限制了更传统的键盘或触摸屏输入的利用和/或期望鼓励用户专注于其他任务上——例如当用户驾驶或步行时的情形中的使用。基于语音的用户接口从早期的基本接口——其只能理解简单和直接的命令——持续发展到更复杂的接口——其对自然语言请求做出响应以及可以理解场境(context)并管理与用户的来回对话或会话。许多基于语音的用户接口包含将人类语音的音频记录转换为文本的初始话音转文本(或语音转文本)转换,以及分析文本以尝试确定用户的请求的含义的语义分析。基于用户的已记录语音的所确定含义,可以采取诸如执行搜索或以其他方式控制计算机或其他电子设备的动作。基于语音的用户接口的计算资源需求——例如在处理器和/或存储器资源方面——可能是大量的并且作为结果,一些常规的基于语音的用户接口方式采用客户端-服务器架构,其中由相对低功率的客户端设备接收和记录语音输入,通过诸如互联网的网络将该记录传送到用于话音转文本转换和语义处理的在线服务,并且由该在线服务生成适当的响应并将其传送回到客户端设备。在线服务可以投入大量的计算资源来处理语音输入,使得能够实现比否则在客户端设备内本地实现的更复杂的话音识别和语义分析功能。然而,在处理语音输入时,客户端-服 ...
【技术保护点】
一种方法,包括:利用支持语音的电子设备接收语音输入;以及在所述支持语音的电子设备中,并响应于接收所述语音输入的至少一部分:执行对所述语音输入的至少一部分的本地处理以在利用所述支持语音的电子设备完全接收所述语音输入之前动态构建语音动作的至少一部分;在所述本地处理期间确定所述语音动作是否与场境敏感参数相关联;以及响应于确定所述语音动作与所述场境敏感参数相关联,发起对由所述支持语音的电子设备使用的本地语音转文本模型的动态更新以促进辨识与所述场境敏感参数相关联的多个场境敏感实体。
【技术特征摘要】
【国外来华专利技术】2015.05.27 US 14/723,2501.一种方法,包括:利用支持语音的电子设备接收语音输入;以及在所述支持语音的电子设备中,并响应于接收所述语音输入的至少一部分:执行对所述语音输入的至少一部分的本地处理以在利用所述支持语音的电子设备完全接收所述语音输入之前动态构建语音动作的至少一部分;在所述本地处理期间确定所述语音动作是否与场境敏感参数相关联;以及响应于确定所述语音动作与所述场境敏感参数相关联,发起对由所述支持语音的电子设备使用的本地语音转文本模型的动态更新以促进辨识与所述场境敏感参数相关联的多个场境敏感实体。2.根据权利要求1所述的方法,其中,执行所述本地处理包括:使用所述支持语音的电子设备的流送语音转文本模块将所述语音输入的数字音频信号转换为文本,其中所述流送语音转文本模块从所述数字音频信号动态地生成多个文本令牌;以及使用所述支持语音的电子设备的流送语义处理器从所述多个文本令牌中的至少一部分动态构建所述语音动作的所述一部分。3.根据权利要求2所述的方法,其中,确定所述语音动作是否与所述场境敏感参数相关联由所述流送语义处理器执行,并且其中,发起对所述本地语音转文本模型的所述动态更新包括将来自所述流送语义处理器的数据传输到所述流送语音转文本模块以发起对所述本地语音转文本模型的所述动态更新。4.根据权利要求1所述的方法,其中,所述本地语音转文本模型包括至少一个解码图,并且其中,发起对所述本地语音转文本模型的所述动态更新包括将解码路径添加到与所述多个场境敏感实体中的每一个相对应的所述至少一个解码图。5.根据权利要求1所述的方法,进一步包括:响应于确定所述语音动作与所述场境敏感参数相关联,从在线服务预取与所述多个场境敏感实体相关联的语音转文本模型更新数据,其中发起对所述本地语音转文本模型的动态更新包括传输所预取的语音转文本模型更新数据以动态地更新所述本地语音转文本模型。6.根据权利要求1所述的方法,其中,在所述本地处理期间确定所述语音动作是否与场境敏感参数相关联包括:确定所述语音动作是否是播放媒体项目的请求,其中,所述场境敏感参数包括用于识别所述媒体项目的媒体项目标识符,并且其中,所述多个场境敏感实体标识能够由所述支持语音的电子设备播放的多个媒体项目。7.根据权利要求1所述的方法,其中,在所述本地处理期间确定所述语音动作是否与场境敏感参数相关联包括:确定所述语音动作是否是与联系人通信的请求,其中,所述场境敏感参数包括用于发起与所述联系人的通信的联系人标识符,并且其中,所述多个场境敏感实体标识能够由所述支持语音的电子设备访问的多个联系人。8.根据权利要求1所述的方法,其中,所述场境敏感参数是取决于位置的参数,并且其中,所述多个场境敏感实体标识布置在预定位置附近的多个兴趣点。9.根据权利要求8所述的方法,其中,所述预定位置包括所述支持语音的电子设备的当前位置。10.根据权利要求9所述的方法,进一步包括:响应于确定所述语音动作与所述场境敏感参数相关联,将所述当前位置传输到在线服务并从所述在线服务预取与所述多个场境敏感实体相关联的语音转文本模型更新数据。11.一种方法,包括:利用支持语音的电子设备接收语音输入;在所述支持语音的电子设备中使用本地语音转文本模型本地执行语音转文本转换以生成所述语音输入的第一部分的文本;在生成所述语音输入的所述第一部分的文本之后动态地更新所述本地语音转文本模型,以促进辨识和与所述语音输入相关联的语音动作的场境敏感参数相关联的多个场境敏感实体;以及在所述支持语音的电子设备中使用所动态更新的本地语音转文本模型本地执行语音转文本转换,以生成所述语音输入的第二部分的文本。12.根据权利要求11所述的方法,其中,执行所述语音转文本转换包括:使用所述支持语音的电子设备的流送语音转文本模块将所述语音输入的数字音频信号转换为文本,其中,所述流送语音转文本模块从所述数字音频信号动态地生成多个文本令牌,所...
【专利技术属性】
技术研发人员:高宇立,成相洙,普拉塔博·穆鲁格桑,
申请(专利权)人:谷歌公司,
类型:发明
国别省市:美国,US
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。