当前位置: 首页 > 专利查询>谷歌公司专利>正文

在支持语音的电子设备中对语音转文本模型的场境敏感动态更新制造技术

技术编号:16708279 阅读:27 留言:0更新日期:2017-12-02 23:38
由支持语音的电子设备使用的语音转文本模型被动态并且以场境敏感方式更新,以促进辨识在指向支持语音的电子设备的语音输入中用户潜在地可能说出的实体。可以例如基于对语音输入的第一部分的处理——例如基于特定类型的语音动作的检测——来执行对语音转文本模型的动态更新,并且可以被定位以促进辨识在相同语音输入的稍后部分中可能出现的实体,例如与和检测到的语音动作类型相关联的一个或多个参数特别相关的实体。

【技术实现步骤摘要】
【国外来华专利技术】在支持语音的电子设备中对语音转文本模型的场境敏感动态更新
技术介绍
基于语音的用户接口越来越多地用于计算机和其他电子设备的控制。基于语音的用户接口的一个特别有用的应用是便携式电子设备,诸如移动电话、手表、平板计算机、头戴式设备、虚拟现实或增强现实设备等。另一个有用的应用是车载电子系统,诸如包含导航和音频能力的汽车系统。这样的应用通常特征在于非传统的形状因素,其限制了更传统的键盘或触摸屏输入的利用和/或期望鼓励用户专注于其他任务上——例如当用户驾驶或步行时的情形中的使用。基于语音的用户接口从早期的基本接口——其只能理解简单和直接的命令——持续发展到更复杂的接口——其对自然语言请求做出响应以及可以理解场境(context)并管理与用户的来回对话或会话。许多基于语音的用户接口包含将人类语音的音频记录转换为文本的初始话音转文本(或语音转文本)转换,以及分析文本以尝试确定用户的请求的含义的语义分析。基于用户的已记录语音的所确定含义,可以采取诸如执行搜索或以其他方式控制计算机或其他电子设备的动作。基于语音的用户接口的计算资源需求——例如在处理器和/或存储器资源方面——可能是大量的并且作为结果,一些常规的基于语音的用户接口方式采用客户端-服务器架构,其中由相对低功率的客户端设备接收和记录语音输入,通过诸如互联网的网络将该记录传送到用于话音转文本转换和语义处理的在线服务,并且由该在线服务生成适当的响应并将其传送回到客户端设备。在线服务可以投入大量的计算资源来处理语音输入,使得能够实现比否则在客户端设备内本地实现的更复杂的话音识别和语义分析功能。然而,在处理语音输入时,客户端-服务器方式必需要求客户端在线(即,与在线服务通信)。特别是在移动应用和汽车应用中,在任何时间和所有地点可能无法保证持续在线连接,因此每当该设备“离线”并且因此不连接到在线服务时基于语音的客户端-服务器用户接口在客户端设备中可能会被禁用。此外,即使当设备连接到在线服务时,考虑到客户端设备和在线服务之间的双向通信的需要,与语音输入的在线处理相关联的时延可能是用户不期望察觉到的。
技术实现思路
本说明书大体涉及动态地以场境敏感的方式更新由支持语音的电子设备使用的语音转文本模型以促进辨识用户在指向支持语音的电子设备的语音输入中潜在可能说出的实体的各个实施方式。可以例如基于语音输入的第一部分的处理——例如基于特定类型的语音动作的检测——来执行对语音对文本模型的动态更新,并且可以被定位以促进标识在相同语音输入的稍后部分中可能出现的实体,例如与与检测到的语音动作类型相关联的一个或多个参数特别相关的实体。因此,在一些实施方式中,一种方法可以利用支持语音的电子设备接收语音输入,并且在所述支持语音的电子设备中,并响应于接收所述语音输入的至少一部分,执行对所述语音输入的至少一部分的本地处理以在利用所述支持语音的电子设备完全接收所述语音输入之前动态构建语音动作的至少一部分,在所述本地处理期间确定所述语音动作是否与场境敏感参数相关联,以及响应于确定所述语音动作与所述场境敏感参数相关联,发起对由所述支持语音的电子设备使用的本地语音转文本模型的动态更新以促进辨识与所述场境敏感参数相关联的多个场境敏感实体。在一些实施方式中,执行本地处理包括使用所述支持语音的电子设备的流送语音转文本模块将所述语音输入的数字音频信号转换为文本,其中所述流送语音转文本模块从所述数字音频信号动态地生成多个文本令牌,以及使用所述支持语音的电子设备的流送语义处理器从所述多个文本令牌中的至少一部分动态构建所述语音动作的所述一部分。此外,在一些实施方式中确定所述语音动作是否与所述场境敏感参数相关联由所述流送语义处理器执行,并且发起对所述本地语音转文本模型的动态更新包括将来自所述流送语义处理器的数据传输到所述流送语音转文本模块以发起所述本地语音转文本模型的动态更新。在一些实施方式中,所述本地语音转文本模型包括至少一个解码图,并且其中发起对所述本地语音转文本模型的动态更新包括将解码路径添加到与所述多个场境敏感实体中的每一个相对应的所述至少一个解码图。此外,一些实施方式包括响应于确定所述语音动作与所述场境敏感参数相关联,从在线服务预取与所述多个场境敏感实体相关联的语音转文本模型更新数据,其中发起对所述本地语音转文本模型的动态更新包括传输所预取的语音转文本模型更新数据以动态地更新所述本地语音转文本模型。此外,在一些实施方式中,在所述本地处理期间确定所述语音动作是否与场境敏感参数相关联包括确定所述语音动作是否是播放媒体项目的请求,其中所述场境敏感参数包括用于识别所述媒体项目的媒体项目标识符,并且其中所述多个场境敏感实体标识能够由所述支持语音的电子设备播放的多个媒体项目。此外,在一些实施方式中,在所述本地处理期间确定所述语音动作是否与场境敏感参数相关联包括确定所述语音动作是否是与联系人通信的请求,其中所述场境敏感参数包括用于发起与所述联系人的通信的联系人标识符,并且其中所述多个场境敏感实体标识能够由所述支持语音的电子设备访问的多个联系人。在一些实施方式中,所述场境敏感参数是取决于位置的参数,并且其中所述多个场境敏感实体标识布置在预定位置附近的多个兴趣点,并且在一些实施方式中,预定位置包括所述支持语音的电子设备的当前位置。响应于确定所述语音动作与所述场境敏感参数相关联,一些实施方式将所述当前位置传输到在线服务并从所述在线服务预取与所述多个场境敏感实体相关联的语音转文本模型更新数据。另外,在一些实施方式中,一种方法可以利用支持语音的电子设备接收语音输入,在所述支持语音的电子设备中使用本地语音转文本模型本地执行语音转文本转换以生成所述语音输入的第一部分的文本,在生成所述语音输入的所述第一部分的文本之后动态地更新所述本地语音转文本模型,以促进辨识和与所述语音输入相关联的语音动作的场境敏感参数相关联的多个场境敏感实体,以及在所述支持语音的电子设备中使用所动态更新的本地语音转文本模型本地执行语音转文本转换,以生成所述语音输入的第二部分的文本。在一些实施方式中,执行所述语音转文本转换包括使用所述支持语音的电子设备的流送语音转文本模块转换所述语音输入的数字音频信号,其中所述流送语音转文本模块从所述数字音频信号动态地生成多个文本令牌。这样的实施方式可以进一步包括在利用所述支持语音的电子设备完全接收到的所述语音输入之前,使用所述支持语音的电子设备的流送语义处理器从所述多个文本令牌的至少一部分动态构建所述语音动作的至少一部分。此外,在一些实施方式中,响应于确定所述语音动作与所述场境敏感参数相关联,由所述流送语义处理器发起动态更新所述本地语音转文本模型。此外,一些实施方式可以包括装置,其包括存储器和可操作以执行存储在所述存储器中的指令的一个或多个处理器,其中指令被配置为执行上述任何方法。一些实施方式还可以包括存储可由一个或多个处理器执行以执行上述任何方法的计算机指令的非暂时计算机可读存储介质。应当理解,本文更详细地描述的前述概念和附加概念的所有组合被认为是本文公开的主题的一部分。例如,本公开所附的要求保护的主题的所有组合都被认为是本文公开的主题的一部分。附图说明图1图示了计算机系统的示例架构。图2是示例分布式语音输入处理环境的框图。图3是图本文档来自技高网
...
在支持语音的电子设备中对语音转文本模型的场境敏感动态更新

【技术保护点】
一种方法,包括:利用支持语音的电子设备接收语音输入;以及在所述支持语音的电子设备中,并响应于接收所述语音输入的至少一部分:执行对所述语音输入的至少一部分的本地处理以在利用所述支持语音的电子设备完全接收所述语音输入之前动态构建语音动作的至少一部分;在所述本地处理期间确定所述语音动作是否与场境敏感参数相关联;以及响应于确定所述语音动作与所述场境敏感参数相关联,发起对由所述支持语音的电子设备使用的本地语音转文本模型的动态更新以促进辨识与所述场境敏感参数相关联的多个场境敏感实体。

【技术特征摘要】
【国外来华专利技术】2015.05.27 US 14/723,2501.一种方法,包括:利用支持语音的电子设备接收语音输入;以及在所述支持语音的电子设备中,并响应于接收所述语音输入的至少一部分:执行对所述语音输入的至少一部分的本地处理以在利用所述支持语音的电子设备完全接收所述语音输入之前动态构建语音动作的至少一部分;在所述本地处理期间确定所述语音动作是否与场境敏感参数相关联;以及响应于确定所述语音动作与所述场境敏感参数相关联,发起对由所述支持语音的电子设备使用的本地语音转文本模型的动态更新以促进辨识与所述场境敏感参数相关联的多个场境敏感实体。2.根据权利要求1所述的方法,其中,执行所述本地处理包括:使用所述支持语音的电子设备的流送语音转文本模块将所述语音输入的数字音频信号转换为文本,其中所述流送语音转文本模块从所述数字音频信号动态地生成多个文本令牌;以及使用所述支持语音的电子设备的流送语义处理器从所述多个文本令牌中的至少一部分动态构建所述语音动作的所述一部分。3.根据权利要求2所述的方法,其中,确定所述语音动作是否与所述场境敏感参数相关联由所述流送语义处理器执行,并且其中,发起对所述本地语音转文本模型的所述动态更新包括将来自所述流送语义处理器的数据传输到所述流送语音转文本模块以发起对所述本地语音转文本模型的所述动态更新。4.根据权利要求1所述的方法,其中,所述本地语音转文本模型包括至少一个解码图,并且其中,发起对所述本地语音转文本模型的所述动态更新包括将解码路径添加到与所述多个场境敏感实体中的每一个相对应的所述至少一个解码图。5.根据权利要求1所述的方法,进一步包括:响应于确定所述语音动作与所述场境敏感参数相关联,从在线服务预取与所述多个场境敏感实体相关联的语音转文本模型更新数据,其中发起对所述本地语音转文本模型的动态更新包括传输所预取的语音转文本模型更新数据以动态地更新所述本地语音转文本模型。6.根据权利要求1所述的方法,其中,在所述本地处理期间确定所述语音动作是否与场境敏感参数相关联包括:确定所述语音动作是否是播放媒体项目的请求,其中,所述场境敏感参数包括用于识别所述媒体项目的媒体项目标识符,并且其中,所述多个场境敏感实体标识能够由所述支持语音的电子设备播放的多个媒体项目。7.根据权利要求1所述的方法,其中,在所述本地处理期间确定所述语音动作是否与场境敏感参数相关联包括:确定所述语音动作是否是与联系人通信的请求,其中,所述场境敏感参数包括用于发起与所述联系人的通信的联系人标识符,并且其中,所述多个场境敏感实体标识能够由所述支持语音的电子设备访问的多个联系人。8.根据权利要求1所述的方法,其中,所述场境敏感参数是取决于位置的参数,并且其中,所述多个场境敏感实体标识布置在预定位置附近的多个兴趣点。9.根据权利要求8所述的方法,其中,所述预定位置包括所述支持语音的电子设备的当前位置。10.根据权利要求9所述的方法,进一步包括:响应于确定所述语音动作与所述场境敏感参数相关联,将所述当前位置传输到在线服务并从所述在线服务预取与所述多个场境敏感实体相关联的语音转文本模型更新数据。11.一种方法,包括:利用支持语音的电子设备接收语音输入;在所述支持语音的电子设备中使用本地语音转文本模型本地执行语音转文本转换以生成所述语音输入的第一部分的文本;在生成所述语音输入的所述第一部分的文本之后动态地更新所述本地语音转文本模型,以促进辨识和与所述语音输入相关联的语音动作的场境敏感参数相关联的多个场境敏感实体;以及在所述支持语音的电子设备中使用所动态更新的本地语音转文本模型本地执行语音转文本转换,以生成所述语音输入的第二部分的文本。12.根据权利要求11所述的方法,其中,执行所述语音转文本转换包括:使用所述支持语音的电子设备的流送语音转文本模块将所述语音输入的数字音频信号转换为文本,其中,所述流送语音转文本模块从所述数字音频信号动态地生成多个文本令牌,所...

【专利技术属性】
技术研发人员:高宇立成相洙普拉塔博·穆鲁格桑
申请(专利权)人:谷歌公司
类型:发明
国别省市:美国,US

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1