【技术实现步骤摘要】
【国外来华专利技术】校正口头话语的语音误识别
技术介绍
[0001]人类可以使用本文称为“自动化助理”(也称为“聊天机器人”、“交互式个人助理”、“智能个人助理”、“个人语音助理”、“会话代理”等)的交互式软件应用参与人机对话。例如,人类(当他们与自动化助理交互时,可以称为“用户”)可以使用口头自然语言输入(即口头话语)和/或通过提供文本(例如,键入的)自然语言输入向自动化助理提供命令和/或请求,口头自然语言输入在某些情况下可以被转换成文本并且然后被处理。自动化助理通常通过提供响应性用户界面输出(例如,听觉和/或视觉用户界面输出)、控制(多个)智能设备和/或执行其他(多个)动作来响应于命令或请求。
[0002]自动化助理通常依赖于组件流水线来解释和响应于用户请求。例如,自动语音识别(ASR)引擎能够用于处理对应于口头话语的音频数据,以生成用户的话语的转录(即(多个)词项和/或其他(多个)令牌的序列)。然而,在执行ASR时,某些词项可能会被误识别。结果,自动化助理可能会执行用户不想要的动作。这能够使用户重复相同的口头话语(其可能再次被误识别)或使用户执行某个其他动作,从而延长人机对话和/或使用户消耗在人机对话之外的附加计算资源。
技术实现思路
[0003]本文公开的一些实施方式涉及在人机对话会话期间标识和校正语音识别中的误识别。例如,响应于从计算设备的用户接收到“Play a song by John Doe”的口头话语,自动化助理能够导致对口头话语执行语音识别。在执行语音识别时,能够针对语音的一个或多个部分生成多个词项假设。这进而导致生成 ...
【技术保护点】
【技术特征摘要】
【国外来华专利技术】1.一种由一个或多个处理器实现的方法,所述方法包括:接收对应于用户的口头话语的音频数据,所述音频数据由所述用户的计算设备的一个或多个麦克风生成;处理对应于所述口头话语的所述音频数据以生成多个语音假设;基于所述多个语音假设来确定要由自动化助理执行的动作,所述动作与所述多个语音假设的给定语音假设相关联;使所述用户的所述计算设备呈现要执行的所述动作的指示;响应于所述计算设备呈现要执行的所述动作的所述指示,接收与所述用户的附加口头话语相对应的附加音频数据;处理与所述附加口头话语相对应的所述附加音频数据以确定所述口头话语的至少一部分与所述附加口头话语的附加部分相似;响应于确定所述口头话语的至少所述一部分与所述附加口头话语的所述附加部分相似,将所述动作替换为要由所述自动化助理执行的替代动作,所述替代动作与所述多个语音假设的替代语音假设相关联;以及使所述自动化助理发起所述替代动作的执行。2.根据权利要求1所述的方法,其中,处理与所述附加口头话语相对应的所述附加音频数据以确定所述口头话语的至少所述一部分与所述附加口头话语的所述附加部分相似包括:将对应于所述口头话语的所述音频数据的声学特征与对应于所述附加口头话语的所述附加音频数据的附加声学特征进行比较;以及基于所述声学特征与所述附加声学特征的比较,标识与所述附加口头话语的所述附加部分相似的所述口头话语的至少所述一部分。3.根据权利要求2所述的方法,还包括:基于所述给定语音假设,生成对应于所述口头话语的转录,所述转录包括所述口头话语的至少所述一部分;基于所述替代语音假设,生成对应于所述附加口头话语的转录,所述附加转录至少包括所述附加口头话语的所述附加部分;将对应于所述口头话语的所述转录与对应于所述附加口头话语的所述附加转录相比较;以及基于所述转录与所述附加转录的比较,标识要由所述自动化助理执行的所述替代动作。4.根据前述权利要求中的任一项所述的方法,还包括:基于所述给定语音假设,生成对应于所述口头话语的转录,所述转录包括所述口头话语的至少所述一部分;基于所述替代语音假设,生成对应于所述附加口头话语的转录,所述附加转录包括所述附加口头话语的至少所述附加部分;将对应于所述口头话语的所述转录与对应于所述附加口头话语的所述附加转录相比较;以及基于所述转录与所述附加转录的比较,标识要由所述自动化助理执行的所述替代动
作。5.根据前述权利要求中的任一项所述的方法,其中,在所述用户与所述自动化助理之间的对话会话期间接收所述口头话语和所述附加口头话语,所述方法还包括以下中的一项或多项:在随后的对话会话期间,将对应于另一附加口头话语的另一附加音频数据的处理偏置朝向所述替代动作;或者在所述随后的对话会话期间,将对应于另一附加口头话语的另一附加音频数据的处理偏置远离所述动作。6.根据前述权利要求中的任一项所述的方法,其中,处理对应于所述口头话语的所述音频数据以生成所述语音假设包括:确定与所述语音假设中的一个或多个相关联的相应置信水平是否满足阈值置信水平。7.根据权利要求6所述的方法,还包括:响应于确定与所述语音假设中的一个或多个相关联的所述相应置信水平未能满足所述阈值置信水平:保持所述计算设备的一个或多个组件处于活动状态以预期接收到与所述用户的所述附加口头话语相对应的所述附加音频数据。8.根据权利要求6或权利要求7所述的方法,还包括:响应于确定与所述一个或多个语音假设相关联的所述置信水平满足所述阈值置信水平:在接收到与所述用户的所述附加口头话语相对应的所述附加音频数据之前,停用所述用户的所述计算设备的一个或多个组件。9.根据权利要求8所述的方法,其中,对应于所述用户的所述附加口头话语的所述附加音频数据包括触发词项或短语,所述触发词项或短语用于激活所述用户的所述计算设备的所述一个或多个组件以处理对应于所述用户的所述附加口头话语的所述附加音频数据。10.根据权利要求6至9中的任一项所述的方法,还包括:响应于确定与所述语音假设中的一个或多个相关联的所述相应置信水平未能...
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。