根据先前发生的假设术语和/或场境数据的语音识别假设生成制造技术

技术编号:32471405 阅读:32 留言:0更新日期:2022-03-02 09:31
本文阐述的实现涉及语音识别技术,用于处理用户之间语音变化(例如,由于不同口音)和处理用户场境的特征以便在解释来自用户的口头话语时扩展多个语音识别假设。为了适应用户的口音,可以过滤掉多个语音识别假设共有的术语,以便识别一组假设中明显不一致的术语。不一致术语之间的映射可以作为术语对应数据为后续用户存储。以这种方式,可以生成补充语音识别假设并将其进行基于概率的评分,以识别与用户提供的口头话语最相关的语音识别假设。在一些实现中,在评分之前,可以基于场境数据(诸如屏幕内容和/或应用能力)补充假设。如屏幕内容和/或应用能力)补充假设。如屏幕内容和/或应用能力)补充假设。

【技术实现步骤摘要】
【国外来华专利技术】根据先前发生的假设术语和/或场境数据的语音识别假设生成

技术介绍

[0001]人类可以与本文称为“自动助理”(也称为“数字代理”、“聊天机器人”、“交互式个人助理”、“智能个人助理”、“会话代理”等)的交互式软件应用进行人

计算机对话。例如,人类(当他们与自动助理交互时可以被称为“用户”)可以使用口头自然语言输入(即话语)和/或通过提供文本(例如,打字的)自然语言输入而提供命令和/或请求,口头自然语言输入在某些情况下可以被转换为文本且然后被处理。
[0002]在一些情况下,自动助理可以被具有其各自口音变化的各种用户访问,从而产生关于语音识别的准确性问题。例如,某些口音会导致语音识别过程始终错误地识别某些单词、短语和/或音素。结果,具有这种口音的用户可能不得不重复提供口头话语,直到语音识别过程为用户生成准确的响应。尽管某些语音识别过程可能会尝试适应某些口音,但此类过程可能仅从用户已明确识别的错误中学习。这会导致解决某些语音识别问题的延迟,并可能浪费计算资源。例如,处理针对自动助理的口头话语以促进纠正自动助理的识别错误对于资源有限的便携式电子设备本文档来自技高网...

【技术保护点】

【技术特征摘要】
【国外来华专利技术】1.一种由一个或多个处理器实现的方法,所述方法包括:在计算设备处处理与用户提供的口头话语相对应的音频数据;基于处理所述音频数据,生成多个语音识别假设,其中,所述多个语音识别假设中的每个语音识别假设包括对应的自然语言内容,所述对应的自然语言内容被预测为表征来自所述用户的所述口头话语的原始自然语言内容;基于处理所述音频数据,确定所述多个语音识别假设中的第一语音识别假设的第一术语与所述多个语音识别假设中的第二语音识别假设的第二术语是否不同;以及当所述第一语音识别假设的所述第一术语与所述第二语音识别假设的所述第二术语不同时:基于确定所述第一术语与所述第二术语不同,生成表征所述第一术语与所述第二术语之间的关系的术语对应数据;以及在生成所述术语对应数据之后:处理所述术语对应数据以进一步补充识别所述第一术语而不是所述第二术语的后续语音识别假设,以及为所述后续语音识别假设生成补充语音识别假设,其中,所述补充语音识别假设包括所述第二术语。2.根据权利要求1所述的方法,还包括:确定所述第一术语和所述第二术语是否均至少部分地基于所述音频数据的相同片段被预测,其中,当所述第一术语和所述第二术语均是至少部分地基于所述音频数据的相同片段被预测时,执行生成所述术语对应数据。3.根据权利要求1或2所述的方法,还包括:确定所述第一语音识别假设的所述第一术语是否与所述第二语音识别假设的所述第二术语共享公共位置,其中,当所述第一语音识别假设的所述第一术语与所述第二语音识别假设的所述第二术语共享所述公共位置时,执行生成所述术语对应数据。4.根据权利要求3所述的方法,其中,确定所述第一语音识别假设的所述第一术语是否与所述第二语音识别假设的所述第二术语共享所述公共位置包括:确定所述第一术语与所述多个语音识别假设中的所述第一语音识别假设内的特定自然语言术语直接相邻,以及确定所述第二术语也与所述多个语音识别假设中的所述第二语音识别假设内的所述特定自然语言术语直接相邻。5.根据权利要求3所述的方法,其中,确定所述第一语音识别假设的所述第一术语是否与所述第二语音识别假设的所述第二术语共享所述公共位置包括:确定所述第一术语直接在所述多个语音识别假设中的所述第一语音识别假设内的两个自然语言术语之间,以及确定所述第二术语也直接在所述多个语音识别假设中的所述第二语音识别假设内的所述两个自然语言术语之间。6.根据前述权利要求中的任一项所述的方法,还包括:
在生成所述术语对应数据之后,基于表征所述用户提供所述口头话语的场境的场境数据,从所述多个语音识别假设确定优先的语音识别假设;以及使所述计算设备基于所述优先的语音识别假设呈现输出。7.根据权利要求6所述的方法,其中,当所述用户提供所述口头话语时,所述场境数据表征在所述计算设备的图形用户界面处呈现的图形内容。8.根据权利要求6或7所述的方法,其中,所述场境数据进一步表征能够经由所述计算设备访问的一个或多个应用,并且确定所述优先的语音识别假设包括:根据每个语音识别假设是否对应于能够经由所述计算设备能访问的所述一个或多个应用被初始化的动作,对所述多个语音识别假设中的每个语音识别假设进行优先化。9.根据前述权利要求中的任一项所述的方法,其中,所述第一术语包括对应于所述多个语音识别假设中的所述第一语音识别假设中的一个或多个词的一个或多个音素。10.根据前述权利要求中的任一项所述的方法,其中,所述第二术语包括对应于所述多个语音识别假设中的所述第二语音识别假设中的一个或多个其他词的一个或多个其他音素。11.根据前述权利要求中的任一项所述的方法,其中,提供来自所述用户的所述口头话语以促进使所述计算设备的应用初始化一个或多个动作的执行。12.根据前述权利要求中的任一项所述的方法,还包括:当所述第一语音识别假设的所述第一术语与所述第二语音识别假设的所述第二术语不同时:基于现有术语对应数据,确定所述第一术语和/或所述第二术语是否与所述现有术语对应数据中的相关术语相关。13.根据权利要求12所述的方法,还包括:当所述第一语音识别假设的所述第一术语与所述第二语音识别假设的所述第二术语不同时,并且当所述第一术语和/或所述第二术语与所述现有术语对应数据中的所述相关术语相关时:基于所述现有术语对应数据,生成包含所述相关术语的另一补充语音识别假设。14.根据权利要求13所述的方法,其中,所述另一补充语音识别假设没有所述第一术语和所述第二术语。15.一种由一个或多个处理器实现的方法,所述方法包括:在计算设备处处理与用户提供的口头话语相对应的音频数据;基于处理所述音频数据,生成多个语音识别假设,其中,所述多个语音识别假设中的每个语音识别假设包括对应的自然语言内容,所述对应的自然语言内容被预测为对应于来自所述用户的所述口头话语的原始自然语言内容;...

【专利技术属性】
技术研发人员:阿戈什顿
申请(专利权)人:谷歌有限责任公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1