校正口头话语的语音误识别制造技术

技术编号:36155890 阅读:16 留言:0更新日期:2022-12-31 20:02
实施方式能够接收对应于用户的口头话语的音频数据,处理音频数据以生成多个语音假设,基于语音假设来确定要由自动化助理执行的动作,并且使计算设备呈现动作的指示。响应于计算设备呈现该指示,实施方式能够接收与用户的附加口头话语相对应的附加音频数据,处理附加音频数据以确定口头话语的一部分与附加口头话语的附加部分相似,用替代动作替换该动作,并且使自动化助理发起替代动作的执行。一些实施方式能够基于与动作相关联的置信水平来确定是否呈现动作的指示。来确定是否呈现动作的指示。来确定是否呈现动作的指示。

【技术实现步骤摘要】
【国外来华专利技术】校正口头话语的语音误识别

技术介绍

[0001]人类可以使用本文称为“自动化助理”(也称为“聊天机器人”、“交互式个人助理”、“智能个人助理”、“个人语音助理”、“会话代理”等)的交互式软件应用参与人机对话。例如,人类(当他们与自动化助理交互时,可以称为“用户”)可以使用口头自然语言输入(即口头话语)和/或通过提供文本(例如,键入的)自然语言输入向自动化助理提供命令和/或请求,口头自然语言输入在某些情况下可以被转换成文本并且然后被处理。自动化助理通常通过提供响应性用户界面输出(例如,听觉和/或视觉用户界面输出)、控制(多个)智能设备和/或执行其他(多个)动作来响应于命令或请求。
[0002]自动化助理通常依赖于组件流水线来解释和响应于用户请求。例如,自动语音识别(ASR)引擎能够用于处理对应于口头话语的音频数据,以生成用户的话语的转录(即(多个)词项和/或其他(多个)令牌的序列)。然而,在执行ASR时,某些词项可能会被误识别。结果,自动化助理可能会执行用户不想要的动作。这能够使用户重复相同的口头话语(其可能再次被误识别)或使用户执行某个其他动作,从而延长人机对话和/或使用户消耗在人机对话之外的附加计算资源。

技术实现思路

[0003]本文公开的一些实施方式涉及在人机对话会话期间标识和校正语音识别中的误识别。例如,响应于从计算设备的用户接收到“Play a song by John Doe”的口头话语,自动化助理能够导致对口头话语执行语音识别。在执行语音识别时,能够针对语音的一个或多个部分生成多个词项假设。这进而导致生成多个转录假设。在该示例中,假设针对与“Doe”对应的语音部分生成了多个词项假设,例如“Roe”、“Doe”、“Row”和“Dough”。这导致多个转录假设,诸如“Play a song by John Roe”、“Play a song by John Dough”等。利用一种或多种技术多个转录假设中的给定转录假设能够被选择为对应于口头话语。例如,假设所选转录语音假设对应于“Play a song by John Roe”(而不是用户预期的“Doe”)。在此示例中,选择词项假设“Roe”而不是词项假设“Doe”表示在语音识别中针对给定转录假设的误识别。由于误识别,自动化助理能够使“John Roe”(而不是“John Doe”)的歌曲开始播放和/或,在歌曲播放之前能够使在用户的计算设备处以可听方式呈现“Okay,playing a song by John Roe”的口头响应。进一步假设,响应于正在播放歌曲和/或口头响应被可听见地呈现,在计算设备处从用户接收到附加口头话语“No,Doe”。自动化助理能够处理附加口头话语以确定附加口头话语校正了语音识别中的误识别(例如,“Doe”而不是“Roe”)。
[0004]作为一个示例,能够处理附加口头话语以确定附加口头话语的“Doe”部分与先前口头话语的“Doe”部分相似(即,被误识别为“Roe”的部分)。该相似度确定能够包括例如确定所述部分在语音学上相似、在声学上相似和/或具有来自语音识别的一个或多个重叠词项假设。作为响应,对附加口头话语执行的语音识别能够用于校正先前的误识别,使得能够执行播放“John Doe”(而不是“Roe”)的歌曲的替代动作。作为一个示例,能够一起考虑附加口头话语的“Doe”部分的附加词项假设和先前口头话语的“Doe”部分的词项假设以确定

Doe”的词项假设对于两者是共同的(以及可选地,两者的对应置信水平都满足阈值),并且作为响应,使用“Doe”来校正对“Roe”的误识别。因此,能够利用“Play a song by John Doe”的替代转录假设来确定替代动作。
[0005]在一些实施方式中,能够在检测到音频数据(例如,经由其(多个)麦克风)的计算设备处本地使用(多个)语音识别模型来处理捕获口头话语的音频数据。在一些附加和/或替代实施方式中,能够将音频数据(或从其导出的特征)通过一个或多个网络传输到远程计算系统(例如,服务器),并且在远程计算系统上远程使用(多个)语音识别模型来处理该音频数据。在处理音频数据时,能够使用(多个)语音识别模型来生成多个语音假设(包括词项假设和/或转录假设)(例如,作为来自使用语音识别模型的处理的直接输出和/或通过这种输出的后处理),并且多个语音假设中的每一个能够与相应置信水平相关联,该相应置信水平与给定语音假设对应于口头话语的可能性相对应。能够基于相应置信水平将多个语音假设中的给定语音假设选择为对应于口头话语。此外,给定口头话语的多个语音假设能够被存储在存储器和/或一个或多个数据库中。例如,假设接收到“Play a song by John Doe”的口头话语。在该示例中,能够生成“Play a song by John Doe”的第一转录假设(包括“Doe”的第一个词项假设)以及第一相应置信水平(例如,与第一转录假设和/或第一个词项假设相关联),并且能够生成“Play a song by John Roe”的第二转录假设(包括“Roe”的第二词项假设)以及第二相应的置信水平(例如,与第二转录假设和/或第二词项假设相关联),等等。在那些实施方式的一些附加和/或替代版本中,还能够生成对应于多个转录假设中的一个或多个的转录。
[0006]此外,自动化助理能够基于被选择为对应于口头话语的给定语音假设来确定要执行的动作。该动作能够包括例如至少用户的意图和与该意图相关联的一个或多个参数的槽值。例如,假设被选择为对应于口头话语的给定语音假设对应于“Turn on the bedroom lights”。在此示例中,动作能够包括“turn on lights”的意图以及“语义标识符”参数的槽值“bedroom”。作为另一个示例,假设被选择为对应于口头话语的给定语音假设对应于“Play a song by John Doe”。在此示例中,动作能够包括“play a song”的意图以及“艺术家”参数的槽值“John Doe”(如果由用户指定了特定歌曲,则可选地“歌曲”参数的槽值)。
[0007]此外,自动化助理能够可选地使计算设备经由计算设备的(多个)扬声器呈现指示要由自动化助理执行的动作的口头响应。例如,自动化助理能够响应于接收到“Assistant,play a song by John Doe”的口头话语使“Ok,playing a song by John Doe”的口语响应被可听地呈现。在其中计算设备包括显示器的实施方式中,自动化助理能够附加地和/或替代地使计算设备可视地呈现要执行的动作的指示。例如,自动化助理能够使计算设备的显示器可视地呈现被选择为对应于口头话语的给定语音假设的转录、与要执行的动作相关联的一个或多个控制元件(例如,音乐控制元件、家庭自动化设备控制元件等)、和/或其他视觉指示。
[0008]在一些实施方式中,能够经由用户的计算设备的(多个)麦克风来检测对应于附加口头话语的附加音频数据。可以响应于可听地呈现指示要由自动化助理执行的动作的口头响应来接收对应于附加口头话语的附本文档来自技高网
...

【技术保护点】

【技术特征摘要】
【国外来华专利技术】1.一种由一个或多个处理器实现的方法,所述方法包括:接收对应于用户的口头话语的音频数据,所述音频数据由所述用户的计算设备的一个或多个麦克风生成;处理对应于所述口头话语的所述音频数据以生成多个语音假设;基于所述多个语音假设来确定要由自动化助理执行的动作,所述动作与所述多个语音假设的给定语音假设相关联;使所述用户的所述计算设备呈现要执行的所述动作的指示;响应于所述计算设备呈现要执行的所述动作的所述指示,接收与所述用户的附加口头话语相对应的附加音频数据;处理与所述附加口头话语相对应的所述附加音频数据以确定所述口头话语的至少一部分与所述附加口头话语的附加部分相似;响应于确定所述口头话语的至少所述一部分与所述附加口头话语的所述附加部分相似,将所述动作替换为要由所述自动化助理执行的替代动作,所述替代动作与所述多个语音假设的替代语音假设相关联;以及使所述自动化助理发起所述替代动作的执行。2.根据权利要求1所述的方法,其中,处理与所述附加口头话语相对应的所述附加音频数据以确定所述口头话语的至少所述一部分与所述附加口头话语的所述附加部分相似包括:将对应于所述口头话语的所述音频数据的声学特征与对应于所述附加口头话语的所述附加音频数据的附加声学特征进行比较;以及基于所述声学特征与所述附加声学特征的比较,标识与所述附加口头话语的所述附加部分相似的所述口头话语的至少所述一部分。3.根据权利要求2所述的方法,还包括:基于所述给定语音假设,生成对应于所述口头话语的转录,所述转录包括所述口头话语的至少所述一部分;基于所述替代语音假设,生成对应于所述附加口头话语的转录,所述附加转录至少包括所述附加口头话语的所述附加部分;将对应于所述口头话语的所述转录与对应于所述附加口头话语的所述附加转录相比较;以及基于所述转录与所述附加转录的比较,标识要由所述自动化助理执行的所述替代动作。4.根据前述权利要求中的任一项所述的方法,还包括:基于所述给定语音假设,生成对应于所述口头话语的转录,所述转录包括所述口头话语的至少所述一部分;基于所述替代语音假设,生成对应于所述附加口头话语的转录,所述附加转录包括所述附加口头话语的至少所述附加部分;将对应于所述口头话语的所述转录与对应于所述附加口头话语的所述附加转录相比较;以及基于所述转录与所述附加转录的比较,标识要由所述自动化助理执行的所述替代动
作。5.根据前述权利要求中的任一项所述的方法,其中,在所述用户与所述自动化助理之间的对话会话期间接收所述口头话语和所述附加口头话语,所述方法还包括以下中的一项或多项:在随后的对话会话期间,将对应于另一附加口头话语的另一附加音频数据的处理偏置朝向所述替代动作;或者在所述随后的对话会话期间,将对应于另一附加口头话语的另一附加音频数据的处理偏置远离所述动作。6.根据前述权利要求中的任一项所述的方法,其中,处理对应于所述口头话语的所述音频数据以生成所述语音假设包括:确定与所述语音假设中的一个或多个相关联的相应置信水平是否满足阈值置信水平。7.根据权利要求6所述的方法,还包括:响应于确定与所述语音假设中的一个或多个相关联的所述相应置信水平未能满足所述阈值置信水平:保持所述计算设备的一个或多个组件处于活动状态以预期接收到与所述用户的所述附加口头话语相对应的所述附加音频数据。8.根据权利要求6或权利要求7所述的方法,还包括:响应于确定与所述一个或多个语音假设相关联的所述置信水平满足所述阈值置信水平:在接收到与所述用户的所述附加口头话语相对应的所述附加音频数据之前,停用所述用户的所述计算设备的一个或多个组件。9.根据权利要求8所述的方法,其中,对应于所述用户的所述附加口头话语的所述附加音频数据包括触发词项或短语,所述触发词项或短语用于激活所述用户的所述计算设备的所述一个或多个组件以处理对应于所述用户的所述附加口头话语的所述附加音频数据。10.根据权利要求6至9中的任一项所述的方法,还包括:响应于确定与所述语音假设中的一个或多个相关联的所述相应置信水平未能...

【专利技术属性】
技术研发人员:马修
申请(专利权)人:谷歌有限责任公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1