用于智能听写的自动化助理的话音命令制造技术

技术编号:38091803 阅读:27 留言:0更新日期:2023-07-06 09:04
本文描述的系统和方法涉及确定是将对应于客户端设备的用户的口头话语的所识别的文本并入在客户端设备处显示的转录中,或者使得客户端设备实施的自动化助理执行与转录相关联并且基于所识别的文本的助理命令。在所述用户和所述自动化助理之间的听写会话期间接收口头话语。实现方式可以使用自动语音识别模型来处理捕获口头话语的音频数据,以生成所识别的文本。此外,实现方式可以基于触摸输入被指向转录、转录的状态和/或口头话语的基于音频的特征来确定是将所识别的文本并入转录中还是使得助理命令被执行。是使得助理命令被执行。是使得助理命令被执行。

【技术实现步骤摘要】
【国外来华专利技术】用于智能听写的自动化助理的话音命令

技术介绍

[0001]人类可以利用本文中被称为“自动化助理”(也称为“聊天机器人”、“交互式个人助理”、“智能个人助理”、“个人话音助理”、“谈话代理”等)的交互式软件应用来参与人机对话会话。例如,人(当与自动化助理交互时,可被称为“用户”)可向自动化助理提供输入(例如,命令、查询和/或请求),所述输入可使自动化助理生成并提供响应输出,以控制一个或多个物联网(IoT)设备,和/或执行一个或多个其他功能性。用户提供的输入可以是例如口头自然语言输入(即口头话语),其在一些情况下可以被转换成文本(或其他语义表示)然后被进一步处理,和/或键入自然语言输入。
[0002]自动化助理通常依赖于组件流水线来解释和响应用户输入。例如,自动语音识别(ASR)引擎可用于处理捕获用户的口头话语的音频数据,并生成ASR输出,诸如口头话语的转录(即,术语和/或其他令牌的序列)。此外,可以使用自然语言理解(NLU)引擎来处理ASR输出,并生成NLU输出,诸如用户在提供口头话语时的意图以及可选地与所述意图相关联的参数的时隙值。此外,实现引擎可用于处理NLU本文档来自技高网...

【技术保护点】

【技术特征摘要】
【国外来华专利技术】1.一种由一个或多个处理器实施的方法,所述方法包括:接收捕获客户端设备的用户的口头话语的音频数据,所述音频数据是由所述客户端设备的一个或多个麦克风生成的,并且所述音频数据是在所述用户的触摸输入被指向经由在所述客户端设备处可访问的软件应用显示在所述客户端设备处的转录时接收的;基于所述用户的所述触摸输入被指向所述转录和所述口头话语,确定:是将对应于所述口头话语的所识别的文本并入所述转录中,还是执行与所述转录相关联并且基于对应于所述口头话语的所识别的文本的助理命令;响应于确定将对应于所述口头话语的所识别的文本并入所述转录中:自动将对应于所述口头话语的所识别的文本并入所述转录中;以及响应于确定执行与所述转录相关联并且基于对应于所述口头话语的所识别的文本的所述助理命令:使得自动化助理执行与所述转录相关联并且基于对应于所述口头话语的所识别的文本的所述助理命令。2.根据权利要求1所述的方法,还包括:使用自动语音识别(ASR)模型来处理捕获所述口头话语的所述音频数据,以生成对应于所述口头话语的所识别的文本。3.根据权利要求2所述的方法,还包括:使用自然语言理解(NLU)模型处理对应于所述口头话语的所识别的文本,以生成带注释的所识别的文本。4.根据权利要求3所述的方法,还包括:确定与所述转录相关联并且基于对应于所述口头话语的所识别的文本的所述助理命令,其中确定与所述转录相关联并且基于对应于所述口头话语的所识别的文本的所述助理命令是基于所述带注释的所识别的文本。5.根据任一前述权利要求所述的方法,其中,所述用户的所述触摸输入指向显示在所述客户端设备处的所述转录的一个或多个文本段。6.根据权利要求5所述的方法,其中,所述用户的所述触摸输入以图形方式划分显示在所述客户端设备处的所述转录的一个或多个文本段。7.根据权利要求6所述的方法,其中,确定是将对应于所述口头话语的所识别的文本并入所述转录中,还是执行与所述转录相关联并且基于对应于所述口头话语的所识别的文本的所述助理命令,包括基于所述用户的所述触摸输入以图形方式划分所述转录的一个或多个文本段来确定执行所述助理命令。8.根据任一前述权利要求所述的方法,其中,所述用户的所述触摸输入指向显示在所述客户端设备处的所述转录的一个或多个字段。9.根据权利要求8所述的方法,其中,确定是将对应于所述口头话语的所识别的文本并入所述转录中,还是执行与所述转录相关联并且基于对应于所述口头话语的所识别的文本的所述助理命令,包括基于所述用户的所述触摸输入指向所述转录的一个或多个字段来确定执行所述助理命令。10.根据任一前述权利要求所述的方法,其中,自动将对应于所述口头话语的所识别的文本并入所述转录中包括:
使得所识别的文本作为所述转录的一部分经由在所述客户端设备处可访问的所述软件应用视觉地显示给所述用户。11.根据权利要求10所述的方法,其中,使得所识别的文本作为所述转录的一部分经由在所述客户端设备处可访问的所述软件应用视觉地显示给所述用户包括在另外的文本被并入所述转录中之后使所识别的文本保持在所述转录中。12.一种由一个或多个处理器实施的方法,所述方法包括:接收捕获客户端设备的用户的口头话语的音频数据,所述音频数据是由所述客户端设备的一个或多个麦克风生成的,并且所述音频数据是在正经由在所述客户端设备处可访问的软件应用在所述客户端设备处显示转录时接收的;使用自动语音识别(ASR)模型处理捕获所述口头话语的所述音频数据,以生成对应于所述口头话语的所识别的文本;使用自然语言理解(NLU)模型处理对应于所述口头话语的所识别的文本,以生成带注释的所识别的文本;使用基于音频的机器学习(ML)模型来处理捕获所述口头话语的所述音频数据,以确定所述口头话语的一个或多个基于音频的特征;基于一个或多个带注释的所识别的文本或所述口头话语的一个或多个基于音频的特征,确定:是将对应于所述口头话语的所识别的文本并入所述转录中,还是执行与所述转录相关联并且基于对应于所述口头话语的所识别的文本的助理命令;响应于确定将对应于所述口头话语的所识别的文本并入所述转录中:自动将对应于所述口头话语的所识别的文本并入所述转录中;以及响应于确定执行与所述转录相关联并且基于对应于所述口头话语的所识别的文本的所述助理命令:使得自动化助理执行与所述转录相关联并且基于对应于所述口头话语的所识别的文本的所述助理命令。13.根据权利要求12所述的方法,还包括:确定与所述转录相关联并且基于对应于所述口头话语的所识别的文本的助理命令,其中,确定与所述转录相关联并且基于对应于所述口头话语的所识别的文本的所述助理命令是基于所述带注释的所识别的文本。14.根据权利要求12或权利要求13所述的方法,其中,所述基于音频的ML模型是端点指示模型,所述端点指示模型被训练来检测所述口头话语中的停顿,并且其中,所述口头话语的一个或多个基于音频的特征对应于所述口头话语中的一个或多个停顿。15.根据权利要求14所述的方法,其中,确定是将对应于所述口头话语的所识别的文本并入所述转录中,还是执行与所述转录相关联并且基于对应于所述口头话语的所识别的文本的所述助理命令,包括基于所述口头话语中的一个或多个停顿来确定执行与所述转录相关联的所述助理命令。16.根据权利要求15所述的方法,其中,确定是将对应于所述口头话语的所识别的文本并入所述转录中,还是执行与所述转录相关联并且基于对应于所述口头话语的所识别的文本的所述助理命令,还包括基于所述带注释的所识别的文本包括对应于所述助理命令的一
个或多个术语来确定执行所述助理命令。17.根据权利要求12或权利要求13所述的方法,其中,所述基于音频的ML模型是暖词模型,所述暖词模型被训练来检测所述口头话语中的一个或多个特定的词语或短语,并且其中,所述口头话语的一个或多个基于音频的特征对应于所述口头话语是否包括一个或多个特定的词语或短语。18.根据权利要求17所述的方法,其中,确定是将对应于所述口头话语的所识别的文本并入所述转录中,还是执行与所述转录相关联并且基于对应于所述口头话语的所识别的文本的所述助理命令,包括基于所述口头话语包括一个或多个特定的词语或短语来确定执行与所述转录相关联的所述助理命令。19.根据权利要求18所述的方法,其中,确定是将对应于所述口头话语的所识别的文本并入所述转录中,还是执行与所述转录相关联并且基于对应于所述口头话语的所识别的文本的所述助理命令,还包括基于所述带注释的所识别的文本包括对应于所述助理命令的一个或多个术语来确定执行所述助理命令。20.根据权利要求12至19中的任一项所述的...

【专利技术属性】
技术研发人员:维克托
申请(专利权)人:谷歌有限责任公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1