System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 自动确定通过自动化助理接口接收的口头话语的语音识别的语言制造技术_技高网

自动确定通过自动化助理接口接收的口头话语的语音识别的语言制造技术

技术编号:40089786 阅读:6 留言:0更新日期:2024-01-23 16:01
公开了自动确定通过自动化助理接口接收的口头话语的语音识别的语言。确定用于通过用于与自动化助理交互的自动化助理接口接收的口头话语的语音识别的语言。实施方式可以实现与自动化助理的多语言交互,而不需要用户明确指明每个交互所使用的语言。实施方式确定对应于捕获口头话语的音频数据的用户简档,并且在确定用于口头话语的语音识别的语言时利用被指派给用户简档的语言和可选地对应概率。一些实施方式仅选择被指派给用户简档的语言的子集以用于用户的给定口头话语的语音识别。一些实施方式以被指派给用户简档的多个语言中的每一个执行语音识别,并且利用标准来适当地选择语音识别中的仅一个以用于生成和提供响应于口头话语的内容。

【技术实现步骤摘要】

本申请大体上涉及自动确定通过自动化助理接口接收的口头话语的语音识别的语言


技术介绍

1、人类可以与交互式软件应用进行人机对话,该交互式软件应用在此称为“自动化助理”(也称为“数字代理”、“聊天机器人”、“交互式个人助理”、“智能个人助理”、“助理应用”、“会话代理”等)。例如,人类(当他们与自动化助理交互时,可以被称为“用户”)可以使用口头自然语言输入(即,话语)向自动化助理提供命令和/或请求,在某些情况下该口头自然语言输入可以被转换成文本然后被处理,和/或通过提供文本(例如,键入的)自然语言输入向自动化助理提供命令和/或请求。自动化助理通过提供响应用户接口输出来响应于请求,该用户接口输出可以包括可听和/或视觉用户接口输出。

2、如上所述,自动化助理可以将对应于用户口头话语的音频数据转换成对应的文本(或其他语义表示)。例如,音频数据可以基于通过客户端设备的一个或多个麦克风的对用户的口头话语的检测来生成,该客户端设备包括用于使用户能够与自动化助理交互的助理接口。自动化助理可以包括语音识别引擎,其试图识别音频数据中捕获的口头话语的各种特征,诸如口头话语产生的声音(例如音素)、产生的声音的顺序、语音节奏、语调等。此外,语音识别引擎可以标识由这些特性表示的文本词或短语。然后,在确定口头话语的响应内容时,文本可以由自动化助理(例如,使用自然语言理解(nlu)引擎和/或对话状态引擎)进一步处理。语音识别引擎可以由客户端设备和/或远离客户端设备但与客户端设备进行网络通信的一个或多个自动化助理组件来实现。

3、然而,许多语音识别引擎被配置为识别仅单个语言的语音。对于多语言用户和/或家庭来说,这种单个语言语音识别引擎可能不令人满意,并且当接收到不是语音识别引擎支持的单个语言的附加语言的口头话语时,这种单个语言语音识别引擎可使自动化助理故障和/或提供错误的输出。这可以渲染不可使用的自动化助理和/或导致计算和/或网络资源的过度使用。当自动化助理故障或提供错误输出时,计算和/或网络资源的过度使用可能是用户需要提供进一步的所支持的单个语言的口头话语的结果。这种进一步的口头话语必须另外由对应的客户端设备和/或远程自动化助理组件处理,从而导致各种资源的附加使用。

4、其他语音识别引擎可以被配置为识别多个语言的语音,但是需要用户明确指明在给定时间应该在语音识别中使用多个语言中的哪一个。例如,其他语音识别引擎中的一些可能需要用户手动指明要被用于在特定客户端设备接收的所有口头话语的语音识别中的默认语言。要将默认语言更改为另一个语言,可以要求用户与图形和/或可听接口交互,以明确更改默认语言。这种交互会在渲染接口、处理通过接口提供的用户输入等时导致过度使用计算和/或网络资源。此外,在提供不是当前默认语言的口头话语之前,用户可能经常忘记改变默认语言。如上所述,这可能导致渲染不可使用的自动化助理和/或导致计算和/或网络资源的过度使用。


技术实现思路

1、本文描述的实施方式涉及用于自动确定通过自动化助理接口接收的口头话语的语音识别的语言的系统、方法和装置。在一些实施方式中,使用给定语言的口头话语的语音识别可以包括处理捕获口头话语的音频数据,使用给定语言的一个或多个语音识别模型以便生成对应于口头话语并且使用给定语言的文本。如本文所述,多个语音识别模型可用于语音识别,并且语音识别模型中的每个可被配置以用于多个语言中的对应语言。例如,第一语音识别模型可以被配置为基于处理包括英语口头话语的音频数据来生成英语文本、第二语音识别模型可以被配置为基于处理包括法语口头话语的音频数据来生成法语文本、第三语音识别模型可以被配置为基于处理包括西班牙语口头话语的音频数据来生成西班牙语文本等。

2、本文描述的一些实施方式可以利用各种技术来仅选择一个语言子集,以用于给定用户的给定口头话语的语音识别。例如,给定用户可以具有用户简档,该用户简档具有被指派给用户简档的多个候选语言。多个候选语言可以由用户手动指派给用户简档和/或基于用户跨一个或多个平台上对候选语言的过去使用被自动指派。如下文更详细描述的,仅选择该语言子集可以基于例如被指派给用户简档的多个候选语言的概率度量,该概率度量可以基于用户简档的多个候选语言的过去使用,并且每个该概率度量可以对应于一个或多个场境参数(例如,给定场境参数,每个基于用户简档的对应语言的过去使用)。

3、作为一个特定示例,被指派给用户简档的多个语言中的单个特定语言可以针对一个或多个当前场境参数(例如,通过其检测给定口头话语的客户端设备、一天中的时间和/或一周中的一天)具有被指派的概率度量,其中概率度量指示给定用户说出该单个特定语言的非常高的可能性。基于被指派的概率度量,可以选择单个特定语言,并且仅使用该单个语言的语音识别模型来执行语音识别。执行语音识别可以产生单个语言的对应文本,然后在生成响应于给定口头话语的内容时,该文本可以由自动化助理的附加组件进一步处理。然后,响应的内容可以被提供用于在客户端设备处渲染以呈现给用户。响应的内容可以可选地使用相同的单个语言,或者被提供以使以相同的单个语言渲染。

4、作为另一个特定示例,被指派给用户简档的三个或更多个候选语言中的两个特定语言可以针对一个或多个当前场境参数具有对应的被指派的概率度量,其中每个概率度量至少指示给定用户说出两个特定语言中的对应一个语言的阈值可能性。基于被指派的概率度量,两个特定语言可以被选择,并且只使用这两个特定语言的语音识别模型来执行给定口头话语的语音识别。基于针对一个或多个当前场境参数,其他候选语言的对应的被指派的度量不满足阈值,该其他候选语言可能不被选择用于语音识别。

5、使用该两个特定语言中的第一语言的语音识别模型来执行语音识别可以产生第一语言的相应第一文本以及可选地指示第一文本表示给定口头话语的可能性的第一测量。使用该两个特定语言中的第二语言的语音识别模型执行语音识别可以产生第二语言的相应的第二文本以及且可选地指示第二文本表示给定口头话语的可能性的第二测量。然后,可以选择第一文本或第二文本中的一个作为适当的文本,用于生成和提供响应于给定口头话语的内容。

6、在一些实施方式中,基于第一和第二测量选择第一文本或第二文本中的一个,第一和第二测量指示它们表示给定口头话语的相应可能性。例如,如果第一测量指示第一文本表示给定口头话语的80%的可能性,并且第二测量指示第二文本表示给定口头话语的70%的可能性,则鉴于第一测量指示比第二测量更大的可能性,可以选择第一文本来代替第二文本。在那些实施方式中的一些中,可以进一步考虑两个特定语言的概率度量。例如,再次假设第一测量指示80%的可能性,第二测量指示70%的可能性,并且进一步假设第一语言的概率度量是30%(针对一个或多个场境参数),第二语言的概率度量是65%(针对一个或多个场境参数)。在这样的示例中,可以基于指示第一和第二文本表示给定口头话语的可能性的测量以及第一和第二语言的概率度量两者来选择第二文本代替第一文本。例如,第一文本的分数可以基于70%和65%(例本文档来自技高网...

【技术保护点】

1.一种由一个或多个处理器实现的方法,所述方法包括:

2.根据权利要求1所述的方法,其中,所述用户简档还包括与针对不同语言的至少一个不同语音识别模型相对应的附加概率度量,并且所述方法还包括:

3.根据权利要求2所述的方法,进一步包括:

4.根据权利要求3所述的方法,其中,当接收到所述口头输入时,所述当前场境数据标识所述客户端设备的位置或正在经由所述客户端设备访问的应用。

5.根据权利要求3或权利要求4所述的方法,其中,所述当前场境数据标识所述客户端设备。

6.根据权利要求1至5中任一项所述的方法,其中,所述概率度量是基于在所述用户和所述自动化助理之间的过去交互。

7.一种由一个或多个处理器实现的方法,所述方法包括:

8.根据权利要求7所述的方法,进一步包括:

9.根据权利要求7或权利要求8所述的方法,其中,确定所述音频数据对应于所述用户简档是基于将所述音频数据的特征与所述用户简档的特征进行比较。

10.一种包括指令的计算机程序产品,所述指令在由一个或多个处理器执行时使得所述一个或多个处理器执行前述权利要求中任一项的方法。

11.一种包括指令的计算机可读存储介质,所述指令在由一个或多个处理器执行时使得所述一个或多个处理器执行根据权利要求1至9中任一项所述的方法。

12.一种包括一个或多个处理器的系统,所述一个或多个处理器用于执行根据权利要求1至9中任一项所述的方法。

...

【技术特征摘要】

1.一种由一个或多个处理器实现的方法,所述方法包括:

2.根据权利要求1所述的方法,其中,所述用户简档还包括与针对不同语言的至少一个不同语音识别模型相对应的附加概率度量,并且所述方法还包括:

3.根据权利要求2所述的方法,进一步包括:

4.根据权利要求3所述的方法,其中,当接收到所述口头输入时,所述当前场境数据标识所述客户端设备的位置或正在经由所述客户端设备访问的应用。

5.根据权利要求3或权利要求4所述的方法,其中,所述当前场境数据标识所述客户端设备。

6.根据权利要求1至5中任一项所述的方法,其中,所述概率度量是基于在所述用户和所述自动化助理之间的过去交互。

7.一种由一个或...

【专利技术属性】
技术研发人员:赵璞升迭戈·米伦多·卡萨多伊格纳西奥·洛佩斯·莫雷诺
申请(专利权)人:谷歌有限责任公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1