使用助理系统的基于自然语言理解的元语音系统提高语音识别精度技术方案

技术编号:33721017 阅读:18 留言:0更新日期:2022-06-08 21:13
在一个实施例中,一种方法包括从与第一用户相关联的客户端系统接收第一音频输入。该方法包括基于多个自动语音识别(ASR)引擎生成对应于第一音频输入的多个转录。每个ASR引擎与多个域中的相应域相关联。该方法包括为每个转录确定与转录相关联的一个或更多个意图和一个或更多个槽的组合。该方法包括由元语音引擎从多个组合中选择与第一用户输入相关联的意图和槽的一个或更多个组合。该方法包括基于所选组合生成对第一音频输入的响应,并且向客户端系统发送用于呈现对第一音频输入的响应的指令。指令。[转续页]

【技术实现步骤摘要】
【国外来华专利技术】使用助理系统的基于自然语言理解的元语音系统提高语音识别精度


[0001]本专利技术总体上涉及在网络环境内的数据库和文件管理,且具体涉及用于智能助理(smart assistant)系统的硬件和软件。
[0002]背景
[0003]助理系统可以基于用户输入、位置感知和从各种在线源访问信息(如天气状况、交通拥堵、新闻、股票价格、用户日程、零售价格等)的能力的组合来为用户提供信息或服务。用户输入可以包括文本(例如,在线聊天)(尤其是在即时消息传递应用或其他应用中的文本),声音(voice)、图像、运动(motion)或它们的组合。助理系统可以基于用户输入来执行礼宾类型的服务(例如,预订晚餐、购买活动门票、安排旅行)或者提供信息。助理系统还可以基于在线信息和事件来执行管理或数据处理任务,而无需用户启动或交互。可以由助理系统执行的那些任务的示例可以包括日程管理(例如,对晚餐约会发送用户由于交通状况而要迟到的告警信息,更新双方的日程,以及改变餐馆预订时间)。助理系统可以通过计算设备、应用编程接口(API)、以及用户设备上应用激增(proliferation)的组合来实现。
[0004]可以包括社交网络网站的社交网络系统可以使它的用户(例如个人或组织)能够与它互动以及通过它彼此互动。社交网络系统可以利用来自用户的输入来在社交网络系统中创建并存储与用户相关联的用户简档(user profile)。用户简档可以包括用户的人口统计信息、通信渠道信息以及关于个人兴趣的信息。社交网络系统还可以用来自用户的输入来创建并存储用户与社交网络系统的其他用户的关系的记录,以及提供服务(例如,简档/动态消息(news feed)帖子、照片分享、事件组织、消息传递、游戏或广告)以便于在用户之间或当中的社会交互。
[0005]社交网络系统可以通过一个或更多个网络向用户的移动设备或其他计算设备发送与它的服务相关的内容或消息。用户还可以在用户的移动设备或其他计算设备上安装软件应用,用于访问用户的用户简档和在社交网络系统内的其他数据。社交网络系统可以生成一组个性化的内容对象以显示给用户,例如关连(connect)到该用户的其他用户的汇集的动态(story)的动态消息(newsfeed)。
[0006]专利技术概述
[0007]在特定实施例中,本专利技术的助理系统可以帮助用户获得信息或服务。助理系统可以使用户能够在有状态和多轮会话(stateful and multi

turn conversation)中利用多模态用户输入(例如声音、文本、图像、视频、运动)与它进行交互来获取帮助。作为示例而非限制,助理系统可以支持音频(口头)输入和非口头输入,例如视觉、位置、手势、运动或混合/多模态输入。助理系统可以创建和存储用户简档,该用户简档包括与用户相关联的个人信息和上下文信息(contextual information)。在特定实施例中,助理系统可以使用自然语言理解来分析用户输入。分析可以基于用户的用户简档,以获得更个性化和上下文感知的理解。助理系统可以基于分析来解析(resolve)与用户输入相关联的实体。在特定实施例中,助理系统可以与不同的代理交互,以获得与解析的实体相关联的信息或服务。助理系统
可以通过使用自然语言生成为用户生成关于信息或服务的响应。通过与用户的交互,助理系统可以使用对话管理技术来管理和推进与用户的会话流。在特定实施例中,助理系统还可以通过汇总(summarize)信息来辅助用户有效且高效地消化所获得的信息。助理系统还可以通过提供帮助用户与在线社交网络交互(例如,创建帖子、评论、消息)的工具,来帮助用户更好地参与在线社交网络。助理系统另外可以帮助用户管理不同的任务,如持续跟踪事件。在特定实施例中,助理系统可以在没有用户输入的情况下,基于用户简档,在与用户相关的时间主动执行与用户兴趣和偏好相关的任务。在特定实施例中,助理系统可以检查隐私设置,以确保根据用户的隐私设置来允许访问用户的简档或其他用户信息以及执行不同的任务。
[0008]在特定实施例中,助理系统可以通过建立在客户端进程和服务器端进程上的混合架构来帮助用户。客户端进程和服务器端进程可以是用于处理用户输入和向用户提供帮助的两个并行工作流。在特定实施例中,客户端进程可以在与用户相关联的客户端系统上本地执行。相比之下,服务器端进程可以在一个或更多个计算系统上远程执行。在特定实施例中,客户端系统上的仲裁器可以协调接收用户输入(例如,音频信号),确定是使用客户端进程还是服务器端进程或两者来响应用户输入,以及分析来自每个进程的处理结果。仲裁器可以基于上述分析指示客户端或服务器端的代理执行与用户输入相关联的任务。执行结果可以进一步作为输出渲染给客户端系统。通过利用客户端和服务器端进程,助理系统可以有效地帮助用户优化计算资源的使用,同时保护用户隐私和增强安全性。
[0009]在特定实施例中,助理系统可以利用多个自动语音识别(ASR)引擎来分析通过元语音(meta

speech)引擎的音频输入。为了使ASR引擎以足够的精度运行,ASR引擎可能需要大量的训练数据来建立对应于ASR引擎的语音模型的基础。作为示例而非限制,大量训练数据可以包括100000个音频输入及其各自的转录。然而,当最初训练语音模型时,可能没有足够量的训练数据来构建具有足够可操作性的语音模型。也就是说,作为示例而非限制,语音模型可能没有足够的训练数据来能够为至少95%的音频输入准确地生成转录。这种情况可以在用户需要重复请求和/或在生成转录时有错误时被确定。因此,语音模型可能需要更大量的训练数据,以便准确地生成阈值数量的音频输入的转录。另一方面,可能存在已经在与有限任务集相关的有限数据集上训练的ASR引擎,这些引擎针对该有限任务集以足够的精度操作(例如,95%的音频输入被精确转录)。作为示例而非限制,可以有用于消息传递/呼叫的ASR引擎、用于音乐相关功能的ASR引擎和用于默认系统操作的ASR引擎。例如,用于消息传递/呼叫的ASR引擎可以精确地转录与消息传递/呼叫请求相关的阈值数量的音频输入(例如,95%)。因此,助理系统可以利用单独的ASR引擎来提高ASR结果的精度。为此,助理系统可以接收音频输入并将该音频输入发送到多个ASR引擎。通过将音频输入发送到多个ASR引擎,每个ASR引擎可以基于ASR引擎的相应语音模型生成转录。这通过增加音频输入的精确转录的概率来提高ASR结果的精度。作为示例而非限制,如果用户请求使用助理系统播放音乐,音频输入被发送到所有可用的ASR引擎,其中一个是用于音乐相关功能的ASR引擎。用于音乐相关功能的ASR引擎可以准确地将音频输入转录为播放音乐的请求。通过将对应于播放音乐的请求的音频输入发送到用于音乐相关功能的ASR引擎,助理系统可以提高音频输入的转录的精度,因为特定的ASR引擎可以具有对应于与音乐相关功能相关联的音频输入的大量训练数据。通过使用多个ASR引擎,助理系统可以具有强大的语音模型基础来处理
和转录不同的请求,例如音乐相关的请求或消息传递/呼叫相关本文档来自技高网
...

【技术保护点】

【技术特征摘要】
【国外来华专利技术】1.一种方法,包括由一个或更多个计算系统:从与第一用户相关联的客户端系统接收第一音频输入;基于多个自动语音识别(ASR)引擎生成对应于所述第一音频输入的多个转录,其中每个ASR引擎与多个域中的相应域相关联;为每个转录确定与所述转录相关联的一个或更多个意图和一个或更多个槽的组合;由元语音引擎从所述多个组合中选择与所述第一音频输入相关联的意图和槽的一个或更多个组合;基于所选组合生成对所述第一音频输入的响应;和向所述客户端系统发送用于呈现对所述第一音频输入的响应的指令。2.根据权利要求1所述的方法,其中每个ASR引擎与特定于相应ASR引擎的多个代理中的一个或更多个代理相关联。3.根据权利要求1或权利要求2所述的方法,其中所述多个域中的每个域包括特定于所述相应域的一个或更多个代理;可选地,其中所述代理包括第一方代理或第三方代理中的一个或更多个。4.根据任一前述权利要求所述的方法,其中所述多个域中的每个域包括特定于所述相应域的一组任务。5.根据任一前述权利要求所述的方法,其中所述多个域与多个代理相关联,并且其中每个代理能够操作来执行特定于所述域中的一个或更多个域的一个或更多个任务。6.根据任一前述权利要求所述的方法,还包括:对于意图和槽的每个组合,识别所述多个域中的域,其中选择意图和槽的一个或更多个组合包括将意图和槽的每个组合的域映射到与所述多个ASR引擎之一相关联的域;可选地,其中当意图和槽的相应组合的域与所述多个ASR引擎之一的域匹配时,选择所述意图和槽的一个或更多个组合。7.根据任一前述权利要求所述的方法,其中生成所述多个转录包括:向所述多个ASR引擎中的每个ASR引擎发送所述第一音频输入;和从所述多个ASR引擎接收所述多个转录。8.根据任一前述权利要求所述的方法,其中所述多个ASR引擎中的ASR引擎中的一个或更多个是与第三方系统相关联的第三方ASR引擎,所述第三方系统与所述一个或更多个计算系统分离并且在所述一个或更多个计算系统外部,所述方法还包括:向所述第三方ASR引擎中的一个发送所述第一音频输入以生成一个或更多个转录;和从所述第三方ASR引擎中的一个第三方ASR引擎接收由所述第三方ASR引擎生成的一个或更多个转录,其中生成所述多个转录包括选择由所述第三方ASR引擎生成的一个或更多个转录,以确定与每个相应转录相关联的意图和槽的组合。9.根据任一前述权利要求所述的方法,还包括:识别意图和槽的每个组合的一个或更多个特征,其中所述一个或更多个特征指示所述意图和槽的组合是否具有属性;和基于所述多个组合的各自识别的特征对所述多个组...

【专利技术属性】
技术研发人员:尼古拉斯
申请(专利权)人:脸谱科技有限责任公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1