智能数字助理系统技术方案

技术编号:22269164 阅读:47 留言:0更新日期:2019-10-10 18:09
为了解决处理与多个用户的对话的问题,提供了一种智能数字助理系统。该系统可包括至少一个被配置成接收音频输入的话筒,被配置成发射音频输出的扬声器和处理器。该处理器可被配置成参与与第一用户的对话,以及,在第一用户参与与系统的对话的同时,在音频输入中识别出一个或多个附加用户的语音。处理器可处理一个或多个附加用户的经识别的语音以确定每个附加用户的上下文,并执行对话解缠模块以根据每个附加用户的经识别的语音的上下文选择并执行一个或多个预定的对话解缠动作。

Intelligent Digital Assistant System

【技术实现步骤摘要】
【国外来华专利技术】智能数字助理系统背景经由诸如话音识别、文本、姿势识别、运动检测、注视检测、意图识别、大脑活动评估、文本、家庭自动化设备的状态等中的一者或多者的自然交互与计算系统进行交互可实现自然的用户界面体验。随着数字信息量和计算设备数量的增加,管理此类自然用户交互界面以提供积极的用户体验可能具有挑战性。附图简述图1示出了根据本公开的一示例的具有一体化计算设备形式的智能数字助理系统的示例环境。图2示意性地示出了根据本公开的一示例的用于实现智能数字助理系统的示例逻辑架构。图3示意性地示出了根据本公开的一示例的可被话音监听器使用的语音识别程序。图4示出了根据本公开的一示例的意图模板。图5示意性地示出了根据本公开的一示例的处理一部分对话的解析器和意图处理器。图6A和6B示出了根据本公开的各示例的用于解决意图模板中的缺失和/或未辨析的信息的方法。图7示意性地示出了根据本公开的各示例的可确定一个或多个实体的身份、位置和/或当前状态的实体跟踪器。图8示意性地示出了根据本公开的各示例的在多个时间帧上接收并解释传感器数据的实体跟踪器。图9示意性地示出了根据本公开的一示例的经由实体跟踪器的传感器置信度随时间衰减的示例。图10示意性地示出了根据本公开的各示例的使用经训练的话音识别引擎来识别人的语音的示例。图11示意性地示出了根据本公开的各示例的使用音频数据的子片段来训练话音模型的示例。图12示意性地示出了根据本公开的各示例的交叉评估音频数据的子片段以确定有源扬声器是否已经改变的示例。图13示出了根据本公开的各示例的成本函数的示意图。图14示出了根据本公开的各示例的用于确定通知的成本和不通知的成本的方法的流程图。图15示出了根据本公开的各示例的阈值更新模块的示意性表示。图16示出了根据本公开的各示例的用于更新阈值数据的方法的流程图。图17示意性地示出了根据本公开的各示例的实现智能数字助理系统的一体化计算设备。图18示意性地示出了根据本公开的各示例的一个或多个远程服务执行智能数字助理系统的功能的一个示例实现。图19示意性地示出了根据本公开的各示例的一个或多个远程服务执行智能数字助理系统的功能的另一示例实现。图20示意性地示出了根据本公开的各示例的一个或多个远程服务利用设备选择器的另一示例实现。图21示意性地示出了在检测到一个或多个口述关键字时智能数字助理系统的一个或多个功能被激活的示例实现。图22示意性地示出了根据本公开的各示例的响应于话音激活(诸)传感器和(诸)输出设备被选择的多设备环境的示例实现。图23示意性地示出了根据本公开的各示例的用于处理来自多于一个的用户的音频输入的预定对话解缠模块。图24示出了根据本公开的各示例的用于在第一用户的音频输入中解决第二用户的经识别的语音的方法。图25示出了根据本公开的各示例的用于选择预定的解缠动作的方法。图26示意性地示出了根据本公开的各示例的计算系统。详细描述概览本公开一般涉及用于向用户提供智能助理的系统、方法和逻辑构造。在一些示例中,各种传感器数据可被用于智能地确定传递给用户的消息的内容和/或时间和/或动作的性能。在一些示例中,诸如用户命令和其他话语之类的自然语言输入可被接收并被处理。在一些示例中,自然语言输入可被解析并被分析以生成与输入相关联的一个或多个用户意图的指示。在一些示例中,来自一个或多个传感器的数据也可被用于处理自然语言输入和/或用户意图。此类数据可被处理以生成与传感器范围内的一个或多个实体相关的身份、定位/位置、状态/活动、和/或其他信息。基于当前和过去数据的统计概率可被用于生成与实体信息相关联的置信值。用户意图可被处理以至少部分地辨析言语、语义和/或其他歧义。使用由此产生的明确意图,可生成用于执行意图的承诺,也可执行或存储该承诺。在确定是否以及何时执行承诺时,可以检查一个或多个因素。在一些示例中,可对与承诺对特定用户的重要性、用户接收输入的接收能力和/或用户当前上下文有关的因素进行估计。机器学习技术可被应用于此类因素和其他数据,以便从此类信息中学习和作出预测。以下是对用于处理自然语言输入的智能数字助理系统的示例实现和用例的描述。下文提供此系统的各个方面的附加细节。示例环境图1示出了具有一体化计算设备10形式的智能数字助理系统的一个示例的起居室4的示例。如下文更详细描述的,在一些示例中,计算设备10可被配置成接收和处理自然语言输入。用户可将智能数字助理系统用于无数功能。例如,用户可提供自然语言输入以要求智能数字助理系统执行各种任务,诸如将计算机游戏的实例从一个设备传送到另一个设备。在另一示例中,可在没有来自用户的输入的情况下以编程方式执行此类传送。例如,计算设备10可利用诸如音频和/或视频数据之类的传感器数据来检测用户何时移动到另一个房间并且正在查看另一设备或与另一设备“参与”。使用此数据,计算设备10可自动地将计算机游戏的实例传送到其他设备。用户可向系统询问有关各种主题的信息,例如天气、个人日历事件、电影放映时间等。在一些示例中,智能数字助理系统还可被配置成控制位于起居室4内的元件,诸如电视6、音乐系统的扬声器8、燃气壁炉14或电动窗帘16。智能数字助理系统还可被用于接收和存储将在合适的未来时刻被递送的消息和/或提醒。使用从各传感器接收到的数据,智能数字助理系统可跟踪一个或多个用户或其他实体和/或与一个或多个用户或其他实体通信。在一些示例中,计算设备10可使用有线连接与一个或多个其他计算设备可操作地连接,或者可经由Wi-Fi、蓝牙或任何其他合适的无线通信协议采用无线连接。例如,计算设备10可经由网络通信地耦合到一个或多个其他计算设备。网络可采取局域网(LAN)、广域网(WAN)、有线网络、无线网络、个域网、或其组合的形式,并且可包括因特网。关于计算设备10的组件和计算方面的附加细节在下文中参考图26更详细地描述。应当理解,图1的计算设备10仅仅是本公开的智能数字助理系统的一个示例实现。跨两个或更多个设备的附加示例实现在图17-22中被例示并且在下文中更详细地被描述。架构图2示出了根据本公开的各示例的用于实现能够识别并响应自然语言输入的智能数字助理系统20的示例逻辑架构。如下文更详细地描述的,在各种示例中,系统20可在单个计算设备中被实现、可跨两个或更多个设备被实现、可在支持云的网络中被实现以及在前述各项的组合中被实现。在此示例中,智能数字助理系统20包括至少一个传感器22、实体跟踪器100、话音监听器30、解析器40、意图处理器50、承诺引擎60和至少一个输出设备70。在一些示例中,传感器22可包括一个或多个话筒24、可见光相机26、红外相机27和诸如Wi-Fi或蓝牙模块之类的连接设备28。在一些示例中,(诸)传感器22可包括立体和/或深度相机、头部跟踪器、眼睛跟踪器、加速度计、陀螺仪、注视检测设备、电场感测部件、GPS或其他位置跟踪设备、温度传感器、设备状态传感器、和/或任何其他合适的传感器。实体跟踪器100被配置成检测实体(包括人、动物或其他生物以及非生物对象)及其活动。实体跟踪器100包括实体标识符104,其被配置成识别各个用户和/或非生命对象。话音监听器30接收音频数据并利用语音识别功能将口述话语翻译成文本。话音监听器还可为经翻译的文本分配(诸)置信值,并本文档来自技高网...

【技术保护点】
1.一种智能数字助理系统,包括:至少一个话筒,所述至少一个话筒被配置成接收音频输入;扬声器,所述扬声器被配置成发出音频输出;以及处理器,所述处理器被配置成:参与与第一用户的对话;在所述第一用户参与与所述系统的所述对话的同时,识别所述音频输入中的第二用户的语音;处理所述第二用户的经识别的语音以确定上下文;以及根据所述上下文执行预定的对话解缠动作。

【技术特征摘要】
【国外来华专利技术】2017.02.14 US 62/459,020;2017.04.05 US 62/482,165;1.一种智能数字助理系统,包括:至少一个话筒,所述至少一个话筒被配置成接收音频输入;扬声器,所述扬声器被配置成发出音频输出;以及处理器,所述处理器被配置成:参与与第一用户的对话;在所述第一用户参与与所述系统的所述对话的同时,识别所述音频输入中的第二用户的语音;处理所述第二用户的经识别的语音以确定上下文;以及根据所述上下文执行预定的对话解缠动作。2.如权利要求1所述的智能数字助理系统,其特征在于,在参与与所述第一用户的对话时,所述处理器:通过所述话筒接收所述音频输入;在所述音频输入中识别出所述第一用户的语音;对所述音频输入中的所述第一用户的所述语音执行发言者感知的语音到文本转换,从而输出针对所述第一用户的因发言者而异的文本;以及基于针对所述用户的所述因发言者而异的文本来确定所述第一用户正在对所述智能数字助理系统说话。3.如权利要求2所述的智能数字助理系统,其特征在于,所述第一用户是在所述话筒附近发言的多个用户中的一个用户;以及所述处理器通过对所述音频输入执行发言者分割聚类并确定激活所述系统的是所述第一用户来确定所述第一用户正在对所述智能数字助理系统说话。4.如权利要求1所述的智能数字助理系统,其特征在于,所述解缠动作是忽略所述第二用户的语音。5.如权利要求1所述的智能数字助理系统,其特征在于,所述解缠动作是输出指示所述第二用户停止发言并等待直到被提示继续发言的音频指令。6.如权利要求1所述的智能数字助理系统,其特征在于,所述解缠动作是输出指示所述第二用户停止发言并稍后尝试重新发起对话的音频指令。7.如权利要求1所述的智能数字助理系统,其特征在于,所述处理器识别出所述第二用户正参与与所述第一用户的侧边栏对话,以及所述解缠动作是将所述侧边栏对话存储为所述第一用户对话的上下文。8.如权利要求7所述的智能数字助理系统,其特征在于,与所述第一用户的所述对...

【专利技术属性】
技术研发人员:ES·芬克尔斯坦H·Y·M·方O·所罗门K·C·赫罗尔德
申请(专利权)人:微软技术许可有限责任公司
类型:发明
国别省市:美国,US

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1