助理系统中手势输入的自动完成技术方案

技术编号:27229841 阅读:22 留言:0更新日期:2021-02-04 11:54
在一个实施例中,一种方法包括从与第一用户相关联的客户端系统接收用户输入,其中用户输入包括由第一用户执行的不完整手势,由意图理解模块计算对应于不完整手势的一个或更多个意图的一个或更多个置信度分数,确定与每个意图相关联的所计算的置信度分数低于阈值分数,响应于确定每个意图的所计算的置信度分数低于阈值分数,基于个性化手势识别模型从多个预定义手势中选择候选手势,其中每个候选手势与表示第一用户打算输入相应候选手势的可能性的置信度分数相关联,以及向客户端系统发送用于呈现对应于一个或更多个候选手势的一个或更多个建议输入的指令。或更多个建议输入的指令。或更多个建议输入的指令。

【技术实现步骤摘要】
【国外来华专利技术】助理系统中手势输入的自动完成


[0001]本公开总体上涉及网络环境内基于机器学习技术的对话管理,并且具体地涉及用于智能助理(smart assistant)系统的硬件和软件。
[0002]背景
[0003]助理系统可以基于用户输入、位置感知和从各种在线来源访问信息(如天气状况、交通拥堵、新闻、股票价格、用户日程、零售价格等)的能力的组合来代表用户提供信息或服务。用户输入可以包括文本(例如,在线聊天)(尤其是在即时消息传递应用或其他应用中的文本)、声音(voice)、图像、运动、取向(orientation)、或它们的组合。助理系统可以基于用户输入来执行礼宾类型的(concierge-type)服务(例如,预订晚餐、购买活动门票、安排旅行)或者提供信息。助理系统也可以基于在线信息和事件执行管理或数据处理任务,而无需用户启动或交互。可以由助理系统执行的那些任务的示例可以包括日程管理(例如,对晚餐约会发送用户由于交通状况而要迟到的告警信息,更新双方的日程,以及改变餐馆预订时间)。助理系统可以通过计算设备、应用编程接口(API)、以及用户设备上应用激增(proliferation)的组合来实现。
[0004]可以包括社交网络网站的社交网络系统可以使它的用户(例如个人或组织)能够与它交互以及通过它彼此交互。社交网络系统可以利用来自用户的输入来在社交网络系统中创建并存储与用户相关联的用户简档(user profile)。用户简档可以包括用户的人口统计信息、通信渠道信息以及关于个人兴趣的信息。社交网络系统还可以用来自用户的输入来创建并存储用户与社交网络系统的其他用户的关系的记录,以及提供服务(例如,简档/动态消息(news feed)帖子、照片分享、事件组织、消息传递、游戏或广告)以便于在用户之间或当中的社会交互。
[0005]社交网络系统可以通过一个或更多个网络向用户的移动设备或其他计算设备发送与它的服务相关的内容或消息。用户还可以在用户的移动设备或其他计算设备上安装软件应用,用于访问用户的用户简档和在社交网络系统内的其他数据。社交网络系统可以生成一组个性化的内容对象以显示给用户,例如关连(connect)到该用户的其他用户的汇集的动态(story)的动态消息。
[0006]特定实施例概述
[0007]在特定实施例中,助理系统可以帮助用户获得信息或服务。助理系统可以使用户能够在有状态和多轮会话(stateful and multi-turn conversations)中通过多模态(multi-modal)用户输入(如声音、文本、图像、视频、运动、取向)与它进行交互,以获得帮助。助理系统可以创建和存储用户简档,该用户简档包括与用户相关联的个人信息和上下文信息(contextual information)。在特定实施例中,助理系统可以使用自然语言理解来分析用户输入。分析可以基于用户简档,以获得更个性化和上下文感知的理解。助理系统可以基于分析来解析(resolve)与用户输入相关联的实体。在特定实施例中,助理系统可以与不同的代理交互,以获得与解析的实体相关联的信息或服务。助理系统可以通过使用自然语言生成来为用户生成关于信息或服务的响应。通过与用户的交互,助理系统可以使用对
话管理技术来管理和转发与用户的会话流。在特定实施例中,助理系统还可以通过汇总(summarize)信息来辅助用户有效且高效地消化所获得的信息。助理系统还可以通过提供帮助用户与在线社交网络交互(例如,创建帖子、评论、消息)的工具,来帮助用户更好地参与在线社交网络。助理系统另外可以帮助用户管理不同的任务,如持续跟踪事件。在特定实施例中,助理系统可以基于用户简档在没有用户输入的情况下主动执行与用户兴趣和偏好相关的任务。在特定实施例中,助理系统可以检查隐私设置,以确保根据用户的隐私设置来允许访问用户的简档或其他用户信息以及执行不同的任务。
[0008]在特定实施例中,助理系统可以接收由用户执行的处于第一模态的初始输入(例如对虚拟现实(VR)头戴式装置(headset)或增强现实(AR)智能眼镜的手势输入),该初始输入作为与基于助理的客户端系统的交互,基于初始输入以自动完成方式确定候选延续输入(continuation-input),并且以一种或更多种第二模态(例如,文本)向用户推荐这些候选延续输入,对于这些候选延续输入,用户可以选择其中之一来触发特定任务的执行。初始输入和延续输入可以基于任何合适的模态,包括文本、语音、图像、视频、运动、取向等。此外,初始输入的模态和延续输入的模态可以不同。作为示例而非限制,佩戴AR眼镜参观巴黎的用户可能正在看埃菲尔铁塔(Eiffel Tower)。基于凝视输入,助理系统可以建议显示在虚拟屏幕上的用于拍照的手势,或者建议用户说“拍照(take a picture)”。用户可以执行建议的手势或说出句子,以允许助理系统执行拍摄埃菲尔铁塔的任务。因此,助理系统可以具有处理一种模态的用户输入并生成一种或更多种其他模态的建议输入的能力,这可以被称为多模态用户输入的自动完成。尽管本公开描述了以特定方式经由特定系统生成特定多模态用户输入的特定自动完成,但是本公开设想了以任何合适的方式经由任何合适的系统生成任何合适的多模态用户输入的任何合适的自动完成。
[0009]在特定实施例中,助理系统可以从与第一用户相关联的客户端系统接收来自第一用户的初始输入。初始输入可以处于第一模态。在特定实施例中,助理系统可以通过意图理解模块来确定对应于初始输入的一个或更多个意图。助理系统然后可以基于一个或更多个意图生成一个或更多个候选延续输入。一个或更多个候选延续输入分别可以处于一种或更多种候选模态。候选模态可以不同于第一模态。在特定实施例中,助理系统还可以向客户端系统发送用于呈现对应于一个或更多个候选延续输入的一个或更多个建议输入的指令。
[0010]在特定实施例中,助理系统可以接收由用户执行的不完整手势,该不完整手势作为与基于助理的客户端系统(例如,VR头戴式装置或AR智能眼镜)的交互,基于不完整手势以自动完成的方式确定候选手势,向用户推荐这些候选手势,对于这些候选手势,用户可以选择它们中的一个来触发特定任务的执行。作为示例而非限制,佩戴AR眼镜的用户可能不知道执行什么手势来触发助理系统的特定功能。用户可以开始移动他/她的手,但是在空中暂停。因此,助理系统可以分析用户的不完整手势并确定可能的候选手势。助理系统可以通过AR眼镜向用户可视地显示这些候选手势。在用户选择了这些候选手势之一之后,助理系统还可以执行对应于该手势的任务。总之,助理系统可以对不完整的手势使用手势识别技术来确定用户意图的手势,并且向用户建议所确定的手势作为指导,这可以被称为手势输入的自动完成。尽管本公开描述了以特定方式经由特定系统生成特定手势输入的特定自动完成,但是本公开设想了以任何合适的方式经由任何合适的系统生成任何合适的手势输入的任何合适的自动完成。
[0011]在特定实施例中,助理系统可以从与第一用户相关联的客户端系统接收来自第一用户的用户输入。用户输入可本文档来自技高网
...

【技术保护点】

【技术特征摘要】
【国外来华专利技术】1.一种方法,包括由一个或更多个计算系统:从与第一用户相关联的客户端系统接收包括由所述第一用户执行的不完整手势的用户输入;由意图理解模块计算对应于所述不完整手势的一个或更多个意图的一个或更多个置信度分数;确定与每个意图相关联的所计算的置信度分数低于阈值分数;响应于确定每个意图的所计算的置信度分数低于所述阈值分数,基于个性化手势识别模型,从多个预定义手势中选择一个或更多个候选手势,其中,每个候选手势与表示所述第一用户打算输入相应候选手势的可能性的置信度分数相关联;以及向所述客户端系统发送用于呈现对应于一个或更多个所述候选手势的一个或更多个建议输入的指令。2.根据权利要求1所述的方法,还包括:对于所述一个或更多个候选手势中的每一个,计算该候选手势相对于所述不完整手势的相似度。3.根据权利要求2所述的方法,其中,每个候选手势相对于所述不完整手势的相似度基于所述不完整手势相对于所述客户端系统的轨迹。4.根据权利要求2所述的方法,其中,每个候选手势相对于所述不完整手势的相似度基于所述不完整手势相对于所述客户端系统的取向。5.根据权利要求2所述的方法,其中,每个候选手势相对于所述不完整手势的相似度基于与所述不完整手势相关联的对象。6.根据权利要求2所述的方法,其中,每个候选手势相对于所述不完整手势的相似度基于与所述不完整手势相关联的上下文信息。7.根据权利要求2所述的方法,其中,每个候选手势相对于所述不完整手势的相似度基于所述不完整手势相对于所述客户端系统的位置。8.根据权利要求1所述的方法,其中,所述阈值分数基于由所述第一用户执行的唤醒手势。9.根据权利要求1所述的方法,其中,计算对应于所述不完整手势的一个或更多个意图的一个或更多个置信度分数是基于与所述不完整手势相关联的速度。10.根据权利要求1所述的方法,其中,计算对应于所述不完整手势的一个或更多个意图的一个或更多个置信度分数是基于与所述不完整手势相关联的时间信息,并且其中,所述时间信息包括所述用户输入中的暂停。11.根据权利要求1所述的方法,还包括:从所述客户端系统接收来自所述第一用户的用户选择的输入,其中,所述用户选择的输入包括所述建议输入之一;以及基于所述用户选择的输入执行一个或更多个任务。12.根据权利要求1所述的方法,其中,选择所述一个或更多个候选手势还基于所述一个或更多个意图。13.根据权利要求1所述的方法,其中,每个预定义手势包括指向、戳、轻击、挥动或滑动中的一个或更多个。
14.根据权利要求1所述的方法,还包括:从所述客户端系统接收来自所述第一用户的第一用户选择的输入,其中,所述第一用户选择的输入包括所述建议输入之一,并且其中,所述第一用户选择的输入与第一意图相关联;基于所述第一用户选择的输入,生成一个或更多个附加候选手势,其中,所述一个或更多个附加候选手势中的每一个都与所述第一意图相关联;向所述客户端系统发送用于呈现对应于一个或更多个所述附加候选手势的一个或更多个附加建议输入的指令;从所述客户端系统接收来自所述第一用户的第二用户选择的输入,其中,所述第二用户选择的输入包括所述附加建议输入之一;以及基于所述第二用户选择的输入执行一个或更多个任务。15.体现软件的一个或更多个计算机可读非暂时性存储介质,所述软件在被执行时可操作来:从与第一用户相关联的客户端系统接收包括由所述第一用户执行的不完整手势的用户输入;由意图理解模块计算对应于所述不完整手势的一个或更多个意图的一个或更多个置信度分数;确定与每个意图相关联的所计算的置信度分数低于阈值分数;响应于确定每个意图的所计算的置信度分数低于所述阈值分数,基于个性化手势识别模型,从多个预定义手势中选择一个或更多个候选手势,其中,每个候选手势与表示所述第一用户打算输入相应候选手势的可能性的置信度分数相关联;以及向所述客户端系统发送用于呈现对应于一个或更多个所述候选手势的一个或更多个建议输入的指令。16.根据权利要求15所述的介质,其中,所述软件在被执行时还可操作来:对于所述一个或更多个候选手势中的每一个,计算该候选手势相对于所述不完整手势的相似度。17.根据权利要求15所述的介质,其中,每个候选手势相对于所述不完整手势的相似度基于所述不完整手势相对于所述客户端系统的轨迹。18.根据权利要求15所述的介质,其中,每个候选手势相对于所述不完整手势的相似度基于所述不完整手势相对于所述客户端系统的取向。19.根据权利要求15所述的介质,其中,每个候选手势相对于所述不完整手势的相似度基于与所述不完整手势相关联的对象。20.一种系统,包括:一个或更多个处理器;和耦合到所述处理器的非暂时性存储器,所述非暂时性存储器包括所述处理器能够执行的指令,所述处理器在执行所述指令时可操作来:从与第一用户相关联的客户端系统接收包括由所述第一用户执行的不完整手势的用户输入;由意图理解模块计算对应于所述不完整手势的一个或更多个意图的一个或更多个置信度分数;
确定与每个意图相关联的所计算的置信度分数低于阈值分数;响应于确定每个意图的所计算的置信度分数低于所述阈值分数,基于个性化手势识别模型,从多个预定义手势中选择一个或更多个候选手势,其中,每个候选手势与表示所述第一用户打算输入相应候选手势的可能性的置信度分数相关联;以及向所述客户端系统发送用于呈现对应于一个或更多个所述候选手势的一个或更多个建议输入的指令。21.一种方法,特别地用于在助理系统中使用,所述方法用于通过使用户能够在会话中利用用户输入与所述助理系统交互以获取帮助,来帮助用户获得信息或服务,其中,所述用户输入包括声音、文本、图像、视频、运动或取向或它们的任意组合,所述助理系统特别地通过计算设备、应用编程接口(API)、以及用户设备上应用激增的组合来实现,所述方法包括,由一个或更多个计算系统:从与第一用户相关联的客户端系统接收包括由所述第一用户执行的不完整手势的用户输入;由意图理解模块计算对应于所述不完整手势的一个或更多个意图的一个或更多个置信度分数;确定与每个意图相关联的所计算的置信度分数低于阈值分数;响应于确定每个意图的所计算的置信度分数低于所述阈值分数,基于个性化手势识别模型,从多个预定义手势中选择一个或更多个候选手势,其中,每个候选手势与表示所述第一用户打算输入相应候选手势的可能性的置信度分数相关联;以及向所述客户端系统发送用于呈现对应于一个或更多个所述候选手势的一个或更多个建议输入的指令。22.根据权利要求21所述的方法,还包括:对于所述一个或更多个候选手势中的每一个,计算该候选手势相对于所述不完整手势的相似度。23.根据权利要求22所述的方法,其中,每个候选手势相对于所述不完整手势的相似度基于以下一项或更多项:-所述不完整手势相对于所述客户端系统的轨迹-所述不完整手势相对于所述客户端系统的取向-与所述不完整手势相关联的对象-与所述不完整手势相关联的上下文信息-所述不完整手势相对于所述客户端系统的位置。24.根据权利要求21至23中任一项所述的方法,其中,所述阈值分数基于由所述第一用户执行的唤醒手势。25.根据权利要求21至24中任一项所述的方法,其中,计算对应于所述不完整手势的一个或更多个意图的一个或更多个置信度分数是基于与所述不完整手势相关联的速度。26.根据权利要求21至25中任一项所述的方法,其中,计算对应于所述不完整手势的一个或更多个意图的一个或更多个置信度分数是基于与所述不完整手势相关联的时间信息,并且其中,所述时间信息包括所述用户输入中的暂停。27.根据权利要求21至26中任一项所述的方法,还包括:
从所述客户端系统接收来自...

【专利技术属性】
技术研发人员:威廉
申请(专利权)人:脸谱科技有限责任公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1